MoshiVis – 开源多模态语音模型，开启语音视觉交互新纪元

未分类 2025-06-23 0:40

MoshiVis 是什么

MoshiVis 是由 Kyutai 推出的开源多模态语音模型，基于 Moshi 实时对话语音模型开发，新增了视觉输入功能，可实现图像的自然、实时语音交互，能让用户通过语音与模型交流图像内容。

核心功能

技术原理

多模态融合机制 ：通过集成轻量级交叉注意模块，将视觉编码器的视觉信息注入到 Moshi 的语音标记流中。视觉编码器将图像特征提取出来后，通过交叉注意力机制与语音流进行融合，从而使模型能够理解图像内容并生成与之相关的语音回应。
动态门控机制 ：为了更好地处理视觉输入与非视觉对话主题之间的切换，MoshiVis 引入了动态门控机制。该机制可根据对话内容的上下文动态调整视觉信息的影响力，确保模型在讨论图像相关话题时能充分利用视觉输入，在其他话题中减少视觉信息的干扰，提高对话的自然性和流畅性。
参数高效微调 ：采用了单阶段、参数高效的微调流程。在训练过程中，模型利用图像 - 文本和图像 - 语音样本的混合数据进行训练，降低了训练成本并提高了模型的适应性，减少了对大规模图像 - 语音配对数据的需求，同时保留了语音模型的韵律特征，如说话者的语调。

支持平台

MoshiVis 支持 PyTorch、Rust 和 MLX 三种后端，用户可基于这些后端平台进行开发和部署，以满足不同的应用场景和硬件需求。推荐使用 Web UI 前端进行交互。

团队介绍

MoshiVis 由 Kyutai 团队开发，该团队在多模态 AI 领域具有一定的技术积累和创新能力，致力于推动开源多模态语音模型的发展和应用。

项目资源

业务场景

无障碍辅助 ：帮助视障人士通过语音交互理解周围的视觉环境，如识别物体、场景等，为他们的生活和出行提供便利，如在超市购物时，可询问具体商品的位置。
直播解说 ：直播团队可利用 MoshiVis 实现实时双语画外音解说，提升直播内容的丰富度和专业度，为观众带来更好的观看体验。
智能教育 ：在教育领域，可用于辅助教学，如帮助学生理解图像中的知识点，解答与图像相关的问题，提高学习的趣味性和效果。
智能客服 ：作为智能客服系统的一部分，MoshiVis 能够理解和处理用户的语音咨询，并结合相关图像信息，提供更准确和详细的解答，提升客户服务的质量和效率。