Qwen2.5-Omni – 多模态 AI 的全新里程碑

未分类 2025-06-23 0:34

Qwen2.5-Omni 是什么

Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型，拥有 70 亿参数规模，是一个端到端的全能感知模型，能够同时处理文本、图像、音频和视频输入，并通过流式生成技术实现实时文本与语音输出。

Thinker-Talker 架构 ：独创的 Thinker-Talker 双模块架构，Thinker 模块负责多模态信息的理解与语义表示生成，Talker 模块则将文本转化为自然流畅的语音。
TMRoPE 编码 ：时间对齐的多模态位置嵌入，解决音视频同步难题，将音频和视频帧用交错的方式组织，确保视频序列的时间顺序，将多模态输入的三维位置信息编码到模型中。
块状处理 ：将长序列数据分块处理，2 秒 / 块的实时处理效率，基于块状处理方法，将长序列的多模态数据分解为小块，分别处理，减少处理延迟。
三阶段训练 ：从单模态到多模态的渐进式能力提升，先固定语言模型参数训练编码器，再解冻全参数训练，最后通过长序列数据增强模型能力。

Qwen2.5-Omni 支持多种平台，包括 Hugging Face、ModelScope、DashScope 和 GitHub 等，为开发者和企业提供了便捷的访问和使用方式。

Qwen2.5-Omni 背后的团队是阿里巴巴的顶级 AI 研发团队，他们在人工智能领域拥有深厚的技术积累和丰富的实践经验，致力于推动 AI 技术的发展和创新。