Chinese-LiPS – 开启中文多模态语音识别新时代

未分类 2025-06-22 14:21

Chinese-LiPS 是什么

Chinese-LiPS 是由智源研究院联合南开大学于 2025 年发布的一个高质量中文多模态语音识别数据集，包含 100 小时的语音、视频和手动转录文本，创新性地融合了唇读视频和演讲者的幻灯片内容。这些幻灯片由领域专家精心设计，确保了视觉图像的高质量和丰富性，为语音识别提供了更多辅助信息。

核心功能

提升语音识别性能 ：通过融合唇读信息和幻灯片语义信息，显著提升语音识别系统的性能。实验表明，唇读信息可使字符错误率降低约 8%，幻灯片信息可降低约 25%，两者结合则可降低约 35%。
减少错误类型 ：唇读信息在减少删除错误方面发挥作用，能捕捉到与发音相关的细节，有效补充语音识别中容易缺失的部分；幻灯片信息则显著降低了替换错误，为模型提供关键的识别线索，使其在面对专业词汇、地名等具有特定领域属性的词汇识别时表现更佳。
提供高质量多模态数据 ：作为高质量的多模态中文语音识别数据集，包含 100 小时的语音、视频和相应的手动转录，涵盖了唇读视频和演讲者的幻灯片，使音频视觉语音识别任务得到了更全面的探索。

技术原理

多模态数据融合 ：将语音、唇读信息、通过 OCR 技术从幻灯片提取的文本以及从图像和图形内容中获取的语义信息进行融合，为语音识别模型提供了更丰富的上下文和线索，显著提升了识别的准确性和鲁棒性。
唇读信息的作用 ：唇读能捕捉到与发音相关的细节，如填充词、因犹豫而未完整表达的语音片段等容易在语音识别中缺失的部分，借助唇读信息可有效补充，减少删除错误。
幻灯片信息的作用 ：幻灯片中包含丰富的语义和上下文信息，在面对专业词汇、地名等具有特定领域属性的词汇识别时，能为模型提供关键的识别线索，大幅降低替换错误。

支持平台

Chinese-LiPS 支持多种平台，包括但不限于以下平台：

Windows ：在 Windows 系统上能够稳定运行，方便用户在常见的个人电脑环境中使用该数据集进行相关的开发和测试工作。
macOS ：适用于苹果电脑系统，为苹果用户在语音识别研究和应用开发方面提供了有力支持。
Linux ：可在 Linux 平台上运行，满足了开发者在服务器端或特定开源环境下的使用需求，便于进行大规模的数据处理和模型训练等操作。

团队介绍

Chinese-LiPS 是由智源研究院与南开大学联合开发的。智源研究院在人工智能领域具有深厚的研究基础和丰富的资源，致力于推动人工智能技术的发展和应用；南开大学计算机学院的科研人员在语音识别、多模态数据处理等方面有着专业的研究团队和丰富的教学实践经验，为 Chinese-LiPS 的研发提供了强大的技术支持和学术保障。

项目资源

项目官网 ：https://data.baai.ac.cn/datadetail/Chinese-LiPS
Github 仓库 ：https://github.com/flageval-baai/Chinese-LiPS
HuggingFace 模型库 ：https://huggingface.co/datasets/BAAI/Chinese-LiPS
arXiv 技术论文 ：https://arxiv.org/pdf/2504.15066

业务场景

虚拟教师 ：能帮助制作互动式语言学习材料，使虚拟教师的讲解更生动。通过融合唇读信息和幻灯片语义信息，虚拟教师可以更自然地呈现教学内容，提高教学效果。
智能辅导 ：在智能辅导系统中，基于多模态语音识别技术，能更准确地理解学生的问题和需求，提供更个性化的辅导方案。
博物馆、展览馆讲解 ：在博物馆、展览馆等场所，虚拟讲解人可以利用数据集提供的多模态信息，更生动、准确地介绍展品和展览内容，提升观众的参观体验。
企业产品介绍 ：企业可以利用数据集制作虚拟讲解人，用于产品介绍、培训等场景，提高信息传递的效率和准确性。