Nova Sonic – 重新定义语音交互体验的 AI 语音模型
一、Nova Sonic 是什么
Nova Sonic 是亚马逊在 2025 年 4 月推出的新一代生成式 AI 语音模型,旨在解决传统语音应用开发中的复杂性和不自然交互问题。它将语音理解、语言处理和语音合成功能集成到一个单一模型中,实现了更自然、流畅的语音交互体验,通过亚马逊 Bedrock 开发者平台提供服务,具有显著的成本效益优势,价格比 OpenAI 的 GPT-4o 便宜约 80%,可广泛应用于客户服务、旅游、教育、医疗、娱乐等多个行业。
二、核心功能
- 原生语音处理与高准确性 :能高效处理语音输入,生成自然流畅的语音输出。采用 HiFi 语音识别技术,在嘈杂环境或用户发音不清晰时,仍能准确理解意图,在多语言 LibriSpeech 基准测试中,英语、法语、意大利语、德语和西班牙语的平均单词错误率仅为 4.2%。
- 自然对话能力 :可捕捉说话者的停顿、打断等情况,在合适的时机发言,使对话更自然流畅,并能根据说话者的语调、风格等声学上下文调整生成的语音响应,对话更自然。
- 实时信息获取与请求路由 :可智能判断何时从互联网获取实时信息,为用户提供更优解答。还能根据上下文信息,将用户请求路由到不同 API,灵活调用互联网信息、解析专有数据源或在外部应用程序中采取行动。
- 文本记录生成 :可为用户的语音生成文本记录,开发者可将这些文本用于各种应用场景,如触发 API 或与专有工具交互。
三、技术原理
- 高精度语音识别 :采用 HiFi 语音识别技术,能够在嘈杂环境或用户发音不清晰的情况下,准确理解用户的意图。在多语言 LibriSpeech 基准测试中,Nova Sonic 在英语、法语、意大利语、德语和西班牙语上的平均单词错误率(WER)仅为 4.2%,显著优于其他竞品。
- 双向流式 API :通过亚马逊的 Bedrock 开发者平台提供服务,采用创新的双向流式 API 接口,能实现音频输入和输出的实时双向流式传输,确保对话的流畅性。
四、支持平台
Nova Sonic 通过亚马逊 Bedrock 平台提供服务,目前支持多种语言,尤其在美国英语和英国英语的语音理解上表现卓越,支持多样的说话风格和口音,未来计划扩展对更多语言和口音的支持。
五、团队介绍
亚马逊人工通用智能(AGI)高级副总裁兼首席科学家 Rohit Prasad 表示,Nova Sonic 的推出不仅是技术的进步,也是公司在人工智能领域持续创新的体现。亚马逊在语音助手和智能对话系统领域拥有多年的技术积累和经验,为 Nova Sonic 的研发和优化提供了强大的支持。
六、项目资源
- 项目官网 :https://aws.amazon.com/bedrock/
- 相关报道 :https://www.aboutamazon.com/news/innovation-at-amazon/nova-sonic-voice-speech-foundation-model
七、业务场景
- 客户服务 :可用于构建自动化的客户服务呼叫中心,能理解客户的问题并提供准确的解答,根据客户的情绪调整回应的语气,提升客户满意度。
- 旅游 :可作为虚拟旅游助手,帮助用户规划行程、预订机票和酒店等,为用户提供额外的便利和个性化的服务体验。
- 教育 :可用于开发语言学习应用,为学习者提供实时发音反馈,帮助他们提高语言能力,使语言学习更加高效和有趣。
- 医疗保健 :可协助医生与患者进行沟通,提供医疗信息和建议,为医疗咨询和健康管理工作提供支持。
- 娱乐 :可用于创建语音交互式的游戏和虚拟角色,提升用户的娱乐体验,增加游戏的趣味性和沉浸感。