未分类
PlayDiffusion – 开启音频编辑与多模态创新的新篇章
PlayDiffusion 是一款基于先进扩散模型技术的 AI 产品,由 Play AI 团队开发,旨在通过创新的音频编辑和多模态生成能力,为创作者、开发者和研究人员提供强大...
Auto Think – 智能思考新模式,开启高效 AI 应用新时代
Auto Think 是什么 Auto Think 是由快手 Kwaipilot 团队开源的一款自动思考大模型,旨在解决深度思考类大模型中存在的“过度思考”问题。该模型通过提出全新...
OmniAudio – 智能音频处理的未来
OmniAudio 是一款由 Nexa AI 和阿里巴巴通义实验室分别推出的先进音频处理技术,旨在通过人工智能为用户提供高效、精准的音频转文本、空间音频生成等服务。以...
OpenAudio S1 – 重塑语音生成的新标杆
OpenAudio S1是由Fish Audio推出的新一代文本转语音(TTS)模型,旨在通过先进的技术和灵活的功能,为用户提供高度自然、多样化的语音生成解决方案。 核心...
MoonCast – 开源零样本语音合成技术,革新播客内容创作
MoonCast 是一款开源的对话式语音合成模型,专为高质量播客内容创作量身打造,能够通过几秒人声样本生成自然的中英双语 AI 播客。它旨在将文档转化为引人入胜...
Gemini Fullstack LangGraph Quickstart – 开启智能研究助手的新篇章
Gemini Fullstack LangGraph Quickstart 是谷歌 DeepMind 推出的开源项目,旨在帮助开发者快速搭建基于 Google Gemini 2.5 和 LangGraph 的全栈智能研究助手...
DecipherIt – 助力高效研究的AI驱动工具
DecipherIt是什么 DecipherIt是一款受Google NotebookLM启发的开源AI研究助手工具,旨在帮助研究人员、学生和专业人士高效地探索、分析和整合来自网络的多...
Qwen3 Embedding – 引领多语言文本嵌入与检索的新标准
Qwen3 Embedding 是阿里巴巴通义千问团队推出的一款先进的文本嵌入模型,旨在为文本表示、检索和排序任务提供高效且灵活的解决方案。该模型基于强大的 Qwen3 ...
Qwen3 Reranker – 高效精准的文本重排序解决方案
Qwen3 Reranker 是阿里巴巴通义实验室开源的文本重排序模型,属于 Qwen3 系列模型的一部分,专为提升搜索和推荐系统的相关性排序能力而设计。该模型基于 Qwen...
Eleven v3 – 领先的AI语音合成技术
Eleven v3是由ElevenLabs推出的最新文本转语音(TTS)模型,被誉为目前最具表现力的AI语音模型。它通过创新的音频标签技术,实现了对语音情感、语调和音效的...