未分类
Jodi – 视觉生成与理解的统一框架
Jodi是什么 Jodi是由中国科学院计算技术研究所和中国科学院大学联合开发的视觉理解与生成统一模型。它基于扩散模型架构,通过联合建模图像域和多个标签域...
Ming-lite-omni – 开源多模态大模型的创新突破
Ming-lite-omni 是蚂蚁集团于 2025 年 5 月开源发布的统一多模态大模型,旨在通过单一架构实现文本、图像、音频和视频等多种模态的理解与生成能力。该模型基...
Ming-lite-omni – 开源多模态大模型的创新突破
Ming-lite-omni 是蚂蚁集团于 2025 年 5 月开源发布的统一多模态大模型,旨在通过单一架构实现文本、图像、音频和视频等多种模态的理解与生成能力。该模型基...
AI-Media2Doc – 开源音视频转文档利器,助力高效创作与知识管理
AI-Media2Doc是一款基于AI大模型的开源Web工具,旨在将音视频内容一键转化为多种风格的文档,包括小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等。...
AI-Media2Doc – 开源音视频转文档利器,助力高效创作与知识管理
AI-Media2Doc是一款基于AI大模型的开源Web工具,旨在将音视频内容一键转化为多种风格的文档,包括小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等。...
DeepSeek-R1-0528 – 开源AI推理领域的深度突破
DeepSeek-R1-0528 是由 DeepSeek 团队于 2025 年 5 月 28 日发布的最新版本推理模型,定位为开源 AI 领域的高性能竞争者。该模型在深度思考、推理能力、编程...
CoGenAV – 音画同步的多模态语音表征模型
CoGenAV 是什么 CoGenAV(Contrastive-Generative Audio-Visual Representation Learning)是由通义团队与深圳技术大学联合推出的先进多模态学习模型。它...
OmniConsistency – 低成本高效率的图像风格化一致性解决方案
OmniConsistency是什么 OmniConsistency是由新加坡国立大学Show Lab团队推出的一款基于扩散Transformer架构的通用一致性增强插件。它旨在解决开源图像风格...
可灵2.1 – 高性价比的AI视频生成新标杆
可灵2.1是由快手推出的全新AI视频生成模型,旨在为用户提供高效、高质量且极具性价比的视频创作解决方案。该产品在性能、速度和成本控制上实现了全面升级,进...
Chatterbox – 开启智能语音合成的新篇章
Chatterbox是什么 Chatterbox是由Resemble AI开发的一款生产级开源文本到语音(TTS)模型。它基于强大的0.5B参数Llama架构,经过50万小时的高质量音频数据...