未分类
VoltAgent – 开源框架助力 AI 应用开发
VoltAgent 是什么 VoltAgent 是一个开源的 TypeScript 框架,专为构建和编排 AI 代理而设计,为开发者提供了构建 AI 应用的基础设施和工具,简化了与大语...
Aero-1-Audio – 轻量级音频处理的革新之力
Aero-1-Audio是什么 Aero-1-Audio是由LMMs-Lab精心打造的一款轻量级音频处理模型,基于Qwen-2.5-1.5B架构构建,仅包含1.5亿参数。其核心优势在于极低的参...
DianJin-R1 – 金融领域的推理增强利器
DianJin-R1 是什么 DianJin-R1 是阿里云通义点金团队与苏州大学联合推出的金融领域推理增强大模型,专为金融任务优化设计,于 2025 年 4 月 18 日发布 。...
X-fusion:多模态融合的前沿探索
X-Fusion是什么 X-Fusion是由加州大学洛杉矶分校、威斯康星大学麦迪逊分校和Adobe Research等联合推出的多模态融合框架,旨在将预训练的大型语言模型(LLM...
Phi-4-reasoning – 赋能复杂推理:微软 Phi-4-reasoning 系列模型的全方位解析
Phi-4-reasoning 是什么 Phi-4-reasoning 是微软于 2025 年推出的新一代小型推理语言模型系列,基于微软自研的 Phi-4 模型,专为复杂推理任务设计。该系列...
Paper2Coder – 从论文到代码的智能桥梁
Paper2Coder是什么 Paper2Coder 是由韩国科学技术院和 DeepAuto.ai 联合推出的多智能体大语言模型(LLM)框架,专为机器学习领域设计,可将科学论文自动转...
HoloTime – 开启全景4D场景新纪元的AI产品
HoloTime是什么 HoloTime是由北京大学深圳研究生院和鹏城实验室联合推出的全景4D场景生成框架,基于视频扩散模型,可将单张全景图像转化为具真实动态效果...
T2I-R1 – 创新文本生成图像的推理增强模型
T2I-R1 是什么 T2I-R1 是由香港中文大学(深圳)多媒体实验室(MMLab)和上海人工智能实验室联合开发的新型推理增强型文本到图像生成模型。它通过引入双层...
Cobra – 高效能多模态 AI 与漫画线稿上色的创新融合
Cobra 是什么 Cobra 既是一个基于 Mamba 的多模态大语言模型,也是一个漫画线稿上色框架。作为多模态大语言模型,它由清华大学、香港中文大学和腾讯等机构...
KeySync – 革新唇形同步的 AI 产品
KeySync 是什么 KeySync 是帝国理工学院和弗罗茨瓦夫大学联合推出的高分辨率口型同步框架,可将输入音频与视频中的口型动作精准对齐,解决了现有方法在时...