未分类

Open Code Reasoning – 开启代码推理新纪元

Open Code Reasoning 是什么 Open Code Reasoning(OCR)是英伟达开源的代码推理 AI 模型,基于 Nemotron 架构,专为提升代码推理和生成能力设计,包含 32...

KuaiMod – 快手的短视频质量判别利器

KuaiMod 是什么 KuaiMod 是快手推出的一款基于多模态大模型的短视频质量判别框架,借鉴普通法体系,以案例驱动的方式动态更新审核策略,能够快速适应短视...

VITA-Audio – 开源的端到端多模态语音大模型,低延迟、推理快

一、VITA-Audio 是什么 VITA-Audio 是一款开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。它能够在首次前向传播中生成音频输出,将生成首...

Parakeet TDT 0.6B – 开源语音识别新标杆

Parakeet TDT 0.6B 是什么 Parakeet TDT 0.6B 是英伟达于 2025 年 5 月推出的一款先进开源自动语音识别(ASR)模型,采用 FastConformer 编码器和 TDT 解...

FunGPT – 开源情感调节大师,开启智能互动新体验

一、FunGPT 是什么 FunGPT 是基于 InternLM2.5 系列大模型开发的开源 AI 情感调节项目。它专为帮助用户调节情感而设计,能根据不同需求提供个性化的情感支...

SuperEdit – 图像编辑领域的新一代利器

SuperEdit 是由字节跳动智能创作团队与佛罗里达中央大学计算机视觉研究中心共同开发的一种基于指令引导的图像编辑方法,凭借其创新的技术和显著的优势,在图...

FlowGram – 开源可视化工作流搭建引擎,助力高效开发

FlowGram 是字节跳动开源的可视化工作流搭建引擎,专为 AI 应用场景设计,以下是具体其介绍: FlowGram 是什么 FlowGram 是一款基于节点编辑的可视化流...

Mogao – 多模态生成的全能基础模型

Mogao 是什么 :Mogao 是由字节跳动 Seed 团队推出的一款先进的交错多模态生成全基础模型,旨在处理和生成多种模态数据,尤其是文本和图像。它打破了传统单模...

Scenethesis 是英伟达推出的创新框架,能够根据文本描述自动生成交互式 3D 场景,结合了大型语言模型和视觉感知技术,通过多阶段流程实现高效生成。

核心功能 文本生成 3D 场景 :用户输入文本描述,AI 即可自动生成对应的 3D 场景,极大地简化了 3D 内容创作流程。 物理合理性 :生成的场景物体不会...

Seed-Coder – 开源代码模型系列的创新之作

Seed-Coder 是什么 Seed-Coder 是字节跳动推出的 8B 参数规模的开源代码模型系列,旨在提升代码生成与理解的能力。该系列包含 Base、Instruct 和 Reasonin...
1 31 32 33 34 35 50