未分类
FramePack – 视频生成领域的新突破
FramePack 是什么 FramePack 是斯坦福大学推出的一种开源视频生成技术,通过创新的帧上下文压缩方法,解决了传统视频生成模型中的 “遗忘” 和 “漂移” 问题...
FastAPI-MCP – 桥接 FastAPI 与 AI 模型的零配置 MCP 工具
FastAPI-MCP 是什么 FastAPI-MCP 是一款开源的零配置工具,专为 FastAPI 框架设计,可自动将 FastAPI 应用的端点暴露为模型上下文协议(MCP)工具,从而使...
MineWorld – 开启智能交互新视界
MineWorld是什么 MineWorld是微软研究院于2025年4月14日开源的基于《我的世界》(Minecraft)的实时交互式世界模型,其目标是为智能体构建可感知、可推理...
HumanRig – 革新 3D 角色动画的自动绑定技术
HumanRig 是什么 HumanRig 是由阿里巴巴团队开发的 3D 人形角色自动绑定项目,专为解决现有 3D 动画和游戏开发中角色绑定难题而生。传统绑定需艺术家手动...
GigaTok – 开启图像生成新纪元的视觉分词器
GigaTok是什么 GigaTok 是由香港大学与字节跳动联合研发的视觉分词器,参数量高达 30 亿,专为自回归图像生成任务设计。它通过创新的语义正则化技术,将分...
SkyReels-V2 – 打破视频时长限制的 AI 革新
SkyReels-V2 是什么 SkyReels-V2 是昆仑万维 SkyReels 团队推出的全球首个使用扩散强迫框架的无限时长电影生成模型,结合多模态大语言模型(MLLM)、多阶...
OpenUtau – 开源歌声合成的 powerful 工具
OpenUtau - 开源歌声合成的 powerful 工具 OpenUtau 是一款开源的歌声合成编辑器,由开发者 Stakira 主导开发,旨在为 UTAU 社区提供现代化的编辑体验,实...
Gemma 3 QAT – 开源 AI 模型的消费级 GPU 适配先锋
Gemma 3 QAT 是什么 Gemma 3 QAT 是谷歌于 2025 年 4 月 17 日推出的 Gemma 3 的量化感知训练优化版本。它通过量化感知训练技术,在保持高质量的同时,显...
ImagePulse – 图像处理领域的开源创新力量
ImagePulse 是什么 ImagePulse(图律脉动)是魔搭社区推出的开源项目,旨在为下一代图像理解和生成模型提供数据集支持。该项目通过原子化分解图像处理能力...
SimpleAR – 自回归图像生成新势力
SimpleAR 是什么 SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。它采用简洁的自回归架构,通过优化训练和推理过...