Gemma 3 – 开源多模态 AI 模型的新标杆

Gemma 3 是什么

Gemma 3 是谷歌于 2025 年 3 月 12 日推出的一款开源多模态轻量级 AI 模型 。它基于与 Gemini 2.0 模型相同的研究和技术构建,专为开发者设计,可用于构建 AI 应用,能适配从手机到工作站等各种设备。该模型支持超过 35 种语言,具备分析文本、图像及短视频的能力,并提供四种不同尺寸的模型,即 1B、4B、12B 和 27B 参数版本,以满足不同硬件和性能需求。

核心功能

  • 多模态处理能力 :Gemma 3 支持文本、图像及短视频的混合输入,能够处理复杂的多模态任务,如图像问答、视频内容分析等。其 4B、12B 和 27B 模型版本具备视觉 - 语言能力,可通过定制版的 SigLIP 视觉编码器,将图像转化为模型可处理的软标记序列,还采用了 “Pan and Scan”(P

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注