精选· 重要性 4/5

Gemma 4 12B：统一无编码器多模态模型，本地运行先进智能体

Hacker News (AI)·7 天前·rvz·约 4 分钟阅读

Hacker News 1032 分

中文导读

Google发布Gemma 4 12B，一款无需独立编码器即可直接处理视觉和音频输入的多模态模型，性能接近更大模型但内存占用减半，可在16GB内存的笔记本上本地运行，推动多模态智能体应用普及。

介绍Gemma 4 12B：统一、无编码器的多模态模型今天，我们推出Gemma 4 12B，这是我们的最新型号，旨在将智能体多模态智能直接带到笔记本电脑中。

Gemma 4 12B缩小了我们的边缘友好型E4B和更先进的26B专家混合（MoE）之间的差距，在更小的内存占用空间内封装了强大的功能。它也是我们第一款具有原生音频输入的中型型号。得益于开发者社区，Gemma 4型号的下载量现已突破1.5亿次。

您已经构建了一切，从用于物理辅助的可穿戴机器人手臂到企业级AI安全。我们很高兴看到您用这个最新版本构建了什么。以下是Gemma 4 12B独特之处的概述：- 新颖的统一架构：没有多模态编码器。

视觉和音频输入直接流入LLM主干网络。- 高级推理：基准性能接近我们的26B模型，释放强大的多步骤推理和智能体工作流程。- 笔记本电脑就绪：小到可以在本地运行，只需16GB VRAM或统一内存。

- 开放且易于访问：在Apache 2.0许可证下发布，支持整个开发者生态系统。- 准备起草：Gemma 4 12B配备了多令牌预测（MTP）起草器，以减少延迟。这些功能共同为日常硬件带来了先进的多模态能力，而不会牺牲速度或推理。

现在让我们仔细看看Gemma 4 12B如何实现这一目标。

在本地运行最先进的智能体Gemma 4 12B在标准基准测试中的性能接近我们更大的26B MoE模型，但总内存占用不到一半。它足够小，可以在具有16GB RAM的消费级笔记本电脑上本地运行，在您的机器上解锁强大的多模态和智能体体验。

体验独特高效、统一的架构Gemma 4 12B脱颖而出的原因是其处理视觉和音频输入的简化方法。传统的多模态模型通常依赖于单独的编码器来翻译图像和音频，然后将这些表示传递给语言模型。

由于这些分离的编码器增加了延迟并增加了内存使用，我们使用无编码器架构训练Gemma 4 12B，以直接集成音频和视觉输入。

以下是Gemma 4 12B如何原生处理多模态输入：- 视觉：我们用轻量级嵌入模块取代了Gemma 4的视觉编码器，该模块由单个矩阵乘法、位置嵌入和归一化组成。这使得LLM主干网络能够接管视觉处理。

- 音频：我们进一步简化了音频处理。我们完全移除了音频编码器，并将原始音频信号投影到与文本令牌相同的维度空间中。对于想要详细了解的开发人员，请参阅我们的配套Gemma 4 12B开发者指南。

今天开始- 自己尝试：在LM Studio、Ollama、Google AI Edge Gallery应用、Google AI Edge Eloquent应用和LiteRT-LM CLI中点击几下即可体验- 下载权重：

直接从Hugging Face和Kaggle下载预训练和指令微调的检查点。- 集成与学习：查看开发者文档和快速入门笔记本。

- 使用您最喜欢的开发工具：使用Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM实现本地推理管道，或使用Unsloth进行高效微调。

- 利用Gemma Skills进行智能体开发：为了支持智能体利用最新的Gemma进展进行构建，我们正在发布官方技能库。这是一个专门设计的技能库，旨在使智能体能够使用Gemma模型进行构建。- 以您的方式部署：使用Google Cloud在生产环境中启动端点。

通过Gemini Enterprise Agent Platform Model Garden、Cloud Run和GKE进行部署。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读