AI 见闻
精选· 重要性 4/5

Gemma 4 12B:统一无编码器多模态模型,本地运行先进智能体

Hacker News (AI)··rvz·约 4 分钟阅读
Hacker News 1032
中文导读

Google发布Gemma 4 12B,一款无需独立编码器即可直接处理视觉和音频输入的多模态模型,性能接近更大模型但内存占用减半,可在16GB内存的笔记本上本地运行,推动多模态智能体应用普及。

介绍Gemma 4 12B:统一、无编码器的多模态模型今天,我们推出Gemma 4 12B,这是我们的最新型号,旨在将智能体多模态智能直接带到笔记本电脑中。

Gemma 4 12B缩小了我们的边缘友好型E4B和更先进的26B专家混合(MoE)之间的差距,在更小的内存占用空间内封装了强大的功能。它也是我们第一款具有原生音频输入的中型型号。得益于开发者社区,Gemma 4型号的下载量现已突破1.5亿次。

您已经构建了一切,从用于物理辅助的可穿戴机器人手臂到企业级AI安全。我们很高兴看到您用这个最新版本构建了什么。以下是Gemma 4 12B独特之处的概述:- 新颖的统一架构:没有多模态编码器。

视觉和音频输入直接流入LLM主干网络。- 高级推理:基准性能接近我们的26B模型,释放强大的多步骤推理和智能体工作流程。- 笔记本电脑就绪:小到可以在本地运行,只需16GB VRAM或统一内存。

- 开放且易于访问:在Apache 2.0许可证下发布,支持整个开发者生态系统。- 准备起草:Gemma 4 12B配备了多令牌预测(MTP)起草器,以减少延迟。这些功能共同为日常硬件带来了先进的多模态能力,而不会牺牲速度或推理。

现在让我们仔细看看Gemma 4 12B如何实现这一目标。

在本地运行最先进的智能体Gemma 4 12B在标准基准测试中的性能接近我们更大的26B MoE模型,但总内存占用不到一半。它足够小,可以在具有16GB RAM的消费级笔记本电脑上本地运行,在您的机器上解锁强大的多模态和智能体体验。

体验独特高效、统一的架构Gemma 4 12B脱颖而出的原因是其处理视觉和音频输入的简化方法。传统的多模态模型通常依赖于单独的编码器来翻译图像和音频,然后将这些表示传递给语言模型。

由于这些分离的编码器增加了延迟并增加了内存使用,我们使用无编码器架构训练Gemma 4 12B,以直接集成音频和视觉输入。

以下是Gemma 4 12B如何原生处理多模态输入:- 视觉:我们用轻量级嵌入模块取代了Gemma 4的视觉编码器,该模块由单个矩阵乘法、位置嵌入和归一化组成。这使得LLM主干网络能够接管视觉处理。

- 音频:我们进一步简化了音频处理。我们完全移除了音频编码器,并将原始音频信号投影到与文本令牌相同的维度空间中。对于想要详细了解的开发人员,请参阅我们的配套Gemma 4 12B开发者指南。

今天开始- 自己尝试:在LM Studio、Ollama、Google AI Edge Gallery应用、Google AI Edge Eloquent应用和LiteRT-LM CLI中点击几下即可体验- 下载权重:

直接从Hugging Face和Kaggle下载预训练和指令微调的检查点。- 集成与学习:查看开发者文档和快速入门笔记本。

- 使用您最喜欢的开发工具:使用Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM实现本地推理管道,或使用Unsloth进行高效微调。

- 利用Gemma Skills进行智能体开发:为了支持智能体利用最新的Gemma进展进行构建,我们正在发布官方技能库。这是一个专门设计的技能库,旨在使智能体能够使用Gemma模型进行构建。- 以您的方式部署:使用Google Cloud在生产环境中启动端点。

通过Gemini Enterprise Agent Platform Model Garden、Cloud Run和GKE进行部署。

原文出处
Gemma 4 12B: A unified, encoder-free multimodal model

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读