精选· 重要性 4/5
谷歌开源扩散模型 DiffusionGemma,推理速度超500 token/秒
Simon Willison's Weblog··约 1 分钟阅读
中文导读
谷歌去年短暂发布的实验性扩散模型 Gemini Diffusion 以开源形式回归,新模型 DiffusionGemma 采用 Apache 2 许可,在 NVIDIA NIM 云 API 上免费托管,推理速度超过 500 token/秒。
2026年6月10日-链接博客扩散Gemma(via)去年五月,谷歌短暂发布了实验性的Gemini扩散模型。我当时尝试了预览,并记录了它以857个代币/秒的速度运行。这是一个令人兴奋的模型,但谷歌没有进一步宣布它。
这项研究已经以最好的方式回归:作为新的开重量(Apache 2许可)Gemma模型,google/diffusiongemma-26 B-A4 B-it。NVIDIA目前正在其NIM云API上免费托管该模型。
我使用该API来生成这个鹈鹕,这需要4.4秒(根据uv运行时间generate.py)返回2,409个代币-因此每秒至少500个代币。
最近的文章- 克劳德寓言的初步印象2026年6月5日至9日- 使用MicroPython和WASM在沙箱中运行Python代码-2026年6月6日- Claude Opus 4.8:“适度但切实的改进”-2026年5月28日