谷歌推出DiffusionGemma开源模型

发布时间：2026-06-14 11:45:59

近日，谷歌DeepMind正式发布开源实验性模型 DiffusionGemma ，采用文本扩散架构，在专用GPU上文本生成速度较传统自回归大语言模型最高提升4倍。模型以Apache 2.0许可证开源发布，权重可从Hugging Face直接下载。

当前主流大语言模型（GPT、Gemini等）均采用 自回归架构 ——从左到右逐个生成Token，像打字机一样一个字一个字往外蹦。这种方式在云端批处理时效率尚可，但在本地GPU推理时受限于内存带宽，大量算力被浪费在等待数据搬运上。

DiffusionGemma换了一条路。它的工作方式更像图像生成模型：先初始化一块由256个随机占位Token组成的"画布"，然后经过多轮并行去噪，逐步优化整块内容，最终一次性输出完整文本。这意味着所有Token同时生成、同时优化，瓶颈从内存带宽转移到计算能力，充分发挥了GPU Tensor Core的并行优势。

更关键的是，模型支持 迭代自我纠正 ——在生成过程中能主动发现并修正错误，输出更加稳定一致。这一特性在数独求解、行内编辑、分子测序等非线性任务中优势明显，因为这类任务中每个Token都可能依赖未来的Token，自回归模型天生吃力。

DiffusionGemma采用 260亿参数混合专家（MoE）架构 ，但推理时仅激活38亿参数，量化后占用约18GB显存，RTX 5090级别的消费级显卡即可运行。

速度表现如下：

硬件平台	生成速度	对比自回归模型
单块H100	1000 tokens/s	约4倍
DGX Station	2000 tokens/s	约4倍
DGX Spark	150 tokens/s	约4倍
RTX 5090	700 tokens/s	约4倍

采样速度达到1479 tokens/秒，单次生成开销仅0.84秒。

亮眼之处 ：

代码生成 ：HumanEval达89.6%，BigCodeBench达45.4%，LiveCodeBench达30.9%，与Gemini 2.0 Flash-Lite互有胜负
数学能力 ：AIME 2025得分23.3%，超越对比模型的20.0%，扩散架构在推理任务上展现出潜力

明显不足 ：

科学推理 ：GPQA Diamond仅40.4%，远低于对比模型的56.5%
复杂推理 ：BIG-Bench ExtraHard仅15.0%，落后于对比模型的21.0%

谷歌态度坦诚：DiffusionGemma定位为面向研究者和开发者的 实验性模型 ，整体输出质量低于标准Gemma 4，生产环境仍建议使用后者。

DiffusionGemma的速度优势主要体现在 本地及低并发推理场景 ，在高并发云端部署中优势有限。它最适合的是对延迟敏感、需要实时响应的本地应用——比如个人AI助手、离线代码补全、本地文档处理等。

但如果追求最高输出质量，尤其是科学推理、复杂逻辑推演等任务，标准Gemma 4仍然是更可靠的选择。DiffusionGemma的真正价值不在于替代谁，而在于证明了一条新路径：文本生成不一定非要逐字排队，并行扩散同样走得通，而且在本地硬件上能走得更快。

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

谷歌推出DiffusionGemma开源模型

相关阅读

ai资讯推荐

最新资讯