/ ai资讯

谷歌推出DiffusionGemma开源模型

发布时间:2026-06-14 11:45:59

近日,谷歌DeepMind正式发布开源实验性模型 DiffusionGemma ,采用文本扩散架构,在专用GPU上文本生成速度较传统自回归大语言模型最高提升4倍。模型以Apache 2.0许可证开源发布,权重可从Hugging Face直接下载

当前主流大语言模型(GPT、Gemini等)均采用 自回归架构 ——从左到右逐个生成Token,像打字机一样一个字一个字往外蹦。这种方式在云端批处理时效率尚可,但在本地GPU推理时受限于内存带宽,大量算力被浪费在等待数据搬运上。

DiffusionGemma换了一条路。它的工作方式更像图像生成模型:先初始化一块由256个随机占位Token组成的"画布",然后经过多轮并行去噪,逐步优化整块内容,最终一次性输出完整文本。这意味着所有Token同时生成、同时优化,瓶颈从内存带宽转移到计算能力,充分发挥了GPU Tensor Core的并行优势。

更关键的是,模型支持 迭代自我纠正 ——在生成过程中能主动发现并修正错误,输出更加稳定一致。这一特性在数独求解、行内编辑、分子测序等非线性任务中优势明显,因为这类任务中每个Token都可能依赖未来的Token,自回归模型天生吃力。

DiffusionGemma采用 260亿参数混合专家(MoE)架构 ,但推理时仅激活38亿参数,量化后占用约18GB显存,RTX 5090级别的消费级显卡即可运行。

速度表现如下:

硬件平台 生成速度 对比自回归模型
单块H100 1000 tokens/s 约4倍
DGX Station 2000 tokens/s 约4倍
DGX Spark 150 tokens/s 约4倍
RTX 5090 700 tokens/s 约4倍

采样速度达到1479 tokens/秒,单次生成开销仅0.84秒。

亮眼之处

  • 代码生成 :HumanEval达89.6%,BigCodeBench达45.4%,LiveCodeBench达30.9%,与Gemini 2.0 Flash-Lite互有胜负
  • 数学能力 :AIME 2025得分23.3%,超越对比模型的20.0%,扩散架构在推理任务上展现出潜力

明显不足

  • 科学推理 :GPQA Diamond仅40.4%,远低于对比模型的56.5%
  • 复杂推理 :BIG-Bench ExtraHard仅15.0%,落后于对比模型的21.0%

谷歌态度坦诚:DiffusionGemma定位为面向研究者和开发者的 实验性模型 ,整体输出质量低于标准Gemma 4,生产环境仍建议使用后者。

DiffusionGemma的速度优势主要体现在 本地及低并发推理场景 ,在高并发云端部署中优势有限。它最适合的是对延迟敏感、需要实时响应的本地应用——比如个人AI助手、离线代码补全、本地文档处理等。

但如果追求最高输出质量,尤其是科学推理、复杂逻辑推演等任务,标准Gemma 4仍然是更可靠的选择。DiffusionGemma的真正价值不在于替代谁,而在于证明了一条新路径:文本生成不一定非要逐字排队,并行扩散同样走得通,而且在本地硬件上能走得更快。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com