DeepSeek V3.2带来的最大亮点,是Agent能力的升级。到底有哪些核心特性?
首先是架构创新,9月29日,DeepSeek V3.2实验版发布,引入了DSA稀疏注意力机制,经过2个月的持续优化,12月1日推出正式版。DSA稀疏注意力机制可以实现高效率与高性能的平衡:显著降低长文本处理的计算成本和延迟,使模型能更专注于深度推理。
DeepSeek 表示,V3.2 模型具备类人推理能力,并能自动调用搜索引擎、计算器与程序代码执行器等工具,上下文的窗口扩展到128K,可以理解更长的文档或者处理大型的数据分析。这是该公司首次让模型同时支持“思考”与“非思考”两种运行模式,并让推理链与工具使用无缝结合。官方技术报告指出,V3.2 在多项 reasoning 基准中,与 Kimi-k2-thinking 与 GPT-5 表现相当。
DeepSeek V3.2 模型略低于Gemini-3.0-Pro,相比Kimi-K2-Thinking, V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。
值得关注的是,在硬件架构和企业支持方面,DeepSeek V3.2 模型不仅对英伟达的GPU做深度优化,让其支持FP8的混合精度计算,整体效率提升40%,同时他对华为昇腾、寒武纪等国产芯片进行适配,第一时间支持了华为昇腾,还完成了对VRLM框架的对接,并且和寒武纪同步发布了适配的源代码,确保在沐熙芯片上部署满血版的模型。AMD官方专门为DeepSeek V3.2 XP做了针对GPU的优化,全志科技在芯片和软件方面对DeepSeek进行了深度的协同。
另外,公司同步推出的 DeepSeek-V3.2-Speciale,其目标是将开源模型的推理能力推向极致,探索模型能力的边界。它主攻数学运算、长链推理与高难度计算任务,其在国际数学奥林匹亚(IMO)与国际信息奥林匹亚(IOI)等标准化测试上达到金牌水平,并在功能上对标 Google 最新的 Gemini-3 Pro。
经过测试显示,DeepSeek V3.2接近AI开源模型天花板级别,直接和顶级闭源AI大模型掰手腕。DeepSeek强调,在高度复杂任务上,Special模型大幅优于标准版本,但是消耗的Tokens也显著增多,成本更高,现在并没有开放给普通用户。
本文由电子发烧友原创,转载请注明以上来源。微信号zy1052625525。需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱zhangying@huaqiu.com。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com