/ ai资讯

国产AI换芯提速!DeepSeek V4和小米MiMo-V2.5上线,主流国产芯片适配

发布时间:2026-04-29 16:47:46

4月24日,中国 AI 新创公司 DeepSeek 宣布两条重大消息:一是公司首次启动融资,目标估值从100亿美元迅速抬升至200亿美元到300亿美元,腾讯、阿里正在洽谈入局;二是DeepSeek正式发布全新系列 AI 大模型 DeepSeek-V4 的预览版本并同步开源,凭借百万字超长上下文及领先的 Agent 能力引发业界高度关注。

4月25日,梁文锋出手了,DeepSeek-V4-Pro开启限时2.5折优惠,输入价格(缓存命中)降至0.25元/百万tokens。4月26日晚间,DeepSeek就再次降价。全系API输入缓存命中价格直接降至首发价的1/10。

4月28日,小米技术官方宣布最强模型小米 MiMo-V2.5 系列,该系列采用MIT协议,支持商用推理部署与二次训练,无需额外授权。小米MiMo-V2.5开源 & Orbit 百万亿 Token 计划启动。

这两款新AI大模型各有何优势?在芯片适配方面,已经进展到哪里?本文进行解析。

DeepSeek V4具备强悍性能,适配国产主流AI芯片

4月24日,DeepSeek-V4预览版本上线并同步开源,包含DeepSeek-V4-Pro和DeepSeek-V4-Flash两个模型。DeepSeek-V4-Pro总参数1.6万亿,每次推理激活490亿参数,定位对标顶级闭源模型,适用于复杂推理、智能体(Agent)及长文本处理。DeepSeek-V4-Flash总参数2840亿,激活130亿参数,主打高性价比,适合高并发、轻量化场景。

DeepSeek V4 Pro新模型将总参数推至1.6万亿,首次将百万token上下文打成标配,并实现了百万上下文下每token的算力消耗仅为V3.2的27%,KV缓存占用只有10%。

DeepSeek V4 在编程(如 SWE-Bench、HumanEval)和数学推理(如奥数题)方面的表现非常出色,甚至在部分开源榜单上超越了 GPT-5.4 和 Claude Opus 4.6 的非思考模式。它非常适合程序员用来写代码、做复杂逻辑分析。

模型输出质量上,V4同时支持三档推理强度,并针对Agentic Coding做了专项优化。

在性能层面,DeepSeek-V4-Pro 实现了显著突破。技术报告显示,该模型在 Agent 能力上达到开源模型最佳水平,Agentic Coding 使用体验优于闭源的 Claude Sonnet 4.5。

目前,模型已经为华为昇腾950芯片完成适配,预计下半年昇腾950超节点批量上市后,V4 Pro价格进一步下调。华为昇腾超节点全系列产品已支持DeepSeek V4系列模型,实现DeepSeek V4-Pro20ms和DeepSeek V4-Flash 10ms低时延推理。

DeepSeek在推理引擎层面兼容CUDA与昇腾CANN并支持FP4/FP8等低精度策略,显著缩短“模型发布—芯片适配—产业部署”的时间差,验证国产卡在超长序列与大规模推理场景的可用性与性价比,推动“国模国芯”从跑通到高效协同的跃迁。

此外,寒武纪、海光信息、摩尔线程、天数智芯、沐曦等国产芯片厂商也宣布支持DeepSeek-V4新模型。寒武纪基于vLLM推理框架完成Day 0适配,适配代码已开源至GitHub社区,支持DeepSeek-V4-Pro和DeepSeek-V4-Flash。

海光DCU(深算系列)完成对DeepSeek-V4的Day 0适配,并对模型进行深度调优,形成“模型发布—芯片适配—产业落地”的闭环,提供即取即用的部署方案。

摩尔线程完成 DeepSeek V4 适配的芯片是其旗舰级 AI 训推一体全功能 GPU——MTT S5000。此次适配由摩尔线程联合智源 FlagOS 社区共同完成,实现了对 DeepSeek-V4-Flash 模型的“Day-0”(发布即适配)极速支持,并完成了全量核心算子的深度优化。

4月24日,DeepSeek V4发布当日,上海AI实验室DeepLink团队依托KernelSwift智能算子迁移系统,完成DeepSeek-V4核心算子在多元芯片的Day 0适配,天数智芯作为核心合作方,实现天垓训练芯片、智铠推理芯片对该模型的核心算子适配。

DeepSeekV4是国内首个在华为昇腾 910B/C 等国产芯片上实现“开箱即用”的万亿参数模型。这意味着在不依赖英伟达高端AI芯片的情况下,国内企业也能低成本运行顶级大模型,战略意义重大。

根据OpenRouter的数据, 2026年3月30日-4月5日,中国AI模型的周调用量突破12.96万亿Token,是同期美国的4.3倍,国产化无疑有着巨大的市场前景。

小米MiMo-V2.5定位多模态模型,多个性能超过DeepSeek V4,首日适配国产五大芯片

4月28日,小米宣布旗下最強模型 MiMo-V2.5 系列,包括带来V2.5-Pro和V2.5两款版本,MiMo-V2.5-Pro 为混合专家架构(MoE)模型,总参数量达 1.02 兆(1.02T),其中 420 亿(42B)个启动参数,支持最长 100 万 Token 的超长上下文处理,Token 效率相较前代大幅提升。

MiMo-V2.5系列包含两款模型,均支持100万上下文窗口。其中,MiMo-V2.5-Pro主打复杂任务场景,可以支持1T的超大参数量,以及1M超长上下文的模型推理。该模型深度适配Agent与Coding应用,在GDPVal-AA和ClawEval榜单上位列全球开源模型第一。

模型采局部滑动窗口注意力(SWA)与全局注意力(GA)以 6:1 比例交错设计,可在长上下文场景下将 KV 高速缓存占用缩减近 7 倍,同时维持效能表现。此外,内建轻量级多标记预测(MTP)模块,可将输出吞吐量提升约三倍,并加速强化学习部署。

预训练规模方面,MiMo-V2.5-Pro 使用 27 兆(27T)个 Token、FP8 混合精度进行训练,原生序列长度 32K,再透过上下文扩展至 100 万 Token。

小米公布的最新评测结果显示,MiMo-V2.5-Pro 在 GDPVal-AA(Elo)、Claw-Eval(Pass^3)等多项基准检验中,超越了 DeepSeek 最新开源的 DeepSeek-V4-Pro,也优于甫发布不久的 Kimi K2.6 等主流闭源模型,总体排名第一。

MiMo-V2.5-Pro已于开源首日完成多个芯片厂商的接入适配,其中包括阿里平头哥、亚马逊云科技(基于 Trainium2 芯片)、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯七家芯片厂商接入适配,同步完成 SGLang 与 vLLM 两大主流推理框架的 Day 0 适配。

小米同步推出「MiMo Orbit 计划」,涵盖两大方向:百兆 Token 创造者激励计划:面向全球 AI 用户,于 2026 年 4 月 28 日至 5 月 28 日期间免费发放共计 100 兆 Token 权益,通过审核者最高可获得价值人民币 659 元的 Max 檔位 Token Plan,额度发完为止。

代理生态共建计划:面向全球代理框架团队,提供 Token 免费支持,并共同举办 AI Hackathon 等活动,目前已与 OpenCode、Hermes Agent、KiloCode 等框架厂商展开深度合作。

而在4月28日, DeepSeek官网API文档相关页面显示,当前deepseek-v4-pro模型的2.5折优惠活动将延长至今年5月31日23:59。目前,deepseek-v4-pro的输入价格(缓存命中)为0.025元(每百万tokens),输入价格(缓存未命中)为3元,输出价格为6元。使用成本远低于美国竞争对手,仅为 OpenAI 同类产品价格的 3%,分析人士认为此举旨在吸引更多企业用户与开发者。

  • 芯片 芯片 关注

    关注

    463

    文章

    54453

    浏览量

    469498

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com