本站报道(文/李弯弯)2025年6月6日,面壁 智能CEO李大海在北京智源大会上发布有史以来最具想象力的面壁小钢炮模型MiniCPM4.0,代号“前进四”,开源两个版本,8B闪电稀疏版和0.5B最强小小钢炮。
李大海表示,面壁智能是第一个把全模态模型带到端侧的公司。面壁智能小钢炮,旨在把大模型放到离用户最近的地方,做高效的端侧智能。
MiniCPM4.0最大的特点——快
2019年面壁智能超前入局大模型,发布世界首个知识增强大模型ERNE,2020年发布国内首个中文大模型CPM-1,2021年发布持续学习发模型CPM-2,2022年发布可控生成大模型CPM-3;2023年,面壁智能又发布CPM-Bee多语言百亿大模型,之后还发布了第三代千亿参数多模态大模型CPM-Cricket,评分超越GPT-3.5,逻辑能力比肩GPT-4。
2024年面壁智能领先走向端侧智能。2月发布MiniCPM-2B旗舰级端侧模型;4月发布MiniCPM 2.0;9月发布MiniCPM-V 2.6,在端侧性能实现全面对标 GPT-4V;12月发布MiniCPM 3.0,在包括自然语言理解、知识、代码、数学等多项能力上超越Open AI的 GPT-3.5;2025年1月,面壁智能发布MiniCPM-o 2.6端侧全模态模型,性能比肩GPT-4o;2025年3月发布cpmGO,首个纯端侧智能体助手。
李大海介绍,面壁智能端侧大模型面壁小钢炮包括基座模型MiniCPM、旗舰多模态模型MiniCPM-V、旗舰全模态模型MiniCPM-o。截至目前,面壁小钢炮旗舰端侧大模型有超过1000万
下载量。李大海表示:“这是千千万万 开发者对我们的认可,未来还会持续发布更好的端侧大模型,赋能 智能硬件的创新和开发。”
“这次发布的面壁小钢炮模型MiniCPM4.0版本,最大的特点就是快。”李大海谈到,“相比其他模型,MiniCPM4.0-8B仅22%训练开销,在同等参数下,性能更强,可对标Qwen3-8B,超越Gemma3-12B。”
MiniCPM4-MCP支持15个主流应用,包括Airbnb、Github mcp、Slack、PPTs、PowerPoint、office-Word-Mcp-Server、Compu ter Use、Desktop-commander、File_system、OpenAI Whisper等;MiniCPM4-Survey端侧版表现比肩DeepResearch。
面壁小钢炮正在进行广泛的
生态适配,适配主流芯片与开源框架部署,芯片如括华为、 英特尔、 联发科、 高通;开源框架如LLM、LlamaFactory、AutoGPT、SGland等。李大海强调,依托分块稀疏注意力机制,MiniCPM4.0在英特尔平台上推理深度优化实现两倍加速。
多维度技术创新——架构高效、推理高效
MiniCPM4.0之所以能够做到又快又好,源于系统级层层效率优化,包括四个层面:架构高效、推理高效、学习高效、数据高效。
架构高效方面,MiniCPM4.0采用InfLLM升级版InfLLM 2.0稀疏注意力结构。李大海介绍说,稀疏度越高,计算量越小,速度越快。传统Transformer模型每token需和序列中所有token进行相关性计算逐字重复计算,效率低下。InfLLM 稀疏注意力机制,对文本分块分区域处理,只对最具相关性重点区城进行注意力计算“抽查”,更高效。
而且MiniCPM4.0采用高效双频换挡,即长文本用稀疏,短文本用稠密。
推理高效方面,面壁智能自研全套端侧高性能推理框架。CPM.cu自研极速端侧推理框架,稀疏、投机和量化的高效结合,FR-Spec轻量化投机采样,并给小模型减负加速,使得速度提升5倍;BitCPM极致低位宽量化,端侧极致内存容量友好,4-bit量化达业界SOTA等级,瘦身90%;Arklnfer自研跨平台部署框架,面向多平台端侧芯片极致优化,跨平台高效投机采样和限制解码,端侧多平台 ModelZoo丝滑使用,速度提升2倍。
李大海表示,与云端不同,云端多采用 英伟达、昇腾的芯片,而端侧较为复杂,这种跨平台部署框架对于大模型端侧部署来说就极为重要。在他看来,面壁智能新带来的面壁小钢炮模型MiniCPM4.0,在多项技术的加持下,使用更少的数据,需要更少的训练、更少的算力,因而成本也会下降,这有助于大模型能在更多场景实现落地。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com