基于AX650N芯片部署MiniCPM-V 2.0高效端侧多模态大模型

发布时间：2024-07-15 11:46:14

MiniCPM-V 2.0: 具备领先OCR和理解能力的高效端侧多模态大模型

一背景

今年4月份，面壁智能&清华大学自然语言处理实验室推出MiniCPM系列的最新多模态版本MiniCPM-V 2.0。该模型基于MiniCPM 2.4B和SigLip-400M构建，共拥有2.8B参数。MiniCPM-V 2.0具有领先的光学字符识别（OCR）和多模态理解能力。该模型在综合性OCR能力评测基准OCRBench上达到开源社区的最佳水平，甚至在场景文字理解方面实现接近Gemini Pro的性能。简单来说，就是能够实现更好地理解图片中内容，实现精准的“以图生文”的能力，所见即所得。

本文将通过走马观花的方式，初探MiniCPM-V 2.0的新特性。同时也将分享基于爱芯元智的AX650N芯片适配MiniCPM-V 2.0的最新进展，向业界对端侧多模态大模型部署的开发者提供一种新的思路，促进社区对端侧多模态大模型的探索。

二MiniCPM-V介绍

2.1 MiniCPM-V 2.0特性

● 领先的OCR和多模态理解能力。MiniCPM-V 2.0显著提升了OCR和多模态理解能力，场景文字理解能力接近Gemini Pro，在多个主流评测基准上性能超过了更大参数规模（例如17-34B）的主流模型。

● 可信行为。MiniCPM-V 2.0是第一个通过多模态RLHF对齐的端侧多模态大模型。该模型在Object HalBench达到和GPT-4V相仿的性能。

● 任意长宽比高清图像高效编码。MiniCPM-V 2.0可以接受180万像素的任意长宽比图像输入（基于最新的LLaVA-UHD技术），这使得模型可以感知到小物体、密集文字等更加细粒度的视觉信息。

● 高效部署。MiniCPM-V 2.0可以高效部署在大多数消费级显卡、个人电脑以及移动手机等终端设备。

● 双语支持。MiniCPM-V 2.0提供领先的中英双语多模态能力支持。该能力通过VisCPM[ICLR'24]论文中提出的多模态能力的跨语言泛化技术实现。

2.2 多模态“小钢炮”

MiniCPM-V 2.0与参数规模更大的多模态大模型相比，也表现出优秀的成绩，不愧是业界“小钢炮”。

三芯片介绍

3.1 AX650N

爱芯元智第三代高能效比智能视觉芯片AX650N。集成了八核Cortex-A55 CPU，高能效比NPU，支持8K@30fps的ISP，以及H.264、H.265编解码的 VPU。接口方面，AX650N支持64bit LPDDR4x，多路MIPI输入，千兆Ethernet、USB、以及HDMI 2.0b输出，并支持32路1080p@30fps解码内置高算力和超强编解码能力，满足行业对高性能边缘智能计算的需求。通过内置多种深度学习算法，实现视觉结构化、行为分析、状态检测等应用，高效率支持基于Transformer结构的视觉大模型和语言类大模型。提供丰富的开发文档，方便用户进行二次开发。

四上版部署

我们已实现“命令行”和“UI”两种示例，其中“命令行”版本已上传到网盘中，欢迎试用。

4.1 命令行版本

测试图片：

测试结果：

4.2 GUI版本

4.3 性能统计

项目	描述
输入图片大小	280 x 280
Image Encoder	0.8s
Input Prompt	96 tokens
Prefill Time	0.4s
Decoder	5 tokens/s

五结束语

随着大语言模型小型化的快速发展，越来越多有趣的多模态AI应用将逐渐从云端服务迁移到边缘侧设备和端侧设备。我们会紧跟行业最新动态，适配更多的端侧大模型，欢迎大家持续关注。

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

基于AX650N芯片部署MiniCPM-V 2.0高效端侧多模态大模型

相关阅读

ai资讯推荐

最新资讯