全志视觉芯片V821接入DeepSeek和豆包视觉大模型

发布时间：2025-02-21 09:46:23

上周，全志生态的小伙伴们成功在全志A733和T527的SoC平台上实现了DeepSeek-R1-Distill-Qwen-1.5B模型的部署，充分验证了高算力平台在端侧部署AI推理上的潜力。今天我们带来一款全志新的视觉芯片V821，通过网络接入的方式打通DeepSeek-R1满血版模型和豆包视觉大模型，并展示其语言和视觉交互的能力和多样性。

相较于大模型的端侧部署，云端大模型对端侧硬件算力、存储资源等要求较低，以极佳的成本代价就可以体验到模型最佳的性能表现，覆盖更多的场景形态。本地设备将文字，语音，图像等相关数据通过网络上传，凭借云端大模型对数据的分析和推理海量数据的分析和推理能力，并结合网络搜索的信息，更好地，更加准确地，更加快速地做出判断和反馈，大幅提升应答速度和输出的准确率。

全志本次在V821平台上基于豆包视觉大模型和DeepSeek语言大模型API实现了完整的大模型接入套件，让V821具备了语言交互及图像识别等丰富能力，让开发者更容易实现大模型的应用，极大的方便了基于V821的智能产品的开发与拓展。

V821豆包视觉大模型实时采集图像进行物品识别示例：

下面的视频展示V821接入DeepSeek语言大模型，支持多轮对话流式输出功能：

通过以上的两段演示可以发现，在有了接入套件所提供的便利后，云端部署的大模型的运行达到了“满血”状态，无论是物品识别还是多轮持续对话都有很快的输出，确保在微型化设备算力资源受限的情况下，也能流畅自然地使用大模型，实现本地设备与云端AI结合。

V821是一颗高集成度的低功耗WiFi视觉SOC，集成了高性能ISP和H.264、JPEG编码单元，同时内置了WiFi，因此可以很方便的接入AI视觉大模型，快速实现微型化、高清视频、云端AI结合、低功耗一体化的视觉产品落地。

V821简要规格如下：

通用算力：CPU RISC-V 1GHz MCU RISC-V 600MHz

视频输入：1x2lane/2x1lane MIPI-CSI 支持一路并口CSI

视频引擎：支持H.264最大3072x3072；MJPEG最大8192x8192；支持双目1920x1080@15fps 640x480@15fps

WiFi（内置）：WiFi4 单频2.4GHz 低功耗版本保活功耗180uA（DTIM10）

其他接口：支持一路音频输出/一路音频输入 3xSPI / 3xTWI / 4xUART / 12xPWM / 2xSDIO

全志推出的最新大模型套件，可以无缝切换各种主流大模型。各大模型官方提供的接入示例多是python、java等语言实现，而全志的套件使用纯C语言实现，内存资源占用少，可方便应用在全志平台Tina Linux系统和Tina RTOS系统上。目前，该套件已集成到V821 SDK中，会于2月底随V821 SDK V1.1发出，届时欢迎各位开发者升级体验。

使用全志提供的大模型接入套件，只需要简单的2个步骤即可接入豆包视觉大模型。

步骤1：调用lm_init函数进行初始化大模型

typedef struct {
 const char *url;
 const char *model;
 const char *api_key;
} lm_config;


int lm_init(lm_config *config, lm_handle *handle);

初始化需要填充大模型的URL、模型、API key参数。参数的获取可在各大模型官网进行注册账号后获得，具体可参考各大模型官方的说明文档，本文接入的是豆包视觉大模型，可参考以下链接获取参数信息：

https://www.volcengine.com/docs/82379/1362931

步骤2：调用lm_generate函数访问大模型。

typedef int (*lm_outputcallback)(char* token, void* user_data);


typedef struct {
 char *content;
 prompt_image *img;
} lm_prompt;


int lm_generate(lm_handle handle, lm_prompt *prompt, lm_outputcallback cb, void *user_data)；

prompt为输入的提示词，其带有两个参数，content表示输入的文本，img为输入的图片数据；cb为用户注册的回调函数，当接收到云端大模型返回数据时会回调该函数将token信息输出。

按照以上部署方式使用该套件到V821上，还可以支持DeepSeek的多轮对话和流式输出。所谓“多轮对话”（Multi-turn Dialogue）是指大模型在与用户交互时，能够理解并记住对话历史，并根据上下文信息持续生成符合逻辑的连贯回复的能力，而流式输出是在云端大模型生成token回应时能够实时输出，支持多轮对话与流式输出的能力使得对话不再是孤立的“一问一答”，而是更接近人类自然交流的连续互动。

全方位拥抱大模型生态，已成为多产品线全面革新的主旋律。AI大模型的普及为产品落地带来了更多元的玩法，全志将针对各产品线不同应用场景的独特需求，深度挖掘本地算力潜能，巧妙融合先进云端技术方案，为用户带来更智能便捷的交互体验，提升工作效率，营造智慧生活，逐步推动AI从前沿科技走向大众生活，用智能硬件助力AI惠民愿景的落地生根。

视觉芯片视觉芯片关注
关注
1
文章
45
浏览量
11504

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

全志视觉芯片V821接入DeepSeek和豆包视觉大模型

相关阅读

ai资讯推荐

最新资讯