/ ai资讯

基于NVIDIA GPU加速端点使用千问3.5 VLM开发原生多模态智能体

发布时间:2026-03-04 17:46:16

阿里巴巴推出了全新开源千问3.5系列,专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为397B、具备推理能力的原生视觉语言模型(VLM),基于由混合专家模型(MoE)和门控Delta网络(Gated Delta Networks)组成的混合架构构建。千问3.5能够理解和导航用户界面,相较上一代VLM有了显著提升。

千问3.5适用于各种用例,包括:

编码任务,包括Web开发

视觉推理任务,包括移动端和Web界面

聊天应用

复杂搜索

千问3.5
模态 视觉、语言
总参数 397B
激活参数 17B
激活率 4.28%
输入上下文长度 256K token,可扩展至1M token
支持的语言 200
其他配置信息
专家 512
共享专家 1
每个token使用的专家数量 11(10个路由专家 1个共享专家)
层数 60
词表大小 248,320

表1. 千问3.5模型的规格和配置详情

使用NVIDIA端点进行构建

您可以在NVIDIA官网上免费使用由NVIDIA GPU驱动的GPU加速端点使用千问3.5进行构建。作为NVIDIA开发者计划的一部分,您可以在浏览器中快速体验、试验不同的提示词,并使用自己的数据测试模型,以评估其在实际场景中的性能。

视频1.了解如何在NVIDIA GPU加速端点上测试千问3.5

您还可以通过API来调用NVIDIA托管的模型,注册NVIDIA开发者计划即可免费使用。

import requests 
   
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" 
   
headers = { 
    "Authorization": "Bearer $NVIDIA_API_KEY", 
    "Accept": "application/json", 
} 
   
payload = { 
  "messages": [ 
    { 
    "role": "user", 
    "content": "" 
    } 
  ], 
  "model": "qwen/qwen3.5-397b-a17b", 
  "chat_template_kwargs": { 
    "thinking": True 
  }, 
  "frequency_penalty": 0, 
  "max_tokens": 16384, 
  "presence_penalty": 0, 
  "stream": True, 
  "temperature": 1, 
  "top_p": 1 
} 
   
# re-use connections 
session = requests.Session() 
   
response = session.post(invoke_url, headers=headers, json=payload) 
   
response.raise_for_status() 
response_body = response.json() 
print(response_body)

要使用工具调用功能,只需定义一个由OpenAI兼容工具组成的数组,并将其添加到聊天补全接口的tools参数中。

NVIDIA NIM可以轻松将千问3.5从开发阶段迁移到生产环境。NIM提供经过优化的容器化推理微服务,将模型与性能调优、标准化API和企业所需的部署灵活性打包集成。您可以在各类环境中下载并运行,无论是本地、云上或混合环境。

使用NVIDIANeMo自定义模型

千问3.5已具备出色的“开箱即用”多模态功能,NVIDIA NeMo框架仍提供了关键的工具集,使其进一步适配特定领域的需求。开发者可以使用NeMo Automodel库微调千问3.5 397B参数架构,实现高吞吐效率。

NeMoAutomodel是一个原生PyTorch训练库,提供Day 0 Hugging Face支持,无需繁琐的模型转换,即可在现有检查点上直接进行训练。无论是执行全量监督微调(Supervised Fine-Tuning, SFT),还是使用LoRA等内存高效方法,都有助于快速开展实验。

作为参考实现指南,开发者可以利用医学视觉问答技术教程,该教程详细说明了如何在放射学数据集上微调千问3.5。在大规模场景下,NeMo支持多节点Slurm和Kubernetes部署,从而确保即使是最大的MoE模型,也能在特定领域的推理和复杂智能体工作流中实现低延迟的优化,并将延迟降至最低。

开始使用千问3.5

从数据中心部署到可随时随地进行容器化部署的NVIDIA NIM,NVIDIA提供了千问3.5的集成解决方案。访问Hugging Face上的千问3.5模型页面,并前往NVIDIA官网体验千问3.5的功能。

关于作者

Anu Srivastava 是高级技术营销经理,专注于开放 AI 模型。她与主要合作伙伴和基金会合作,为开源开发者生态系统提供 NVIDIA 加速平台支持。加入 NVIDIA 之前,她曾在 Google 担任各种工程职务超过 10 年,并拥有德克萨斯大学奥斯汀分校计算机科学学位。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com