阿里巴巴推出了全新开源千问3.5系列,专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为397B、具备推理能力的原生视觉语言模型(VLM),基于由混合专家模型(MoE)和门控Delta网络(Gated Delta Networks)组成的混合架构构建。千问3.5能够理解和导航用户界面,相较上一代VLM有了显著提升。
千问3.5适用于各种用例,包括:
编码任务,包括Web开发
视觉推理任务,包括移动端和Web界面
聊天应用
复杂搜索
| 千问3.5 | |
| 模态 | 视觉、语言 |
| 总参数 | 397B |
| 激活参数 | 17B |
| 激活率 | 4.28% |
| 输入上下文长度 | 256K token,可扩展至1M token |
| 支持的语言 | 200 |
| 其他配置信息 | |
| 专家 | 512 |
| 共享专家 | 1 |
| 每个token使用的专家数量 | 11(10个路由专家 1个共享专家) |
| 层数 | 60 |
| 词表大小 | 248,320 |
表1. 千问3.5模型的规格和配置详情
使用NVIDIA端点进行构建
您可以在NVIDIA官网上免费使用由NVIDIA GPU驱动的GPU加速端点使用千问3.5进行构建。作为NVIDIA开发者计划的一部分,您可以在浏览器中快速体验、试验不同的提示词,并使用自己的数据测试模型,以评估其在实际场景中的性能。
视频1.了解如何在NVIDIA GPU加速端点上测试千问3.5
您还可以通过API来调用NVIDIA托管的模型,注册NVIDIA开发者计划即可免费使用。
import requests
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
headers = {
"Authorization": "Bearer $NVIDIA_API_KEY",
"Accept": "application/json",
}
payload = {
"messages": [
{
"role": "user",
"content": ""
}
],
"model": "qwen/qwen3.5-397b-a17b",
"chat_template_kwargs": {
"thinking": True
},
"frequency_penalty": 0,
"max_tokens": 16384,
"presence_penalty": 0,
"stream": True,
"temperature": 1,
"top_p": 1
}
# re-use connections
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()
response_body = response.json()
print(response_body)
要使用工具调用功能,只需定义一个由OpenAI兼容工具组成的数组,并将其添加到聊天补全接口的tools参数中。
NVIDIA NIM可以轻松将千问3.5从开发阶段迁移到生产环境。NIM提供经过优化的容器化推理微服务,将模型与性能调优、标准化API和企业所需的部署灵活性打包集成。您可以在各类环境中下载并运行,无论是本地、云上或混合环境。
使用NVIDIANeMo自定义模型
千问3.5已具备出色的“开箱即用”多模态功能,NVIDIA NeMo框架仍提供了关键的工具集,使其进一步适配特定领域的需求。开发者可以使用NeMo Automodel库微调千问3.5 397B参数架构,实现高吞吐效率。
NeMoAutomodel是一个原生PyTorch训练库,提供Day 0 Hugging Face支持,无需繁琐的模型转换,即可在现有检查点上直接进行训练。无论是执行全量监督微调(Supervised Fine-Tuning, SFT),还是使用LoRA等内存高效方法,都有助于快速开展实验。
作为参考实现指南,开发者可以利用医学视觉问答技术教程,该教程详细说明了如何在放射学数据集上微调千问3.5。在大规模场景下,NeMo支持多节点Slurm和Kubernetes部署,从而确保即使是最大的MoE模型,也能在特定领域的推理和复杂智能体工作流中实现低延迟的优化,并将延迟降至最低。
开始使用千问3.5
从数据中心部署到可随时随地进行容器化部署的NVIDIA NIM,NVIDIA提供了千问3.5的集成解决方案。访问Hugging Face上的千问3.5模型页面,并前往NVIDIA官网体验千问3.5的功能。
关于作者
Anu Srivastava 是高级技术营销经理,专注于开放 AI 模型。她与主要合作伙伴和基金会合作,为开源开发者生态系统提供 NVIDIA 加速平台支持。加入 NVIDIA 之前,她曾在 Google 担任各种工程职务超过 10 年,并拥有德克萨斯大学奥斯汀分校计算机科学学位。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com