近日,千问大模型正式发布全球首个原生语言世界模型Qwen-AgentWorld,这款模型突破了传统大语言模型的能力边界,从底层训练逻辑出发构建完整的智能体交互环境,为AI从对话交互向具备独立行动能力的智能体进化提供了全新的技术路径。
不同于行业内常见的对通用大模型做事后适配的改造思路,Qwen-AgentWorld从继续预训练阶段就将环境建模作为核心训练目标,相关能力建设贯穿预训练、监督微调、强化学习的全流程,让模型从底层就具备对复杂交互环境的原生理解能力,而非通过后期微调获得附加属性。
单颗模型就可以同时覆盖七大核心领域的交互场景,既支持MCP、搜索、终端操作、软件工程这类文本类环境,也能适配网页、操作系统、安卓系统这类图形界面环境,实现跨领域的知识自由迁移,无需针对不同场景单独适配专用模型。千问还同步推出了配套的AgentWorldBench评测基准,覆盖全部七大领域,所有测试样本都搭载真实环境执行得到的观测数据,而非模拟生成的仿真数据,能更精准地衡量这类语言世界模型的真实能力。
在公开评测中,Qwen-AgentWorld的表现大幅领先主流同类模型,其中397B参数版本的整体模拟质量超越GPT-5.4、Claude Opus 4.8与Gemini 3.1 Pro,拿到了58.71的最高整体均分,35B参数版本的表现也超过了Claude Sonnet 4.6。测试中还发现模型原生涌现出自我修正、信息泄漏防护与多步因果推理三类独特的推理模式,它会用“Wait!”作为自我纠错的触发信号,在搜索场景中能主动避免摘要意外泄露目标答案,预测特定命令输出时可自主构建出6步的完整推理链。
目前这款模型和配套的评测基准代码已经在HuggingFace和ModelScope平台开放,开发者可以直接获取相关资源开展二次开发,它的落地将大幅拓宽大模型在智能体领域的应用深度,从底层代码指令执行到图形界面任务自动化处理都能实现原生适配,为AI辅助办公、自动化业务处理等场景带来更流畅的全新交互体验。
关注
91文章
43266浏览量
304122免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com