近日,微软官网宣布了一项重要更新。微软发布了其视觉Agent解析框架OmniParser的最新版本V2。这一新版本具备将包括OpenAI的4o、o1、o3-mini,DeepSeek的R1,Qwen的2.5VL,以及Anthropic的Sonnet在内的大模型,转化为“计算机使用智能体”(Computer Use Agent)的能力。
与前代版本相比,OmniParser V2在多个方面实现了显著提升。在检测更微小、可交互的元素时,V2展现了更高的精度和更快的推理速度。这一提升得益于V2采用了更大规模的交互元素检测数据集和图标功能描述数据进行训练。
此外,OmniParser V2还通过缩小图标描述模型的输入图像尺寸,进一步优化了推理性能。据微软官方数据,与前代版本相比,V2的推理延迟降低了60%。这一改进使得OmniParser V2在处理复杂视觉任务时更加高效,为用户提供了更加流畅、实时的交互体验。
此次OmniParser V2的发布,不仅展示了微软在人工智能领域的持续创新,也为大模型在计算机智能体领域的应用开辟了新的道路。
关注
4文章
6637浏览量
104588免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com