京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction

发布时间：2026-06-24 11:46:20

近日，京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的interaction模型与系统，并获得vLLM-Omni的day-0原生支持。它让大模型从传统的"一问一答"模式跨越到"边看边说"，开发者基于这套框架可以快速搭建能持续观察、自主判断、即时响应的实景AI助手。

今天绝大多数多模态模型仍是回合制——用户上传图片或视频、提出问题，模型才开始回答。这种方式在图文问答、视频复盘中够用，但当AI进入真实世界，模型不只要聪明，更要"在场"。正在发生的真实世界里，无数瞬息万变的时刻，错过就很难补救。JoyAI-VL-Interaction做的事情，就是让AI像人一样持续"在场"：边看、边记、边判断，关键时刻主动回应，必要时把复杂任务交给后台Agent。

相比传统模型，JoyAI-VL-Interaction实现了三重突破。第一是主动判断而非被动回答，模型持续观察视频流，自主决定什么时候该说话、什么时候该沉默，比如在监控中设定"发现火情时报警"，事件发生时自动预警，无需用户提问。第二是实时响应而非事后总结，面向正在发生的视频流处理，画面变化时就能响应，在安防预警、实时翻译、直播解说等场景里，晚几秒体验和价值就完全不同。第三是适时智能体委托，模型遇到生成代码、调用工具、复杂推理等任务时，可以交给后台大模型或Agent处理，前台继续观察现场，结果返回后自然接回对话，形成"前台实时助手加后台智能大脑"的协作系统。在实时视频流中，模型每秒都会做一次判断——继续观察、保持沉默、主动回应、还是交给后台处理。"什么时候说话"不再靠外部规则触发，而是模型自己学会的能力。对实时交互来说，会说话很重要，会沉默同样重要。

这次开源不是只放一个模型权重，而是完整技术栈全部开放，包括模型权重、交互数据集、训练方案和完整可部署系统。系统支持摄像头、直播流、监控流等多种视频输入，也支持语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块均可按需替换，开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。它既可以用于研究，也可以直接改造成安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助等实时AI助手。

在覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景的58个真人盲评案例中，JoyAI-VL-Interaction对比豆包视频通话助手总体胜率77.6%，对比Gemini视频通话助手总体胜率87.9%，其中在监控预警场景中对两个基线均取得100%胜率。

AI AI 关注
关注
91
文章
43176
浏览量
304058

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction

相关阅读

ai资讯推荐

最新资讯