让大模型从“一问一答”走向“边看边说”,京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction
京东开源全球首个实时视频视觉语言交互模型JoyAI-VL-Interaction,“边看边说”突破:主动判断、实时响应、任务委派,助你快速搭建实景AI助手!评测胜率超豆包和Gemini。
6 月 22 日消息,京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,这也是全球首个全栈开源的 interaction 模型和系统,并获得 vLLM-Omni 的 day-0 原生支持。
官方表示,它让大模型从“一问一答”走向“边看边说”,开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手。

据介绍,相比传统模型,JoyAI-VL-Interaction 有三重突破:
主动判断,而非被动回答:传统模型通常要等用户发起问题,才开始处理当前画面,而 JoyAI-VL-Interaction 可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。
实时响应,而非事后总结:传统视频理解更多是上传完整视频后再分析,但在安防预警、实时翻译、直播解说、操作指导等场景里,晚几秒,体验和价值都会不同。JoyAI-VL-Interaction 面向正在发生的视频流,画面变化时就能响应。
适时智能体委托,同时保持观察和交互:JoyAI-VL-Interaction 具备后台任务委派能力与相关机制。当模型遇到生成代码、调用工具、复杂推理等任务时,可以交给后台大模型或 Agent。前台模型继续观察现场,后台模型处理复杂任务,结果返回后再自然接回对话。
官方表示,JoyAI-VL-Interaction 支持摄像头、直播流、监控流等多种视频输入,也支持语音输入输出、可视化界面、长期记忆、后台模型接口和 vLLM 部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块,都可以按需替换。
开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。它既可以用于研究,也可以改造成安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI 眼镜、无障碍辅助等实时 AI 助手。
在评测中,JoyAI-VL-Interaction 覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在这些与视觉触发的主动响应、实时性高度相关的 58 个真人盲评案例中,JoyAI-VL-Interaction 对比豆包视频通话助手,总体胜率 77.6%;对比 Gemini 视频通话助手,总体胜率 87.9%。

附相关链接如下:
代码:https://github.com/jd-opensource/JoyAI-VL-Interaction
模型:https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview
数据集:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
- 1《激战》正版CCG全球首曝,国服率先开预约,双轴构筑玩出新花样
- 2终于来了!本月最色网游MMO《缔造者放逐之地》 实机试玩
- 3前完美 VS 前网易?《诡秘之主》两款游戏争夺唯一性,玩法有何区别?
- 46月停运游戏盘点!25年老资历都扛不住?腾讯投的项目仅活了400天?
- 5《失控进化》今日开启压力测试 定档7月9日多端同步上线
- 6《绝地求生》开发商再推新作!《Project ZETA》6月25日开启全球测试
- 7《逆水寒:新世界》养成系统迎来“纯爽局”级颠覆改革
- 8《诛仙世界》跨服自由混战来袭,坦克大加强,噩梦本彻底成历史
- 9《激战》IP三线齐发:手游、端游、卡牌,ArenaNet在下一盘什么棋?
- 10《三角洲行动》清雨毁号风波后续:涉事主播发声,称网传内容多经篡改编造

