新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

腾讯开源 OpenSearch-VL，突破多模态搜索 AI 智能体训练瓶颈

2026-05-07 16:07:45 神评论

17173 新闻导语

腾讯开源OpenSearch-VL多模态AI训练方案，突破搜索智能体瓶颈！基于强化学习，支持图像文本处理，提升基准得分至61.6。开源数据集与工具，助力前沿研究。

5 月 7 日消息，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、中国香港中文大学等学府，联合发布 OpenSearch-VL 开源多模态训练方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。

多模态搜索智能体指能够处理图像、文本等多种模态输入，并主动调用外部工具（如搜索引擎、图像处理工具）进行多步骤推理、证据验证与知识检索的智能体，旨在解决知识密集型的复杂视觉问答。

该报告昨日（5 月 6 日）在 arXiv 平台发表，介绍了 OpenSearch-VL 方案，用于训练前沿多模态深度搜索智能体。研究构建了高质量数据管道，通过维基百科路径采样与模糊实体重写减少检索捷径，产出 SearchVL-SFT-36k 等数据集。

研究团队指出，目前阻碍前沿多模态搜索智能体进化的最大瓶颈，在于高质量的训练数据。现有顶尖系统多由商业公司主导，其数据来源、过滤标准与工具使用轨迹均属私有，阻碍了先进能力的复现与系统性研究。

研究提出 OpenSearch-VL，提供从数据、工具到训练算法的完整开源方案。

在构建数据管道方面，OpenSearch-VL 提出利用维基百科的超链接图谱，执行多跳实体路径采样，将中间实体重写为模糊描述，并将锚点实体锚定至源图像，从而抑制单步检索捷径，鼓励智能体学习多跳搜索与推理行为。

管道产出 SearchVL-SFT-36k 数据集用于监督微调，平均每轨迹包含 6.3 次工具调用。同时，随机选取 10% 数据应用模糊、下采样等降质处理，配对增强工具，诱导“边思考边处理图像”的行为。

工具环境超越仅检索的智能体，统一文本搜索、图像搜索、OCR、裁剪、锐化、超分辨率与透视校正等功能。这允许智能体在查询外部知识前，先处理模糊、低分辨率或倾斜的视觉输入，实现主动感知与知识获取的结合。

实验显示，OpenSearch-VL-30B-A3B 模型将基线平均得分从 47.8 提升至 61.6，在 VDR、MMSearch 等基准上取得显著增益。消融实验验证了各组件贡献：移除源锚点锚定、模糊重写或分阶段过滤导致平均得分下降 8.2 至 11.5 点。

附上参考地址

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

GitHub：An Open Recipe for Frontier Multimodal Search Agents

Huggingface

【来源：IT之家】

关于OpenSearch-VL,多模态搜索,智能体,强化学习,腾讯混元,维基百科,SearchVL-SFT-36k,视觉问答,工具调用,开源的新闻

今日热点

热点预告：《古剑》开启试玩！《龙之谷》推出国风职业

《古剑》7月18日线下试玩《终末地》云游戏不限量测试

画质最强的国产MMO！被玩家骂了一整年后，如今咋样?

《魔兽世界》12.1奖励全解析《暗黑4》S14赛季7月1日上线

热门测试游戏

热门新闻排行

Wan网页游戏免费玩