谷歌发布 Agentic Vision:模仿人类处理图像,让 AI 学会“放大看”
谷歌DeepMind推出Agentic Vision功能,让AI模仿人类视觉处理,通过思考-行动-观察循环放大图像细节,提升Gemini 3 Flash模型准确率5-10%。点击了解突破性技术!
谷歌 DeepMind 团队昨日(1 月 27 日)发布博文,宣布在 Gemini 3 Flash 模型基础上,推出“智能体视觉”(Agentic Vision)功能。
援引博文介绍,传统 AI 模型在处理图像时,通常仅进行一次静态扫描,这种方式若遗漏了芯片序列号或远处的路牌等细微细节,模型便只能依靠猜测来生成答案。
Gemini 3 Flash 引入的“智能体视觉”打破了这一局限,将视觉理解转化为一个主动调查的过程。模型不再被动接收信息,而是通过结合视觉推理与代码执行,模仿人类“思考、行动、观察”循环处理图像,从而确立答案的视觉证据。

“智能体视觉”功能的核心,在于形成“思考-行动-观察”闭环:
首先是“思考”阶段,模型分析用户查询和初始图像,制定多步计划;
紧接着进入“行动”阶段,模型生成并执行 Python 代码来主动操作图像(如裁剪、旋转、标注)或进行分析(如计算边界框);
最后是“观察”阶段,变换后的图像被追加到模型的上下文窗口中。
这一机制让 Gemini 3 Flash 能够利用更新后的数据和更佳的语境进行二次检查,从而生成基于事实的最终回复。

引入代码执行能力后,Gemini 3 Flash 在多数视觉基准测试中质量提升了 5-10%。以建筑图纸验证平台 PlanCheckSolver.com 为例,该平台利用此功能让模型通过代码裁剪并分析屋顶边缘等高分辨率细节,使准确率提高了 5%。

此外,在处理视觉数学问题时,模型不再依赖概率猜测,而是通过编写代码识别原始数据并调用 Matplotlib 库绘制精确图表,有效解决了大型语言模型在多步视觉算术中常见的“幻觉”问题。


Google DeepMind 表示这仅仅是开始。目前的 Gemini 3 Flash 已擅长隐式决定何时放大细节,未来版本将无需用户显式提示即可自动执行旋转图像或视觉运算等操作。
- 1《马拉松》Steam在线已经不及9年前的《命运2》
- 2《冒险岛》怀旧服官宣回应玩家争议:换引擎、降氪金、严打工作室
- 3日本偶像斋藤飞鸟参加活动露出的内裤引发热议,网友查询后发现一条内裤价格将近16w!
- 4500万播放期待拉满!今年最有“诡气”的MMO,女鬼依旧迷到我了!
- 5比魔兽还老的FF11宣布永久免费,24年网游的最后一搏?
- 6免费公开测试!《人间地狱:越南》5月29号开启测试!6月19号上线!
- 7魔兽世界最冷门偏僻的10个地方,不少玩家从未造访过
- 8流放2史上最大更新5.30上线,GGG这波ALL IN能赌对吗
- 97 天封神!别人的 8 年救赎,《红色沙漠》仅用一周翻盘
- 10腾讯继续包揽前三,新作《洛克王国:世界》收入环比暴涨140%!

