英伟达推出 LocateAnything,主打 AI 高速、高精度检测对象
英伟达携手高校推出LocateAnything模型,主打高速高精度AI对象检测,支持照片/截图快速定位,性能远超同类,助力机器人与智能体交互。
5 月 30 日消息,英伟达昨日(5 月 29 日)发布博文,宣布携手中国香港理工大学、南京大学等,推出 LocateAnything 模型,主打高速、高精度检测对象。
该模型可以从照片或截图中找出指定对象,并用检测框标出位置,重点服务机器人感知、电脑自动操作等需要快速定位的场景。

NVIDIA 在介绍中强调,机器人和 AI Agent(智能体)仅能“看见”还不够,还必须足够快地确认目标位置。LocateAnything 围绕检测框预测重新设计,让视觉语言检测更适合即时交互任务。

LocateAnything 提出 Parallel Box Decoding(并行框解码),把边界框或点作为固定长度原子单元,在 1 步内预测 x1、y1、x2、y2。
该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode:
Fast Mode 面向端侧机器人和具身智能,强调吞吐;
Slow Mode 偏向离线标注和高精度评测;
Hybrid Mode 默认快速输出,遇到格式异常或空间歧义时切回自回归解码。
团队还构建 LocateAnything-Data,包含 12M 独立图像、138M 语言查询和 785M 边界框。数据覆盖通用检测、GUI 元素定位、指代表达理解、OCR 文字定位、版面定位和点定位,显著扩展训练场景。


在单张 NVIDIA H100 GPU 上,LocateAnything 默认 Hybrid Mode 达到 12.7 Boxes Per Second(每秒框数),超过 Qwen3-VL 的 1.1 BPS,也高于 Rex-Omni 的 5.0 BPS。

高精度任务中,LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1,高于 Rex-Omni 的 20.7;ScreenSpot-Pro 平均 F1 达 60.3;DocLayNet 和 M6Doc 分别达 76.8 与 70.1。
附上参考地址
LocateAnything 论文
- 1魔兽故事:魔兽最虚伪的守护者!篡改史书洗白自己,亲手玩崩英灵殿
- 2《龙之剑:觉醒》公开预告视频 首个冒险地区曝光
- 3《洛奇英雄传:反抗命运》公开全景欣赏功能和成就系统
- 4又一款经典童年网游!《飘流幻境》复刻重置,Q版画风超高自由度
- 5《剑灵》韩服直播爆料总结,NEO巅峰服武功体系改版究竟是什么?
- 6最近大家都在玩什么?盘点五款近期在Steam热度霸榜的网游,两款即将上国服!
- 75月热游情报:《命运2》宣布将停止更新!《洛克王国:世界》陷入巨大舆论风波
- 8《仙境传说RO》IP新作MMO美服测试将于6月4日开启
- 9回忆录:以为白捡一个号,结果免费当“代练”一年多,这口气实在咽不下!
- 10《望月》新实机演示:都市开放世界的赛道,终于卷出了差异化

