新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

英伟达推出 LocateAnything，主打 AI 高速、高精度检测对象

2026-05-30 12:04:21 神评论

17173 新闻导语

英伟达携手高校推出LocateAnything模型，主打高速高精度AI对象检测，支持照片/截图快速定位，性能远超同类，助力机器人与智能体交互。

5 月 30 日消息，英伟达昨日（5 月 29 日）发布博文，宣布携手中国香港理工大学、南京大学等，推出 LocateAnything 模型，主打高速、高精度检测对象。

该模型可以从照片或截图中找出指定对象，并用检测框标出位置，重点服务机器人感知、电脑自动操作等需要快速定位的场景。

NVIDIA 在介绍中强调，机器人和 AI Agent（智能体）仅能“看见”还不够，还必须足够快地确认目标位置。LocateAnything 围绕检测框预测重新设计，让视觉语言检测更适合即时交互任务。

LocateAnything 提出 Parallel Box Decoding（并行框解码），把边界框或点作为固定长度原子单元，在 1 步内预测 x1、y1、x2、y2。

该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode：

Fast Mode 面向端侧机器人和具身智能，强调吞吐；

Slow Mode 偏向离线标注和高精度评测；

Hybrid Mode 默认快速输出，遇到格式异常或空间歧义时切回自回归解码。

团队还构建 LocateAnything-Data，包含 12M 独立图像、138M 语言查询和 785M 边界框。数据覆盖通用检测、GUI 元素定位、指代表达理解、OCR 文字定位、版面定位和点定位，显著扩展训练场景。

在单张 NVIDIA H100 GPU 上，LocateAnything 默认 Hybrid Mode 达到 12.7 Boxes Per Second（每秒框数），超过 Qwen3-VL 的 1.1 BPS，也高于 Rex-Omni 的 5.0 BPS。

高精度任务中，LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1，高于 Rex-Omni 的 20.7；ScreenSpot-Pro 平均 F1 达 60.3；DocLayNet 和 M6Doc 分别达 76.8 与 70.1。

附上参考地址

LocateAnything 论文

【来源：IT之家】

关于英伟达,LocateAnything,AI检测,机器人感知,并行框解码,边界框,视觉语言检测,H100 GPU,高精度,高速检测的新闻

今日热点

DNF之后最强动作网游，3天70万在线，玩家却被“斩杀”？

《古剑》7月18日线下试玩《终末地》云游戏不限量测试

韩国人做了一款满是大雷和断肢的“暗黑四”

《魔兽世界》12.1奖励全解析《暗黑4》S14赛季7月1日上线

热门测试游戏

热门新闻排行

Wan网页游戏免费玩