DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4
DeepSeek发布多模态模型新技术报告,提出视觉原语思考新范式,超越GPT-5.4和Gemini-3-Flash!揭秘如何解决指代鸿沟,实现精准视觉推理。
DeepSeek在GitHub上发布了多模态推理模型及技术报告,题为《Thinking with Visual Primitives(以视觉原语思考)》。
该模型基于DeepSeek V4-Flash(284B总参数、推理时激活13B的MoE架构)构建,提出了一种全新的多模态推理范式。

论文指出现有多模态大模型存在一个被忽视的根本性瓶颈:“指代鸿沟”(Reference Gap),即模型能够“看见”图片内容,但在推理过程中用自然语言构建思维链时,左边那个大的、靠近中央的红色物体这类模糊描述在密集场景中无法精确定位视觉对象,导致注意力漂移并得出错误结论。
此前学界的主流应对方向是提升感知分辨率,但论文认为看见和能说清楚在说哪个是两件不同的事。
该模型的核心创新在于将点坐标和边界框嵌入推理过程本身,使其成为思维链的基本单元。模型在推理时每提到一个视觉对象就同步输出其坐标。
例如“找到一只熊[452,23,804,411],正在爬树,排除,再往左下看,找到另一只[50,447,647,771],站在岩石边缘,符合条件。”坐标不再是事后标注的答案,而是推理过程中消除歧义的空间锚点。

架构层面,模型实现了7056倍的视觉压缩,一张756×756的图片经ViT处理后生成2916个图像块token,经3×3空间压缩合并为324个token,再通过压缩稀疏注意力(CSA)机制将KV缓存进一步压缩4倍,最终仅剩81个视觉KV条目。
作为参照,同等尺寸图片Claude Sonnet 4.6约需870个、Gemini-3-Flash约需1100个。
训练数据方面,团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源,生成超过4000万条训练样本,覆盖计数、空间推理、迷宫导航和路径追踪四类任务。
后训练采用先专家化、后统一策略,分别训练边界框和点坐标两个专家模型,经强化学习优化后通过在线策略蒸馏合并为统一模型。
实验结果在11个基准测试上与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流模型进行了对比。

计数任务上,Pixmo-Count精确匹配得分89.2%,超过Gemini-3-Flash的88.2%,大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。
最具代表性的差距出现在拓扑推理上:迷宫导航得分66.9%,GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6为48.9%,提升约17个百分点;路径追踪得分56.7%,GPT-5.4为46.5%。
不过论文同时指出了当前局限性:模型需要明确触发词才会启用视觉原语机制,极细粒度场景下坐标精度有限,跨场景泛化能力仍有提升空间。

- 1网游时光机:惊艳时代的无锁定神作,国服代理费4000万美元,不到两年就凉了!
- 2当游戏不再“算计”玩家,一款老游如何用“确定性”留住4000万用户
- 3可爱大雷妹!《第七史诗》新增自然英雄“埃斯特尔”
- 4《三国群英传:格斗版》二测开启,最新实机视频曝光
- 5魔兽世界怀旧服国服提前上线后续阶段追赶机制,团本难度骤然降低,装等最高可+14
- 6AI生成《黑神话:潘金莲》美图 性感风骚的美人
- 7“五一不出门!”5款真人美女互动影游,带你玩转全球!
- 8《黑色沙漠》开发商出售《EVE Online》开发商
- 9开放世界动作RPG《龙之剑:觉醒》公开主角全新设计
- 10《天国:拯救2》开发商坚称从未打算用AI取代人工

