DeepSeek 公布多模态模型技术报告
DeepSeek发布多模态模型技术报告,提出创新视觉原语框架,突破空间推理瓶颈,性能媲美GPT-5.4等前沿模型!
4 月 30 日消息,DeepSeek 在 GitHub 平台正式发布了其多模态大模型,并同步公开了配套技术报告。该报告提出了一种基于“视觉原语”的创新推理框架,旨在突破当前多模态大语言模型(MLLMs)在空间参照任务中的核心瓶颈。

技术报告指出,尽管多模态大语言模型近年来取得长足进步,但主流的链式思维(CoT)推理范式仍主要局限于语言学领域。现有研究多聚焦于通过高分辨率图像裁剪等技术手段弥合“感知鸿沟”,即提升模型对视觉细节的识别能力。然而,DeepSeek 团队认为,这一思路忽视了一个更为根本的限制:参照鸿沟。
自然语言固有的模糊性使其难以对复杂的空间布局提供精确、明确的指引。当模型需要执行涉及严谨空间参照的任务时,这种语言表达的局限性往往导致推理链条断裂,出现逻辑崩溃。
针对上述问题,DeepSeek 提出了“基于视觉原语的思考”(Thinking with Visual Primitives)框架。该框架将点、边界框等空间标记从单纯的视觉输入元素,提升为推理过程中的“基本思维单元”。通过将这些视觉原语直接嵌入模型的思考链路,DeepSeek 使模型在推理过程中具备了“指代”能力 —— 即能够将抽象的认知轨迹锚定到图像的具体物理坐标上,从而实现对空间关系的精确推演。
技术报告披露,该框架采用了高度优化的模型架构,具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低,DeepSeek 的多模态模型在具有挑战性的计数和空间推理基准测试上,能够与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型匹配。这为开发更高效、更具可扩展性的 System-2 类多模态智能指明了方向。

注意到,DeepSeek 此前已经上线了“识图模式”,该模式和“快速模式”“专家模式”并列,并非简单的 OCR 文字,而是终于具备了多模态识别能力。
- 全国首支机器人交警中队在杭州正式上岗,能提醒违章、为游客指路 2026-05-01
- IT早报 0501:追觅 CEO 俞浩要求所有员工开通社媒账号;曝 OPPO 将效仿苹果推四曲面手机;iPhone 18 Pro 或迎史上最大规模相机升级;极越汽车深夜官宣合并重整... 2026-05-01
- DeepSeek公开新技术了!多模态模型技术报告公布:超越GPT-5.4 2026-05-01
- 曝一加和realme合并:OPPO新成立子系列事业部!张雪机车新摩托售价近3万,你会买吗?DeepSeek能读懂CT图了… | 浪人日报 2026-04-30
- 英特尔携手 AMD 发布 ACE 架构提升 AI 性能,x86 矩阵计算密度提升 16 倍 2026-04-30
- 1网游时光机:惊艳时代的无锁定神作,国服代理费4000万美元,不到两年就凉了!
- 2当游戏不再“算计”玩家,一款老游如何用“确定性”留住4000万用户
- 3可爱大雷妹!《第七史诗》新增自然英雄“埃斯特尔”
- 4《三国群英传:格斗版》二测开启,最新实机视频曝光
- 5魔兽世界怀旧服国服提前上线后续阶段追赶机制,团本难度骤然降低,装等最高可+14
- 6AI生成《黑神话:潘金莲》美图 性感风骚的美人
- 7“五一不出门!”5款真人美女互动影游,带你玩转全球!
- 8《黑色沙漠》开发商出售《EVE Online》开发商
- 9开放世界动作RPG《龙之剑:觉醒》公开主角全新设计
- 10《天国:拯救2》开发商坚称从未打算用AI取代人工

