GPT‑5.4深夜发布，百万网友“养”的龙虾，终于有了灵魂

2026-03-07 00:14:04 神评论

17173 新闻导语

GPT-5.4深夜发布，原生电脑操控能力首次实现！与OpenClaw龙虾AI结合，开启个人AI员工时代，效率革命引爆全网。

刚经历用户流失风波，Open AI与战争部的协议后续情况未明，就反手甩出一个大雷！

就在今日凌晨，Open AI在几乎没有预告的情况下，正式发布新一代旗舰模型GPT‑5.4。

在过去一个月里被竞争对手持续压制之后，在用户的集体愤怒之后，这次发布被外界普遍视为一次关键性的反击，而从公布的能力结构来看，这并非一次常规性能更新。

Open AI与战争部军事合作引爆抵制潮，超70万用户取消订阅

与前代模型相比，GPT‑5.4最引人注目的变化在于，其首次在通用模型层面实现了“原生电脑操控能力”。

什么意思呢，就是说模型不再仅仅停留在生成文本或代码，而是可以通过截图理解桌面环境，发出鼠标点击与键盘输入指令，像人类一样在真实操作系统中完成任务。

在OSWorld‑Verified这一衡量AI桌面操作能力的基准测试中，GPT‑5.4取得了75%的成功率，首次超过人类平均水平。

同时，GPT‑5.4还支持最高100万Token的超长上下文窗口，并引入了全新的Tool Search（工具搜索）机制，允许模型按需检索工具定义，从而显著降低复杂Agent场景下的Token消耗。

编程能力上，GPT‑5.4完成了与此前Codex系列的合流，在SWE‑Bench Pro中取得57.7%的成绩；在衡量真实职业知识工作的GDPval评测中，其胜率达到83%，被官方定位为“面向专业工作的主力模型”。

这些数据让我们开始思考：GPT‑5.4究竟只是一次更强的模型升级，还是能够改变人们的工作模式？AI可以直接替你完成操作时，人机关系是否正在发生根本变化？

几乎在同一时间，另一个名字也频繁出现在开发者社区与社交网络中——OpenClaw。

这个以龙虾为吉祥物的开源AI Agent框架，在短时间内GitHub星标数飙升，被称为AI圈的“龙虾现象”。

它强调本地运行、真实执行与系统级权限，主张“让AI真正帮你干活”。

双方于当地时间2月16日官宣OpenClaw加入OpenAI，距离现在还不到1个月，恐怕大多数人都没想到这次的合作成果竟这么快就随着GPT‑5.4的发布而真的掀起了一场全新效率革命。

OpenClaw之父加入OpenAI，一场改变AI权力格局的“龙虾革命”

当具备原生电脑操控能力的GPT‑5.4，与以执行见长的OpenClaw相遇，一个此前更多停留在概念层面的命题被再次抛到台前：个人AI员工，是否真的已经站在现实门槛之内？

我们一起来看看。

“原生操控电脑”：GPT‑5.4的分水岭时刻

首先快速带大家看一下这次更新亮点：

如果只从参数或跑分角度来看，GPT‑5.4依然是一款“更强的模型”。但在真实体验之后，越来越多开发者给出了一个更直接的判断：这可能是ChatGPT系列第一次发生能力形态上的变化。

▲ GPT-5.4操作电脑的速度大大提升

在WebArena-Verified上，测试浏览器使用时，GPT‑5.4在使用DOM和截图驱动的交互时，取得了领先的67.3%的成功率，相比之下，GPT‑5.2的成功率为65.4%。在Online-Mind2Web上，测试浏览器使用，GPT‑5.4仅使用基于截图的观察，取得了92.8%的成功率，超过了ChatGPT Atlas的代理模式，其成功率为70.9%。

▲ GPT‑5.4自主制作表格、文档、ppt，对比前代模型

过去的模型，哪怕再聪明，本质上仍然停留在“你问我答”的阶段。它可以告诉你怎么做、帮你写代码、生成方案，但最终的执行动作，仍然需要人类亲自完成。而GPT‑5.4第一次在模型层面，跨过了这条界线。

这次说的原生电脑操控能力就是最好的证明。

所谓“原生”，并不是指借助复杂的外挂自动化脚本，或依赖工程师提前写好的流程，而是模型本身就具备了“看屏幕、点鼠标、敲键盘”的能力。

▲ GPT‑5.4解析浏览器界面，并通过基于坐标的点击与UI元素互动，以发送电子邮件和安排日历事件

▲ GPT‑5.4处理一系列记录，并使用基于Playwright的浏览器自动化通过十个网页表单提交信息

GPT‑5.4可以通过屏幕截图理解当前界面，判断按钮位置，然后发出对应的点击或输入指令，像一个真正坐在电脑前的人。

在实测中，这种能力已经覆盖了大量日常操作场景。它可以打开本地应用，在日历里创建提醒；可以启动播放器并播放指定内容；可以进入终端执行命令；甚至能够修改系统设置、切换壁纸。

▲ 图片素材来源于新智元

这种变化，在基准测试中也得到了印证，在标准化任务下，它操作电脑的稳定性，已经不输给真实用户。

这也是为什么很多人将GPT‑5.4称为一个“分水岭”。因为从这一刻开始，AI不再只是站在你身旁指路，而是开始渐渐坐上你的工位。

除了“会动手”，GPT‑5.4在“会思考”这件事上，也完成了一次重要整合。

此前，ChatGPT系列和Codex系列在定位上存在明显区分。前者更擅长对话与推理，后者则是为写代码而生。这种分离在某些场景下非常高效，但在真实工作中，却常常带来割裂感：模型能把代码写得很漂亮，却很难用人能听懂的方式解释业务逻辑；或者规划能力很强，但一落到工程细节就开始卡壳。

▲ 通过观察模型的生产行为并在离线模拟来估计延迟

GPT‑5.4第一次把这两条路线合在了一起。它完整继承了Codex在编程上的优势，同时补齐了世界知识和专业表达能力。就是说现在，它不再只会“写代码”，而是能用正常人能理解的方式，解释自己为什么这么写、接下来要干什么。

这种变化对实际使用体验的影响非常明显。对于非程序员来说，模型的输出不再像一堆“天书”；对于开发者来说，规划、执行和复盘开始变成一个连贯的过程，而不是来回切换不同模型。

官方还放出了几个AI制作的小游戏，以此来评估和内部测试GPT‑5.4的编码以及综合处理能力。

▲ 使用GPT‑5.4从一个轻微指定的提示中制作的主题公园模拟游戏，使用Playwright Interactive进行浏览器游戏测试和等距资产集的图像生成。模拟包括基于瓷砖的路径放置、游乐设施和景观建设、客人路径寻找、排队和游乐设施周期，同时公园的指标如资金、客人数量、幸福感、清洁度和评分会根据布局的表现和客人的反应而上升或下降。使用Playwright自动化浏览器游戏测试，通过构建和扩展公园、放置和移除路径和景点、检查相机导航，并验证客人、队列、游乐设施状态和UI指标在多轮游戏中是否正确更新。

▲ 使用GPT‑5.4创建的战术角色扮演游戏，经过多轮测试，使用Playwright Interactive进行浏览器游戏测试和图像生成，以实现游戏的视觉风格、角色和主题资产集。该游戏在网格地图上采用回制战斗，具有移动、行动、定位和遭遇流程的系统，以及通过迭代的用户界面和着色器工作精炼的展示层。图像生成用于创建角色，Playwright用于验证界面、检查和优化用户界面行为，并支持在游戏的战斗、视觉效果和整体感觉经过多轮调整时进行迭代编辑。

▲ 金门大桥飞行体验是基于一个轻微指定的提示，由GPT-5.4制作，使用Playwright Interactive进行浏览器测试和图像生成作为源材料和表面纹理。在测试过程中，Playwright在浏览器中启动了体验，操作飞行控制和预设视角，从多个距离和角度穿越大桥，检查相机运动和导航是否保持平稳稳定，验证全视口展示没有裁剪或滚动问题，并捕捉视觉证据以帮助完善照明、构图和整体真实感。

下滑查看更多

如果说“能操作电脑”和“能把事说明白”解决的是执行问题，那么100万Token的超长上下文窗口，解决的则是“记不记得住”的问题。

Agent类型的AI，往往不是一次性任务，而是持续运行、不断累积上下文的长期工作流。模型需要记住你之前说过什么，理解任务进度，处理大量文件和历史信息。上下文窗口太小，AI干着干着就忘事。

GPT‑5.4将上下文窗口提升到了百万级别，意味着它可以在一次对话中保留更完整的工作现场。对于复杂任务来说，AI第一次拥有了足够宽敞的“工作台”。

▲ 下载部署网址：https://github.com/openai/skills/tree/main/skills/.curated/playwright-interactive

另一个看似不显眼、但对Agent至关重要的变化，是Tool Search（工具搜索）机制。

简单来说，以前如果给AI接入很多工具，就必须把所有工具说明一次性塞进它的上下文里。工具越多，消耗的Token越多，成本和延迟都会直线上升。GPT‑5.4的做法更接近人类习惯：先告诉它“你能用哪些工具”，真正需要的时候，再去查对应说明。

▲ 工具搜索配置在保持相同准确率的同时将总体token使用量减少47%

按需调用，在测试中可以降低近一半的Token消耗。对于需要长期运行的AI Agent来说，响应速度更快了，使用成本也降低不少。

▲ 工具让路是指助手暂停工作，等待其他工具的响应。如果并行调用3个工具，随后又并行调用3个工具，则工具让路的次数为2。工具让路比工具调用次数更能反映延迟，因为它体现了并行处理的优势。

把这些变化放在一起看，GPT‑5.4的意义就变得清晰起来。第一次在一个通用模型中，打通了“理解任务—规划步骤—调用工具—操作电脑—完成执行”的完整链条。

围绕GPT‑5.4的讨论，很快从“模型性能”转向了一个更大的话题：当AI已经可以独立完成一整套操作流程，人类与AI的协作方式，是否正在发生根本变化？

为什么全世界都在“养龙虾”？

如果说GPT‑5.4代表的是模型能力的一次跃迁，那么OpenClaw的爆火，更像是一种情绪的集中释放。

在过去一段时间里，这个被社区昵称为“龙虾”的开源项目，几乎以失控的速度席卷了开发者社区。短时间内，OpenClaw的GitHub星标数直线拉升，甚至一度超越了Linux这样的基础软件项目。这种速度，本身已经足够令人咋舌。

▲ OpenClaw项目创始人发文庆祝

为什么偏偏是OpenClaw？

从功能上看，OpenClaw不是传统意义上的“聊天工具”。它的定位非常直接，就是一个本地运行的AI Agent框架。换成更好理解的话说，它不让AI跟你聊天，而让AI在你的电脑上替你干活。

OpenClaw可以运行在你自己的设备上，通过Telegram、飞书、WhatsApp等聊天软件接收指令。你发一句话，它就在后台执行对应操作：打开终端、读写文件、整理资料、管理日程，自动完成一整套流程。

项目的口号也很直白——“The AI that actually does things”，意思是“这个 AI 真的会做事”。

这种干脆利落的“执行感”，正是OpenClaw打动大量用户的核心原因。

过去几年，AI产品层出不穷，但很多用户的体验其实高度相似，模型很聪明，说得头头是道，但始终停留在“建议”和“辅助”层面。真正动手的那一步，仍然要人来完成。而OpenClaw的出现，改变了这种模式。

OpenClaw爆火，用户爱称“养龙虾”很可爱却又是事实，用户在本地“养”一个会成长、会记事、会帮忙干活的数字助手。这种关系，本身就比普通软件更容易引发情感投入。

同时，OpenClaw的传播路径，也明显不同于传统开源项目。

它并不是先在企业技术圈内慢慢渗透，而是直接破圈。普通用户、自由职业者、设计师、程序员，甚至不怎么写代码的人，都开始尝试部署自己的“龙虾”。社交平台上，关于OpenClaw的截图、实测视频和经验分享迅速扩散，形成了一种强烈的参与感。

其中一个重要因素，是OpenClaw自带的亚文化属性。

项目的吉祥物是一只名叫Molty的龙虾，社区内部有大量半玩笑式的表达和梗图。让它在心理上，迅速脱离了“冷冰冰的工程项目”，变成了一种更轻松、更有参与感的数字符号。对很多人来说，点下那颗Star，既是对技术的认可，也是一次情绪表态。

还有一个不可忽视的原因，是本地运行带来的安全感。

在云端AI产品逐渐普及的同时，关于隐私、数据和权限的焦虑也在同步增长。OpenClaw强调“运行在你自己的电脑上”，文件、终端和操作都留在本地，这种去中心化的方式，让不少用户产生了更强的控制感。哪怕它并不完美，但至少“钥匙在自己手里”。

不过，在OpenClaw社区里，还有一句被反复提及的话：模型即产品。

这句话的意思很简单。OpenClaw本身只是一个框架，决定它体验上限的，是背后接入的模型。社区里大量实测表明，如果模型能力不够强，OpenClaw很快就会退化成“高级自动补全”；一旦换上顶级模型，执行效果会出现明显飞跃。

在这个背景下，OpenClaw与OpenAI之间的靠近，显得格外关键。

前不久，OpenClaw创始人加入OpenAI的消息，在社区内引发了不小讨论。对很多人来说，这被视为一个信号：原本诞生于社区实验的Agent思路，正在被纳入主流模型的长期战略之中。从“爱好者项目”，走向“产业级方向”，只是时间问题。

▲ OpenClaw项目创始人彼得·斯坦伯格（Peter Steinberger）

从这个角度看，OpenClaw的爆火，正因为它精准踩中了一个绝佳的时间点。

人们厌倦了只会聊天的AI，开始期待一个真的能接过一部分工作的“人”。OpenClaw恰好把这种期待，变成了一个可以亲手部署、亲自体验的现实选项。

当执行型的Agent，与刚刚发布、具备原生电脑操控能力的 GPT‑5.4相遇时，一个更大的故事，才刚刚开始。

GPT‑5.4搭档小龙虾，AI 开始真正“上岗”了吗

GPT‑5.4与 OpenClaw被放在同一张桌子上讨论时，很多人的第一反应是：这两者像是为彼此量身定做的。我觉得这个比喻相当贴切。

你看啊，一边是首次在模型层实现原生电脑操控的通用模型，一边是主打“在你自己电脑上真正干活”的本地AI Agent框架。

从能力结构上看，GPT‑5.4解决的是“AI能不能自己动手”的问题，OpenClaw解决的是“AI住在哪里、怎么长期工作”的问题。

100万Token的超长上下文，在这里发挥了实际意义。对于一次性问答来说，这种容量显得奢侈，但对于长期运行的Agent来说，它意味着不会轻易“忘事”。任务记录、历史指令、文件内容，可以被完整保留下来。

Tool Search机制带来的变化，体现在成本和效率上，模型只在需要的时候才去“翻说明书”，运行更轻，消耗更低。这让“全天候运行一个AI助手”这件事，从概念上变得可行。

加上 GPT‑5.4在推理、编程和专业表达上的统一表现，AI理论上已经可以承担复杂的工作流程。像整理资料、处理文档这种，再到配合完成分析任务，这些过去被认为“还得人来”的事情，开始被逐步覆盖。

这样去理解，不少体验过这套组合的人给出了相似的评价，“第一次，在个人电脑上看到了接近‘数字员工’的能力形态。”

不过，视角再拉远一些，GPT‑5.4的出现，也很难完全脱离当下的行业背景来理解。

此前我们就聊过，Open AI因与美国战争部相关的合作协议引发争议，大量用户选择取消订阅，并且仍有不少网友对于Open AI此前的所作所为充满愤懑。

而且加上Claude、Gemini等竞争对手在模型能力和市场声量上持续加压，整个行业的竞争节奏明显加快。

这种环境下，GPT‑5.4的发布，至少在形式上，显得格外强硬。无论从跑分成绩，还是功能层面去看，“原生电脑操控”，几乎都精准对标当前最受关注的能力方向。

需要强调的是，这并不意味着所有变化都必须被解读为“反击”。我觉得更合理的说法是，GPT‑5.4展现了Open AI在专业用户和Agent路线上的一次集中发力。通过明确展示“AI可以做什么”，重新拉回行业话语权。

但越接近现实执行层面，风险问题就越无法回避。

OpenClaw此前就曾出现过因配置不当导致的安全暴露事件。本地运行、系统权限、自动执行，本身就是一把双刃剑。当 AI 拥有了操作终端、读写文件的能力，任何疏忽，都可能放大成现实风险。

▲ 工信部关于防范OpenClaw开源AI智能体安全风险的预警提示

这同样适用于新模型GPT‑5.4。原生电脑操控意味着更少中间层，也意味着更高权限。一旦被错误配置或误用，后果不再只是“答错一句话”，真实系统都会被影响。

所以对于个人用户来说，这需要更谨慎地对待权限授予和数据管理；对于企业来说，怎么在效率与安全之间找到边界，仍然是一个没有标准答案的问题。

GPT‑5.4与OpenClaw的组合，更像是一扇被推开的门，但门后还有未知的风险，我们玩耍的同时也不得不多留个心眼儿。

总的来说，它让“个人AI员工”第一次看起来不再遥远，却也提醒所有人：当AI真正开始替你做事时，你必须清楚它能做什么，也必须知道它不该做什么。

【来源：公众号】

关于GPT-5.4,OpenClaw,AI Agent,原生电脑操控,OpenAI,Tool Search,100万Token,GitHub,龙虾现象,数字员工的新闻

亲爱的 17173 玩家们～我们正在打磨平台的找游戏功能，想听听你平时是怎么筛选、导航找游戏的？你的真实习惯和偏好，能让后续找游戏更顺手哦！立即点击填写问卷 参与问卷

今日热点

因粉丝爆金币晚了10秒，40万粉游戏主播直播毁号

永劫火速切割，雷蛇送外设声援又一受害者现身！喝口水的功夫库存秒没

3月新游：《红色沙漠》领衔，多款PC网游公测！

《失落星船：马拉松》能否蹭上搜打撤热度《杀戮尖塔2》支持联机

品牌栏目

热门新闻排行

Wan网页游戏免费玩