GPT‑5.4深夜发布,百万网友“养”的龙虾,终于有了灵魂
GPT-5.4深夜发布,原生电脑操控能力首次实现!与OpenClaw龙虾AI结合,开启个人AI员工时代,效率革命引爆全网。
刚经历用户流失风波,Open AI与战争部的协议后续情况未明,就反手甩出一个大雷!
就在今日凌晨,Open AI在几乎没有预告的情况下,正式发布新一代旗舰模型GPT‑5.4。


在过去一个月里被竞争对手持续压制之后,在用户的集体愤怒之后,这次发布被外界普遍视为一次关键性的反击,而从公布的能力结构来看,这并非一次常规性能更新。

Open AI与战争部军事合作引爆抵制潮,超70万用户取消订阅
与前代模型相比,GPT‑5.4最引人注目的变化在于,其首次在通用模型层面实现了“原生电脑操控能力”。
什么意思呢,就是说模型不再仅仅停留在生成文本或代码,而是可以通过截图理解桌面环境,发出鼠标点击与键盘输入指令,像人类一样在真实操作系统中完成任务。

在OSWorld‑Verified这一衡量AI桌面操作能力的基准测试中,GPT‑5.4取得了75%的成功率,首次超过人类平均水平。
同时,GPT‑5.4还支持最高100万Token的超长上下文窗口,并引入了全新的Tool Search(工具搜索)机制,允许模型按需检索工具定义,从而显著降低复杂Agent场景下的Token消耗。


编程能力上,GPT‑5.4完成了与此前Codex系列的合流,在SWE‑Bench Pro中取得57.7%的成绩;在衡量真实职业知识工作的GDPval评测中,其胜率达到83%,被官方定位为“面向专业工作的主力模型”。
这些数据让我们开始思考:GPT‑5.4究竟只是一次更强的模型升级,还是能够改变人们的工作模式?AI可以直接替你完成操作时,人机关系是否正在发生根本变化?



几乎在同一时间,另一个名字也频繁出现在开发者社区与社交网络中——OpenClaw。
这个以龙虾为吉祥物的开源AI Agent框架,在短时间内GitHub星标数飙升,被称为AI圈的“龙虾现象”。
它强调本地运行、真实执行与系统级权限,主张“让AI真正帮你干活”。

双方于当地时间2月16日官宣OpenClaw加入OpenAI,距离现在还不到1个月,恐怕大多数人都没想到这次的合作成果竟这么快就随着GPT‑5.4的发布而真的掀起了一场全新效率革命。



OpenClaw之父加入OpenAI,一场改变AI权力格局的“龙虾革命”
当具备原生电脑操控能力的GPT‑5.4,与以执行见长的OpenClaw相遇,一个此前更多停留在概念层面的命题被再次抛到台前:个人AI员工,是否真的已经站在现实门槛之内?
我们一起来看看。
01

“原生操控电脑”:GPT‑5.4的分水岭时刻
首先快速带大家看一下这次更新亮点:
如果只从参数或跑分角度来看,GPT‑5.4依然是一款“更强的模型”。但在真实体验之后,越来越多开发者给出了一个更直接的判断:这可能是ChatGPT系列第一次发生能力形态上的变化。

▲ GPT-5.4操作电脑的速度大大提升
在WebArena-Verified上,测试浏览器使用时,GPT‑5.4在使用DOM和截图驱动的交互时,取得了领先的67.3%的成功率,相比之下,GPT‑5.2的成功率为65.4%。在Online-Mind2Web上,测试浏览器使用,GPT‑5.4仅使用基于截图的观察,取得了92.8%的成功率,超过了ChatGPT Atlas的代理模式,其成功率为70.9%。



▲ GPT‑5.4自主制作表格、文档、ppt,对比前代模型
过去的模型,哪怕再聪明,本质上仍然停留在“你问我答”的阶段。它可以告诉你怎么做、帮你写代码、生成方案,但最终的执行动作,仍然需要人类亲自完成。而GPT‑5.4第一次在模型层面,跨过了这条界线。
这次说的原生电脑操控能力就是最好的证明。
所谓“原生”,并不是指借助复杂的外挂自动化脚本,或依赖工程师提前写好的流程,而是模型本身就具备了“看屏幕、点鼠标、敲键盘”的能力。

▲ GPT‑5.4解析浏览器界面,并通过基于坐标的点击与UI元素互动,以发送电子邮件和安排日历事件

▲ GPT‑5.4处理一系列记录,并使用基于Playwright的浏览器自动化通过十个网页表单提交信息
GPT‑5.4可以通过屏幕截图理解当前界面,判断按钮位置,然后发出对应的点击或输入指令,像一个真正坐在电脑前的人。
在实测中,这种能力已经覆盖了大量日常操作场景。它可以打开本地应用,在日历里创建提醒;可以启动播放器并播放指定内容;可以进入终端执行命令;甚至能够修改系统设置、切换壁纸。




▲ 图片素材来源于新智元
这种变化,在基准测试中也得到了印证,在标准化任务下,它操作电脑的稳定性,已经不输给真实用户。

这也是为什么很多人将GPT‑5.4称为一个“分水岭”。因为从这一刻开始,AI不再只是站在你身旁指路,而是开始渐渐坐上你的工位。
除了“会动手”,GPT‑5.4在“会思考”这件事上,也完成了一次重要整合。
此前,ChatGPT系列和Codex系列在定位上存在明显区分。前者更擅长对话与推理,后者则是为写代码而生。这种分离在某些场景下非常高效,但在真实工作中,却常常带来割裂感:模型能把代码写得很漂亮,却很难用人能听懂的方式解释业务逻辑;或者规划能力很强,但一落到工程细节就开始卡壳。

▲ 通过观察模型的生产行为并在离线模拟来估计延迟
GPT‑5.4第一次把这两条路线合在了一起。它完整继承了Codex在编程上的优势,同时补齐了世界知识和专业表达能力。就是说现在,它不再只会“写代码”,而是能用正常人能理解的方式,解释自己为什么这么写、接下来要干什么。
这种变化对实际使用体验的影响非常明显。对于非程序员来说,模型的输出不再像一堆“天书”;对于开发者来说,规划、执行和复盘开始变成一个连贯的过程,而不是来回切换不同模型。
官方还放出了几个AI制作的小游戏,以此来评估和内部测试GPT‑5.4的编码以及综合处理能力。
▲ 使用GPT‑5.4从一个轻微指定的提示中制作的主题公园模拟游戏,使用Playwright Interactive进行浏览器游戏测试和等距资产集的图像生成。模拟包括基于瓷砖的路径放置、游乐设施和景观建设、客人路径寻找、排队和游乐设施周期,同时公园的指标如资金、客人数量、幸福感、清洁度和评分会根据布局的表现和客人的反应而上升或下降。使用Playwright自动化浏览器游戏测试,通过构建和扩展公园、放置和移除路径和景点、检查相机导航,并验证客人、队列、游乐设施状态和UI指标在多轮游戏中是否正确更新。
▲ 使用GPT‑5.4创建的战术角色扮演游戏,经过多轮测试,使用Playwright Interactive进行浏览器游戏测试和图像生成,以实现游戏的视觉风格、角色和主题资产集。该游戏在网格地图上采用回制战斗,具有移动、行动、定位和遭遇流程的系统,以及通过迭代的用户界面和着色器工作精炼的展示层。图像生成用于创建角色,Playwright用于验证界面、检查和优化用户界面行为,并支持在游戏的战斗、视觉效果和整体感觉经过多轮调整时进行迭代编辑。
▲ 金门大桥飞行体验是基于一个轻微指定的提示,由GPT-5.4制作,使用Playwright Interactive进行浏览器测试和图像生成作为源材料和表面纹理。在测试过程中,Playwright在浏览器中启动了体验,操作飞行控制和预设视角,从多个距离和角度穿越大桥,检查相机运动和导航是否保持平稳稳定,验证全视口展示没有裁剪或滚动问题,并捕捉视觉证据以帮助完善照明、构图和整体真实感。
下滑查看更多
如果说“能操作电脑”和“能把事说明白”解决的是执行问题,那么100万Token的超长上下文窗口,解决的则是“记不记得住”的问题。
Agent类型的AI,往往不是一次性任务,而是持续运行、不断累积上下文的长期工作流。模型需要记住你之前说过什么,理解任务进度,处理大量文件和历史信息。上下文窗口太小,AI干着干着就忘事。
GPT‑5.4将上下文窗口提升到了百万级别,意味着它可以在一次对话中保留更完整的工作现场。对于复杂任务来说,AI第一次拥有了足够宽敞的“工作台”。

▲ 下载部署网址:https://github.com/openai/skills/tree/main/skills/.curated/playwright-interactive
另一个看似不显眼、但对Agent至关重要的变化,是Tool Search(工具搜索)机制。
简单来说,以前如果给AI接入很多工具,就必须把所有工具说明一次性塞进它的上下文里。工具越多,消耗的Token越多,成本和延迟都会直线上升。GPT‑5.4的做法更接近人类习惯:先告诉它“你能用哪些工具”,真正需要的时候,再去查对应说明。

▲ 工具搜索配置在保持相同准确率的同时将总体token使用量减少47%
按需调用,在测试中可以降低近一半的Token消耗。对于需要长期运行的AI Agent来说,响应速度更快了,使用成本也降低不少。

▲ 工具让路是指助手暂停工作,等待其他工具的响应。如果并行调用3个工具,随后又并行调用3个工具,则工具让路的次数为2。工具让路比工具调用次数更能反映延迟,因为它体现了并行处理的优势。
把这些变化放在一起看,GPT‑5.4的意义就变得清晰起来。第一次在一个通用模型中,打通了“理解任务—规划步骤—调用工具—操作电脑—完成执行”的完整链条。
围绕GPT‑5.4的讨论,很快从“模型性能”转向了一个更大的话题:当AI已经可以独立完成一整套操作流程,人类与AI的协作方式,是否正在发生根本变化?
02

为什么全世界都在“养龙虾”?

如果说GPT‑5.4代表的是模型能力的一次跃迁,那么OpenClaw的爆火,更像是一种情绪的集中释放。
在过去一段时间里,这个被社区昵称为“龙虾”的开源项目,几乎以失控的速度席卷了开发者社区。短时间内,OpenClaw的GitHub星标数直线拉升,甚至一度超越了Linux这样的基础软件项目。这种速度,本身已经足够令人咋舌。

▲ OpenClaw项目创始人发文庆祝
为什么偏偏是OpenClaw?
从功能上看,OpenClaw不是传统意义上的“聊天工具”。它的定位非常直接,就是一个本地运行的AI Agent框架。换成更好理解的话说,它不让AI跟你聊天,而让AI在你的电脑上替你干活。
OpenClaw可以运行在你自己的设备上,通过Telegram、飞书、WhatsApp等聊天软件接收指令。你发一句话,它就在后台执行对应操作:打开终端、读写文件、整理资料、管理日程,自动完成一整套流程。


项目的口号也很直白——“The AI that actually does things”,意思是“这个 AI 真的会做事”。

这种干脆利落的“执行感”,正是OpenClaw打动大量用户的核心原因。
过去几年,AI产品层出不穷,但很多用户的体验其实高度相似,模型很聪明,说得头头是道,但始终停留在“建议”和“辅助”层面。真正动手的那一步,仍然要人来完成。而OpenClaw的出现,改变了这种模式。
OpenClaw爆火,用户爱称“养龙虾”很可爱却又是事实,用户在本地“养”一个会成长、会记事、会帮忙干活的数字助手。这种关系,本身就比普通软件更容易引发情感投入。

同时,OpenClaw的传播路径,也明显不同于传统开源项目。
它并不是先在企业技术圈内慢慢渗透,而是直接破圈。普通用户、自由职业者、设计师、程序员,甚至不怎么写代码的人,都开始尝试部署自己的“龙虾”。社交平台上,关于OpenClaw的截图、实测视频和经验分享迅速扩散,形成了一种强烈的参与感。

其中一个重要因素,是OpenClaw自带的亚文化属性。


项目的吉祥物是一只名叫Molty的龙虾,社区内部有大量半玩笑式的表达和梗图。让它在心理上,迅速脱离了“冷冰冰的工程项目”,变成了一种更轻松、更有参与感的数字符号。对很多人来说,点下那颗Star,既是对技术的认可,也是一次情绪表态。



还有一个不可忽视的原因,是本地运行带来的安全感。
在云端AI产品逐渐普及的同时,关于隐私、数据和权限的焦虑也在同步增长。OpenClaw强调“运行在你自己的电脑上”,文件、终端和操作都留在本地,这种去中心化的方式,让不少用户产生了更强的控制感。哪怕它并不完美,但至少“钥匙在自己手里”。

不过,在OpenClaw社区里,还有一句被反复提及的话:模型即产品。
这句话的意思很简单。OpenClaw本身只是一个框架,决定它体验上限的,是背后接入的模型。社区里大量实测表明,如果模型能力不够强,OpenClaw很快就会退化成“高级自动补全”;一旦换上顶级模型,执行效果会出现明显飞跃。
在这个背景下,OpenClaw与OpenAI之间的靠近,显得格外关键。
前不久,OpenClaw创始人加入OpenAI的消息,在社区内引发了不小讨论。对很多人来说,这被视为一个信号:原本诞生于社区实验的Agent思路,正在被纳入主流模型的长期战略之中。从“爱好者项目”,走向“产业级方向”,只是时间问题。


▲ OpenClaw项目创始人彼得·斯坦伯格(Peter Steinberger)
从这个角度看,OpenClaw的爆火,正因为它精准踩中了一个绝佳的时间点。
人们厌倦了只会聊天的AI,开始期待一个真的能接过一部分工作的“人”。OpenClaw恰好把这种期待,变成了一个可以亲手部署、亲自体验的现实选项。
当执行型的Agent,与刚刚发布、具备原生电脑操控能力的 GPT‑5.4相遇时,一个更大的故事,才刚刚开始。
03

GPT‑5.4搭档小龙虾,AI 开始真正“上岗”了吗

GPT‑5.4与 OpenClaw被放在同一张桌子上讨论时,很多人的第一反应是:这两者像是为彼此量身定做的。我觉得这个比喻相当贴切。
你看啊,一边是首次在模型层实现原生电脑操控的通用模型,一边是主打“在你自己电脑上真正干活”的本地AI Agent框架。
从能力结构上看,GPT‑5.4解决的是“AI能不能自己动手”的问题,OpenClaw解决的是“AI住在哪里、怎么长期工作”的问题。

100万Token的超长上下文,在这里发挥了实际意义。对于一次性问答来说,这种容量显得奢侈,但对于长期运行的Agent来说,它意味着不会轻易“忘事”。任务记录、历史指令、文件内容,可以被完整保留下来。
Tool Search机制带来的变化,体现在成本和效率上,模型只在需要的时候才去“翻说明书”,运行更轻,消耗更低。这让“全天候运行一个AI助手”这件事,从概念上变得可行。
加上 GPT‑5.4在推理、编程和专业表达上的统一表现,AI理论上已经可以承担复杂的工作流程。像整理资料、处理文档这种,再到配合完成分析任务,这些过去被认为“还得人来”的事情,开始被逐步覆盖。

这样去理解,不少体验过这套组合的人给出了相似的评价,“第一次,在个人电脑上看到了接近‘数字员工’的能力形态。”
不过,视角再拉远一些,GPT‑5.4的出现,也很难完全脱离当下的行业背景来理解。
此前我们就聊过,Open AI因与美国战争部相关的合作协议引发争议,大量用户选择取消订阅,并且仍有不少网友对于Open AI此前的所作所为充满愤懑。




而且加上Claude、Gemini等竞争对手在模型能力和市场声量上持续加压,整个行业的竞争节奏明显加快。
这种环境下,GPT‑5.4的发布,至少在形式上,显得格外强硬。无论从跑分成绩,还是功能层面去看,“原生电脑操控”,几乎都精准对标当前最受关注的能力方向。
需要强调的是,这并不意味着所有变化都必须被解读为“反击”。我觉得更合理的说法是,GPT‑5.4展现了Open AI在专业用户和Agent路线上的一次集中发力。通过明确展示“AI可以做什么”,重新拉回行业话语权。

但越接近现实执行层面,风险问题就越无法回避。
OpenClaw此前就曾出现过因配置不当导致的安全暴露事件。本地运行、系统权限、自动执行,本身就是一把双刃剑。当 AI 拥有了操作终端、读写文件的能力,任何疏忽,都可能放大成现实风险。


▲ 工信部关于防范OpenClaw开源AI智能体安全风险的预警提示
这同样适用于新模型GPT‑5.4。原生电脑操控意味着更少中间层,也意味着更高权限。一旦被错误配置或误用,后果不再只是“答错一句话”,真实系统都会被影响。
所以对于个人用户来说,这需要更谨慎地对待权限授予和数据管理;对于企业来说,怎么在效率与安全之间找到边界,仍然是一个没有标准答案的问题。

GPT‑5.4与OpenClaw的组合,更像是一扇被推开的门,但门后还有未知的风险,我们玩耍的同时也不得不多留个心眼儿。
总的来说,它让“个人AI员工”第一次看起来不再遥远,却也提醒所有人:当AI真正开始替你做事时,你必须清楚它能做什么,也必须知道它不该做什么。
- 《大话西游2》元宵节任务灯谜与字谜答案整理!欢迎补充
- 3月新游推荐:韩游最重磅的3A《红色沙漠》即将发售!《失落星船:马拉松》能否蹭上搜打撤的热度?
- 一看吓一跳:雷死人不偿命的囧图集(1035)
- 一看吓一跳:雷死人不偿命的囧图集(1036)
- 一看吓一跳:雷死人不偿命的囧图集(1034)
- 正惊GIF:人神共愤!如此漂亮女教师被气到动手,学生竟一脸无所谓
- 热游情报:宝可梦、守望、古印度黑猴新作曝光!首款二次元GTA抢先定档
- 一看吓一跳:雷死人不偿命的囧图集(1033)
- 一看吓一跳:雷死人不偿命的囧图集(1037)
- 颜值COS,玉足、白丝过膝袜,体操服双马尾,简直太迷人
- 《蔚蓝档案》「白丝透肤VS发光腹肌!砂狼白子体操服侧拍,腰线凹陷度堪比3D建模」
- 「体操服の‘液态曲线’!橘望顶配身材|白丝厚D呼之欲出,腰臀比秒杀建模」
- 《燕云十六声》掌中宝+特殊蹊跷位置大全,三寸之身任务合集,仅剩7天10连抽连袅袅之音!
- 经典MMORPG《冒险岛M》上线PC!盘点3月外服端游
- 「纯欲天花板」2B花嫁撕破次元!白丝过膝陷肉感,透粉脚底VS发光蛮腰の双重暴击
- 《传奇5》真的要来了?还有《绝地求生》衍生作上线!盘点2026年能够玩到的韩国游戏
- 《大话西游2》元宵节任务灯谜与字谜答案整理!欢迎补充
- 和平精英2025灵敏度分享码:最稳压枪灵敏度方案推荐
- 3月新游推荐:韩游最重磅的3A《红色沙漠》即将发售!《失落星船:马拉松》能否蹭上搜打撤的热度?
- AI大姐姐:胸猛美女,挑战你的视觉极限(221)

