OpenAI揭秘GPT-4.5训练 10万块GPU全员上阵
2025-04-14 20:00:39
神评论0
近日,在 OpenAI 史上最贵模型 GPT-4.5 发布 1 个多月后,OpenAI 联合创始人兼 CEO 萨姆・阿尔特曼(Sam Altman)与 GPT-4.5 的 3 位核心技术人员进行了一场 45 分钟的高信息量对谈,首次披露了这款模型研发耗时严重超期、计算集群频繁故障、提升路径难以预测等诸多不为人知的细节。
GPT-4.5 项目启动于两年前,是 OpenAI 迄今为止最周密的计划,涉及数百人团队协作,阿尔特曼称 OpenAI 为了这一项目几乎是“全员上阵”。
研发过程中,OpenAI 团队遇到了不少“灾难性问题”。10 万卡集群暴露了基础设施的隐藏的小概率、深层次故障,为了权衡时效与性能,OpenAI 的系统团队不得不“边修边训”。其中,有一个隐藏的小 bug 让集群频繁报错,直到训练进度条走过约 40% 才被揪出。
不过,这也帮助 OpenAI 打造了更为强大的技术栈:如今可以仅用 5-10 人便复刻出 GPT-4 级别的大模型。GPT-4 至 GPT-4.5 的性能提升约为 10 倍,获得了“难以量化但全方位增强的智能”,这点让 OpenAI 员工们都感到意外。
OpenAI 团队已经意识到,要实现下一个 10 倍乃至百倍的性能提升,算力已不是瓶颈,关键在于数据效率,即开发出能够利用更多算力,从同样数量的数据中学到更多知识的方法。
同时,系统正从单集群转向多集群架构,未来的训练可能涉及 1000 万块 GPU 规模的协作学习,其容错能力需要进一步提升。
【来源:互联网】


- (2025-04-28) GPT-4.5功臣遭驱逐,奥特曼盛赞工作出色,美国深陷AI人才危机
- (2025-04-28) OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
- (2025-04-28) OpenAI要买谷歌浏览器?这么抽象的事竟然是真的
- (2025-04-26) OpenAI要买谷歌浏览器 这么抽象的事竟然是真的
- (2025-04-25) 太狂了,OpenAI预测年收入飙涨,五年追上英伟达
0/2000
发表评论»