OpenAI最强AI智能体编程模型:GPT-5.3-Codex登场,基准测试全面霸榜

changliaomaodexingan2026-02-06 10:19:20IT之家

2 月 6 日消息,OpenAI 昨日(2 月 5 日)发布公告,宣布推出 GPT-5.3-Codex,宣称这是其迄今最强的 AI 智能体编程模型。

附上相关基准测试结果如下:

在 SWE-bench Pro(公开版)测试中,该模型得分 56.8%,超越了前代的 56.4%;

在 Terminal-Bench 2.0 测试中,其得分从前代的 64.0% 大幅跃升至 77.3%;

最为显著的是在 OSWorld-Verified 智能体计算机操作基准测试中,得分从 38.2% 飙升至 64.7%,表明其在复杂环境下的操作能力实现了质的飞跃。

官方数据显示,该模型不仅在多项编程基准测试中创下新高,运行速度也比前代 GPT-5.2-Codex 提升了 25%。

OpenAI 致力于将 GPT-5.3-Codex 打造为更优秀的开发者协作工具。新模型支持用户在任务执行过程中进行“引导与交互”,且不会导致上下文丢失。

在 Codex 应用中,模型会高频更新工作进度,允许开发者实时提问、讨论方案并修正方向。官方博文指出,Codex 正从单一的编程智能体演变为更通用的计算机协作者,大幅降低了构建应用的门槛。

GPT-5.3-Codex 目前已全面向 ChatGPT 付费用户开放,涵盖 Plus、Team 及 Enterprise 等订阅计划。用户可通过 Codex 应用、命令行工具(CLI)、IDE 扩展插件及网页端立即访问,API 版本也将在近期上线。(故渊)

TechWeb微晚报:余承东官宣鸿蒙智行“压轴新品”,特斯拉AI芯片不会卖给其他厂商

今日要闻一览:特斯拉AI芯片不会卖给其他厂商马斯克称只满足自身需求5354万港元!阿里前CEO张勇购入香港半山豪宅第三季度销量减少11.5%!中国智能投影市场形势严峻iPhone18确认推迟发布!苹果明年9月只发iPhone18Pro...

Kimi逆袭,硅谷纸贵

10月的最后一个工作日,雪豹财经社拜访了月之暗面的北京办公室。我们注意到,月之暗面的会议室都以乐队命名:PinkFloyd、TheRollingStone、Queen、TheBeatles、Radiohead......阿里有“光明顶”,百度有“昆仑”,它...

松鼠Ai发布首个智适应教育大模型 年底将推国际版教育产品

1月9日消息,自去年初以来,以大语言模型及生成式人工智能为代表的人工智能技术在全球掀起科技和产业创新浪潮,人工智能应用在大模型领域打开新局面。在教育领域,如何推进人工智能技术与教育的深度融合,也成为教育...

DeepSeek被曝开发AI智能体模型:能自主完成多步工作

9月5日消息,据媒体报道,DeepSeek正在研发一款更为先进的AI智能体模型,希望在与OpenAI等竞争对手在这一新兴技术领域展开竞争。据匿名人士透露,DeepSeek正在开发的模型只需用户给出简单指令,即可自动完成多步骤任...

李彦宏谈DeepSeek的出现:创新是不能被计划的

2月12日消息,在阿联酋迪拜举办的WorldGovernmentsSummit2025峰会上,百度创始人李彦宏与阿联酋AI部长奥马尔·苏丹·奥拉马(OmarSultanAIOlama)进行了对谈。两人就人工智能、大语言模型、自动驾驶、AI基础设施等话...

TAG:AI OpenAI
上一篇:千问30亿“春节请客计划”上线 免费奶茶喝上了
下一篇:苹果 50 周年庆典定档 4 月,库克承诺将有“大动作”