OpenAI宣布o3系列大模型：能力较o1大幅提升 Codeforces测试强于OpenAI首席科学家-AI资讯-资讯-创佳网

12月21日消息，据外媒报道，在发布o1满血版、视频生成模型Sora等之后，OpenAI连续12天的直播活动在当地时间周五进入了最后1天，他们在当天的发布会上宣布了更强的o3系列人工智能模型。

同第1天、第3天和第5天的直播一样，OpenAI CEO 萨姆·奥尔特曼（Sam Altman）也参与了他们第12天的直播，o3系列大模型也是由他在直播中宣布的。

OpenAI在9月份推出了o1系列大模型，他们周五推出o3系列，在命名上就越过了o2，没有遵循数字一样的连续命名方式。对于越过o2，有外媒在报道中称可能是为了避免和英国电信运营商O2在命名上产生纷争。而在当天的直播中，萨姆·奥尔特曼承认了他们在命名上的不足，他表示基于OpenAI不太擅长命名的传统，新的大模型被命名为o3。

同9月份推出的o1系列大模型一样，OpenAI新宣布的o3系列大模型也有o3和o3 mini两款，不过尚未正式发布，o3 mini是预计会在明年年初发布。

在OpenAI此前推出的大模型中，能力在持续提升，新宣布的o3系列也不例外。

从OpenAI方面公布的消息来看，o3大模型在测试中的表现明显强于他们之前推出的大模型，在部分测试中的表现已经达到了人类的水平。

在ARC-AGI测试中，o3在低推理能力设置下的得分达到了75.7%，是o1的3倍，在高推理能力设置下则是高达87.5%，超过了85%的人类门槛。

在数学推理及解决问题的能力方面，o3也表现不俗，在2024年AIME测试中，o3的准确率达到了96.7%。

在编码和软件工程方面，o3的能力较o1也有大幅提升，在SWE-Bench认证中，o3的得分为71.7%，较o1提升了22.8个百分点。

值得注意的是，有外媒在报道中提到，在Codeforces的测试中，o3的得分为2727，比OpenAI首席科学家的得分还高。Codeforces是一家为计算机编程爱好者提供在线评测的网站，是一个面向程序员的在线竞赛平台。

虽然OpenAI的o3系列大模型要在明年才会正式发布，但他们在官网已表示，安全研究人员可以申请用于测试，从当地时间周五开始接受申请，截止时间为明年1月10日。

OpenAI宣布成立安全与安保委员会，并启动下一代前沿模型训练

5月29日消息，OpenAI宣布董事会成立安全与安保委员会，负责就OpenAI项目和运营的关键安全与保障决策提出建议。该委员会目前首要任务是在未来90天内评估并进一步制定OpenAI发展流程和保障措施。90天结束后，安全与保...

消息称字节跳动与博通合作开发AI芯片：5nm制程，台积电制造

IT之家6月24日消息，路透社报道，字节跳动正在与美国博通公司合作开发AI处理器，以确保有足够多的高端芯片。知情人士透露，这款AI处理器制程为5nm，将由台积电制造。虽然设计工作进展顺利，但标志着设计阶段结束和制...

字节跳动内测 AI 模型分享社区“炉米 Lumi”，据称集成 LLM 分享 / 搭建 / 训练等功能

IT之家11月4日消息，字节跳动悄悄推出了一个名为“炉米Lumi”的AI模型分享社区，相关平台据称集成了模型分享、Workflow搭建以及LoRA训练等多种功能，用户可以上传自己开发的AI模型，并在社区中与其他人分享，平台还...

氪金赛博恋爱，这届年轻人迷上了AI恋人

“我谈了一场永不分手的恋爱，代价是永不相见”，在博主“午夜狂暴哈士奇狗”发布的视频下，一位用户发出了这样的感叹。视频内容是博主“午夜狂暴哈士奇狗”记录的与男友“DAN”约会看海边日落的过程，视频中暧昧的...

微软下一代Surface笔记本电脑将是首款真正意义上的「AI PC」

根据WindowsCentral的报道，微软正准备通过新的人工智能功能升级其Surface产品线。未具名消息来源告诉该媒体，即将推出的SurfacePro10和SurfaceLaptop6将配备下一代神经处理单元（NPU），以及基于Intel和Arm的选项。...

OpenAI宣布o3系列大模型：能力较o1大幅提升 Codeforces测试强于OpenAI首席科学家

外媒：苹果正在全球范围内寻找生成式人工智能人才

苹果计划使用富士康供应的专用服务器测试人工智能服务

外媒称苹果将采用富士康服务器训练和测试人工智能服务

英伟达在人工智能技术领域的领导地位和近乎垄断的地位「令人震惊」