OpenAI一员工公开指责xAI 称Grok 3基准测试结果具有误导性

hongsefengfan2025-02-23 10:45:22IT之家

IT之家 2 月 23 日消息,本周,OpenAI 的一名员工公开指责埃隆・马斯克旗下的 xAI 公司,称其发布的最新 AI 模型 Grok 3 的基准测试结果具有误导性。对此,xAI 的联合创始人伊戈尔・巴布什金(Igor Babushkin)则坚称公司并无不当。

xAI 在其博客上发布了一张图表,展示了 Grok 3 在 AIME 2025(一项近期邀请制数学考试中的高难度数学题集)上的表现。尽管一些专家质疑 AIME 作为 AI 基准的有效性,但 AIME 2025 及其早期版本仍被广泛用于评估模型的数学能力。

IT之家注意到,xAI 的图表显示,Grok 3 的两个版本 ——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning—— 在 AIME 2025 上的表现超过了 OpenAI 当前最强的可用模型 o3-mini-high。然而,OpenAI 的员工很快在 X 平台上指出,xAI 的图表并未包含 o3-mini-high 在“cons@64”条件下的 AIME 2025 得分。

“cons@64”是指“consensus@64”,即允许模型在基准测试中对每个问题尝试 64 次,并将出现频率最高的答案作为最终答案。可想而知,这种方式往往会显著提升模型的基准测试分数,如果图表中省略这一数据,就可能让人误以为某个模型的表现优于另一模型,而实际情况未必如此。

在 AIME 2025 的“@1”条件下(即模型首次尝试的得分),Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的得分低于 o3-mini-high。Grok 3 Reasoning Beta 的表现也略低于 OpenAI 的 o1 模型在“中等计算”设置下的得分。然而,xAI 仍在宣传 Grok 3 为“世界上最聪明的 AI”。

巴布什金在 X 平台上辩称,OpenAI 过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。

在这场争议中,一位中立的第三方重新绘制了一张更为“准确”的图表:

但正如 AI 研究员内森・兰伯特(Nathan Lambert)在一篇文章中指出的,或许最重要的指标仍然未知:每个模型达到最佳分数所需的计算(和金钱)成本。这恰恰表明,大多数 AI 基准测试在传达模型的局限性和优势方面仍然存在很大的不足。

OpenAI CEO、COO首次“合体”对话:AI成本可降至“接近零”

IT之家4月16日消息,OpenAICEO阿尔特曼和COO(首席运营官)布拉德・莱特凯普近日首次“合体”参与YouTube频道“20VC”的对话节目。据钛媒体,阿尔特曼认为如今限制AI发展的关键是地缘政治、社会经济等方面的不稳定,...

朱啸虎:AI创业的赚钱风向彻底变了,送给创业者三句话

6月25日消息,i黑马披露了金沙江创投主管合伙人朱啸虎在6月的黑马大课上进行的主题为《生成式AI:金矿还是泡沫?》的分享内容。在这场分享中,朱啸虎谈到,AI创业的赚钱风向,已经彻底变了。今年将是AIGC创业回归商...

马斯克AI公司xAI被指未经许可在数据中心使用燃气涡轮机,污染空气质量

8月29日消息,马斯克的AI初创公司xAI正面临环保和健康倡导者的批评,原因是该公司在未获得必要的许可的情况下在其数据中心使用燃气涡轮机,造成了田纳西州孟菲斯市的空气污染。南方环境法律中心向位于Shelby县的数据...

字节火山引擎总裁谭待:现在大模型价格回归正常水平,原来太贵了

8月28日消息,字节跳动旗下火山引擎总裁谭待在上周接受澎湃新闻采访时,谈到了此前行业内发生的AI大模型「价格战」。谭待认为,大模型原来的价格太贵了,现在是价格回归到应该回归的地方,这不是价格战。区别在于,...

第四范式港交所上市 李开复送上祝福

9月28日消息,决策类人工智能公司“第四范式”正式登陆港股,第四范式早期投资人、创新工场董事长兼CEO李开复送上祝福。李开复表示,祝贺第四范式在港交所主板挂牌上市。在戴文渊博士和其团队的带领下,第四范式具有...

上一篇:连续六个季度三位数增长 吴泳铭自曝阿里最具潜力AI应用
下一篇:调查报告:中国半导体关键技术已全面超越韩国