Meta开源大模型Llama-4-Maverick基准测试排名暴跌,此前被质疑刷榜作弊
4 月 14 日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。
4 月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版本。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排行榜中排名第二,仅次于 Gemini 2.5 Pro。然而,随着开发者实际使用 Llama 4 大模型开源版的效果陆续曝光,Llama 4 的口碑急转直下。有开发者发现 Meta 提供给 LMArena 的 Llama 4 版本与提交给社区的开源版本不同,因而质疑 Meta 刷榜作弊。
4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是“特供版”,并考虑更新排行榜。根据 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。
注意到,目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。
Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳?该公司在上周六发布的一张图表中解释称,该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果,因为 LM Arena 的人类评分者会比较不同模型的输出,并选择他们更偏好的结果。
由于各种原因,LM Arena 从未被视为衡量 AI 模型性能的最可靠指标。尽管如此,针对基准测试调整模型不仅具有误导性,还使得开发者难以准确预测该模型在不同场景下的表现。
Meta 的一位发言人向 TechCrunch 表示,Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在 LM Arena 上也表现不错,”该发言人说,“我们现在已发布了开源版本,将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容,并期待他们持续的反馈。”(远洋)
MWC 2025:AI与通信加速融合,电信设备商与运营商齐发力日前,2025年世界移动通信大会(以下称“MWC2025”)在西班牙巴塞罗那举行。作为全球科技发展的风向标,今年的大会主题为“融合·连接·创造”,而对于通信行业来说,AI与通信的融合成为本届大会的展示和发布的重点...
「天工2.0」MoE大模型发布 「天工AI」APP向C端用户免费开放2月6日消息,昆仑万维今日正式发布新版MoE大语言模型「天工2.0」与新版「天工AI智能助手」APP。据介绍,这是国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。用户即日起可在各手机应用...
挑战高通、紫光展锐,消息称恒玄科技正研发 AI 眼镜芯片12月30日消息,据芯流科技评论消息,知情人士透露,目前恒玄科技正在研发专门适配于AI眼镜的芯片。现有的AI眼镜产品,主要搭载高通AR1和紫光展锐W517等芯片。这些芯片普遍诞生于大约5~6年前,并非为AI眼镜专门设计。...
消息称苹果和OpenAI已达成协议 将生成式AI引入iOS 185月27日消息,据外媒报道,传闻几个月的苹果与OpenAI洽谈将生成式人工智能功能引入iOS18一事,有了取得进展的消息,长期关注苹果的一名资深记者,透露双方已经达成了协议。这名资深记者透露,根据双方达成的协议,Op...
英伟达AI芯片H200开始供货,性能相比H100提升60%-90%IT之家3月28日消息,据日本经济新闻今日报道,英伟达的尖端图像处理半导体(GPU)H200现已开始供货。H200为面向AI领域的半导体,性能超过当前主打的H100。根据英伟达方面公布的性能评测结果,以Meta公司旗下大语言模...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...