LMSYS盲测最新排名:零一万物Yi-Large与GPT4o并列中文榜第一
5月21日消息,上周,一个名为“im-also-a-good-gpt2-chatbot”的神秘模型突然现身大模型竞技场LMSYS Chatboat Arena,排名直接超过GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等各家国际大厂的当家基座模型。随后OpenAI揭开“im-also-a-good-gpt2-chatbot”神秘面纱——正是GPT-4o的测试版本,OpenAI CEO Sam Altman也在Gpt-4o发布后亲自转帖引用 LMSYS arena 盲测擂台的测试结果。
时隔一周,美国时间2024年5月20日刚刷新的 LMSYS Chatboat Arena 盲测结果最新更新的排名中,这次排名飞速上涨的模型是由中国大模型公司零一万物提交的“Yi-Large” 千亿参数闭源大模型。该结果来自至今积累超过 1170万的全球用户真实投票数。
全球榜
此次LMSYS Chatboat Arena共有44款模型参赛,在最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第7,中国大模型中第一,已经超过Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与GPT4o 并列世界第一。
中文榜
值得一提的是,排名前6的模型分别归属于海外巨头 OpenAI、Google、Anthropic,零一万物位列全球第四机构,且GPT-4、Gemini 1.5 Pro等模型均为万亿级别超大参数规模的旗舰模型,其他模型也都在大几千亿参数级别。Yi-Large “以小搏大” 以仅仅千亿参数量级紧追其后。
零一万物也由此成为了总榜上唯一一个自家模型进入排名前十的中国大模型企业。在总榜上,GPT系列占了前10的4个,以机构排序,零一万物 01.AI 仅次于 OpenAI, Google, Anthropic之后,以开放金标准正式进击国际顶级大模型企业阵营。
公开资料显示,LMSYS Org (Large Model Systems Organization) 是一个开放的研究组织,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。由LMSYS Org发布的Chatbot Arena凭借其新颖的“竞技场”形式、测试团队的严谨性,成为目前全球业界公认的基准标杆。
在形式上,Chatbot Arena首先将所有上传评测的“参赛”模型随机两两配对,以匿名模型的形式呈现在用户面前。随后号召真实用户输入自己的提示词,在不知道模型型号名称的前提下,由真实用户对两个模型产品的作答给出评价,用户在结果下方做出投票四选一:A模型较佳、B模型较佳,两者平手,或是两者都不好。提交后,可进行下一轮PK。
通过众筹真实用户来进行线上实时盲测和匿名投票,Chatbot Arena一方面减少偏见的影响,另一方面也最大概率避免基于测试集进行刷榜的可能性,以此增加最终成绩的客观性。在收集真实用户投票数据之后,LMSYS Chatbot Arena还使用Elo评分系统来量化模型的表现,进一步优化评分机制,力求公平反应参与者的实力。
得益于“真实用户盲测投票”这一机制,Chatbot Arena被称为大模型业内最有用户体感的评测。目前,Chatbot Arena已经成为OpenAI、Anthropic、Google、Meta等国际大厂“龙争虎斗”的当红擂台。(宜月)
消息称苹果M4系列自研芯片将增加神经网络引擎核心 以增强AI性能4月12日消息,据外媒报道,在生成式人工智能聊天机器人大火之后,科技巨头们纷纷加大了在人工智能上的投入,去年在生成式人工智能领域并没有太多公开动作的苹果,在今年也作出了调整,2月底就有消息称他们终止了研发...
OpenAI首席科学家入选《自然》年度十大人物 ChatGPT也有上榜12月14日消息,据外媒报道,在近一年大热的人工智能领域,OpenAI无疑是最受关注的企业,他们训练的人工智能聊天机器人ChatGPT及开发的大语言模型,是业界重点关注的,OpenAI的高管也是这一领域备受关注的。从外媒最...
腾讯全面开放混元大模型:超千亿参数 超2万亿tokens9月7日消息,在2023腾讯全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生宣布,腾讯自主研发的通用大语言模型——混元,正式面向产业亮相。据介绍,腾讯混元大模型拥有超千亿参数规模,预...
AI时代,媒体靠什么挣钱每年内容授权费5000万美元!过去半年时间OpenAI不断与媒体公司达成协议,向他们支付每年至多5000万美元的费用,获得媒体内容授权,用于AI大模型的训练与产品服务,同时与媒体共同探索AI时代的商业模式与资讯形态。最...
微软发布统一版AI助手Copilot 即将登陆Windows 11、必应等平台9月22日消息,据外媒报道,当地时间周四,微软宣布发布“统一的”人工智能助手Copilot。这款新的“日常人工智能伴侣”将在Windows11、必应搜索、Edge浏览器和微软365软件套件中使用。微软表示,从9月26日开始,Copil...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...