大模型视觉测评榜单出炉:Gemini遥遥领先 豆包冲进前三

feige2025-12-31 10:08:04快科技

12月31日消息,近日,SuperCLUE-VLM多模态视觉语言基准测评12月总榜公布。

谷歌的Gemini-3-pro以83.64分遥遥领先,字节跳动的豆包大模型以73.15分跻身前三,展现出国内大模型的竞争力。

此次测评从基础认知、视觉推理、视觉应用三个维度对多模态大模型进行评估。

榜首Gemini-3-pro在三项细分指标中均表现突出,基础认知得分89.01、视觉推理82.82、视觉应用79.09,全面领先其他模型。

国内阵营中,商汤科技SenseNova V6.5 Pro以75.35分位居第二,字节跳动的豆包视觉版紧随其后,其基础认知得分82.70,甚至超过部分国际竞品,仅在视觉推理环节稍显短板。

百度ERNIE-5.0-Preview、阿里巴巴Qwen3-vl等国内模型也进入前五,其中Qwen3-vl是榜单中首个开源且总分超70的模型。

国际头部模型中,Anthropic的Claude-opus-4-5得分71.44,OpenAI的GPT-5.2(high)仅获69.16分,排名相对靠后。

Anthropic推出Claude 3系列大模型 最强版测试表现强于GPT-4

3月5日消息,据外媒报道,去年年初开始的生成式人工智能及人工智能大模型热潮目前仍在继续,各大厂商在不断升级他们的模型,作为OpenAI强力竞争对手的Anthropic,就已推出了他们新一代的Claude系列大模型。Anthropic...

跟AI聊天 这五件事千万别说!

3月31日消息,过去几年,用户能从OpenAI的ChatGPT中学到了不少东西,而这个聊天机器人也记录了许多关于用户的个人信息。它从无数次的用户交流中收集了大量个人信息,比如谁喜欢吃鸡蛋,某些用户的小宝宝需要靠哺乳入...

AI催生更多API安全问题,WAAP成防护趋势

4月8日消息,当前,AIGC(生成式人工智能)在各行业各领域得到了广泛应用,API作为AIGC服务商对外输出AI能力的管道,随之而来的API安全问题已日益凸显。API接口的开放性和易用性使其备受开发者青睐,开发、测试和部...

爱奇艺2023年净赚28亿 海外业务和AIGC成业务增长新动力

2月28日,爱奇艺发布2023年第四季度及全年财报,整个2023年,爱奇艺总营收319亿元,同比增长10%;净利润19亿元,去年为净亏损1.36亿元;不按美国通用会计准则(Non-GAAP)净利润28亿元,去年同期盈利8.56亿元,首次...

OpenAI首批投资者科斯拉:大多数AI创企价值都被高估了

10月25日消息,当人工智能初创公司OpenAI在2019年从非营利组织转变为“利润上限(caped-profit)”公司时,硅谷风险投资家维诺德·科斯拉(VinodKhosla)大胆地迈出了第一步。他旗下的科斯拉风投公司向OpenAI投资了500...

TAG:AI Gemin 豆包
上一篇:软银完成对OpenAI的225亿美元追加投资 持股比例达11%
下一篇:马斯克宣布xAI买下第三幢建筑,AI训练算力将扩增至近2GW