蚂蚁数科登顶国际权威BIRD榜单 刷新中国公司最好成绩

suliaohehua2025-09-26 17:30:36TechWeb.com.cn

9月26日消息,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。

BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。

值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。(周小白)

腾讯QQ开始测试AI对话功能,名为“AI聊天搭子”

IT之家3月6日消息,Tech星球发现,腾讯现为QQ推出了一个AI对话功能,名为“AI聊天搭子”,由QQ联合筑梦岛、混元助手合作提供服务,目前已经开启测试,但IT之家暂未获取到测试资格。除此之外,抖音也上线了一款名为“...

OpenAI最强模型GPT-5即将面世:性能跃升,对抗 Gemini 2.5 Pro 和 Claude 4 的杀手锏

6月4日消息,在墨西哥举办的AISummit峰会上,两名OpenAI公司代表透露,公司正在开发下一代基础模型GPT-5,并计划通过该模型与Gemini2.5Pro、Claude4等竞争对手展开更激烈角逐。援引博文介绍,两位OpenAI代表明确表示...

OpenAI CEO被炒鱿鱼 微软仅提前1分钟获得消息

新浪科技讯北京时间11月18日早间消息,据报道,人工智能初创公司OpenAICEOSamAltman的离职让业界颇感意外,就连背后的“金主”微软公司也不例外。当地时间周五,OpenAI董事会出乎意料地宣布,Altman将辞去公司CEO一...

我国中部地区最大智算中心正式投产 主要满足大模型研发企业算力需求

IT之家1月12日消息,据央视新闻总台河南总站昨日报道,我国中部地区规模最大的智算中心在河南郑州正式投产,该项目按照A级数据中心标准建设15个模块化机房,主要满足大模型研发企业的高端训练算力需求。河南空港智算...

消息称阿尔特曼计划将OpenAI重组为营利性公司,旨在为投资者提供激励

5月30日消息,据TheInformation今日报道,知情人士称OpenAICEO山姆・阿尔特曼正考虑将OpenAI重组为一家正规的营利性公司,重点解决公司性质(注:非营利公司)与其营收业务的冲突。据一位与阿尔特曼交谈过的知情人士...

上一篇:从卖卡牌到开乐园 爱奇艺解锁屏幕之外的新增长
下一篇:消费级具身智能机器人企业「乐享科技」官宣完成2亿元天使++轮融资