蚂蚁数科登顶国际权威BIRD榜单 刷新中国公司最好成绩
9月26日消息,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。
BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。
值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。
据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。(周小白)
腾讯QQ开始测试AI对话功能,名为“AI聊天搭子”IT之家3月6日消息,Tech星球发现,腾讯现为QQ推出了一个AI对话功能,名为“AI聊天搭子”,由QQ联合筑梦岛、混元助手合作提供服务,目前已经开启测试,但IT之家暂未获取到测试资格。除此之外,抖音也上线了一款名为“...
OpenAI最强模型GPT-5即将面世:性能跃升,对抗 Gemini 2.5 Pro 和 Claude 4 的杀手锏6月4日消息,在墨西哥举办的AISummit峰会上,两名OpenAI公司代表透露,公司正在开发下一代基础模型GPT-5,并计划通过该模型与Gemini2.5Pro、Claude4等竞争对手展开更激烈角逐。援引博文介绍,两位OpenAI代表明确表示...
OpenAI CEO被炒鱿鱼 微软仅提前1分钟获得消息新浪科技讯北京时间11月18日早间消息,据报道,人工智能初创公司OpenAICEOSamAltman的离职让业界颇感意外,就连背后的“金主”微软公司也不例外。当地时间周五,OpenAI董事会出乎意料地宣布,Altman将辞去公司CEO一...
我国中部地区最大智算中心正式投产 主要满足大模型研发企业算力需求IT之家1月12日消息,据央视新闻总台河南总站昨日报道,我国中部地区规模最大的智算中心在河南郑州正式投产,该项目按照A级数据中心标准建设15个模块化机房,主要满足大模型研发企业的高端训练算力需求。河南空港智算...
消息称阿尔特曼计划将OpenAI重组为营利性公司,旨在为投资者提供激励5月30日消息,据TheInformation今日报道,知情人士称OpenAICEO山姆・阿尔特曼正考虑将OpenAI重组为一家正规的营利性公司,重点解决公司性质(注:非营利公司)与其营收业务的冲突。据一位与阿尔特曼交谈过的知情人士...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...