OpenAl采用智谱标准评测GPT-4.1系列大模型

chen2025-04-15 21:30:03TechWeb.com.cn

4月15日消息,OpenAI发布的了最新GPT-4.1系列大模型,其中在评测函数调用能力时采用了ComplexFuncBench。

ComplexFuncBench是由智谱团队提出的专用于评估大模型复杂函数调用能力的测试基准。

据悉,ComplexFuncBench主要评测大模型在128K的长上下文下进行多步带约束的函数调用的能力。相比于现有函数调用测试基准,ComplexFuncBench要求大模型对真实场景下的用户需求进行细粒度理解,并在此基础上进行多步带推理的函数调用,这对模型的函数调用能力提出了更高的挑战。(果青)

OpenAI首席战略官Jason Kwon:不会一夜之间突然发布一个“包罗万象”的AI

8月15日消息,韩媒“ChosunIlbo”当地时间周二公布了8月7日对OpenAI首席战略官JasonKwon的采访内容。JasonKwon负责监督OpenAI未来的战略制定,处理围绕AI的伦理和法律问题,同时也参与技术开发。汇总对话主要内容如...

奇安信《2024人工智能安全报告》:AI深度伪造欺诈激增30倍

2月29日消息,奇安信集团发布《2024人工智能安全报告》(以下简称《报告》)。《报告》认为,人工智能技术的恶意使用将快速增长,在政治安全、网络安全、物理安全和军事安全等方面构成严重威胁。《报告》认为,“AI...

英伟达新一代Blackwell GPU被曝存在过热问题,导致交付延迟

11月18日消息,当地时间周日,据《TheInformation》报道,英伟达新一代Blackwell处理器在高容量服务器机架中存在严重的过热问题。这些问题导致设计调整与项目延期,使谷歌、Meta和微软等主要客户对能否按计划部署Bla...

TechWeb微晚报:理想有望做一款AI超跑,广电部门约见“红果短剧”负责人

今日要闻一览:发20薪连休12天互联网大厂春节福利大比拼李想:理想2030年有可能做一款人工智能超跑被广电部门约见后红果短剧发声:5天内停止上新阿里影业入股天浩盛世后者为戚薇经纪公司消息称小米正搭建GPU万卡集群...

Anthropic将为Claude AI引入双向语音模式,允许用户说话询问

IT之家2月1日消息,AnthropicCEO达里奥・阿莫代伊上周在瑞士达沃斯世界经济论坛期间接受《华尔街日报》专访时透露,Anthropic旗下的ClaudeAI聊天机器人在过去几个月内反响热烈,未来公司将推出更智能的AI模型,并计...

上一篇:猿辅导发布小猿新一代AI学习机 搭载Deepseek-R1大模型,售价5999元起
下一篇:OpenAI的GPT - 4.1无安全报告,AI安全透明度再遭质疑