OpenAI最新研究:当前AI模型仍无法媲美人类程序员
2 月 24 日消息,尽管 OpenAI 首席执行官萨姆・奥尔特曼(Sam Altman)坚称,到今年年底,人工智能模型将能够超越“低级别”软件工程师,但该公司研究人员的最新研究却表明,即使是目前最先进的 AI 模型,仍无法与人类程序员相媲美。
研究人员在一篇新论文中指出,即使是前沿模型 —— 即那些最具创新性和突破性的 AI 系统 ——“仍然无法解决大多数”编程任务。为此,研究人员开发了一个名为 SWE-Lancer 的新基准测试工具,该工具基于自由职业者网站 Upwork 上的 1400 多个软件工程任务。通过这一基准测试,OpenAI 对三款大型语言模型(LLMs)进行了测试,分别是其自身的 o1 推理模型、旗舰产品 GPT-4o,以及 Anthropic 公司的 Claude 3.5 Sonnet。
具体而言,这一新基准测试评估了这些 LLMs 在处理 Upwork 上的两类任务时的表现:一类是个体任务,涉及修复漏洞并实施修复措施;另一类是管理任务,要求模型从更宏观的角度做出更高层次的决策。值得注意的是,在测试过程中,这些模型被禁止访问互联网,因此它们无法直接抄袭网上已有的类似答案。
这些模型所承担的任务在 Upwork 上的价值累计可达数十万美元,但它们仅能解决一些表面的软件问题,却无法在大型项目中真正找到漏洞及其根源。这种“半成品”的解决方案,对于与 AI 有过合作经验的人来说并不陌生 ——AI 擅长输出听起来自信满满的信息,但在仔细审查时往往漏洞百出。
尽管论文指出,这三款 LLMs 通常能够“远快于人类”地完成任务,但它们却无法理解漏洞的广泛性及其背景,从而导致解决方案“错误或不够全面”。
研究人员解释称,Claude 3.5 Sonnet 的表现优于另外两款 OpenAI 模型,并且在测试中“赚取”的金额也超过了 o1 和 GPT-4o。然而,其大多数答案仍然是错误的。研究人员指出,任何模型若想被真正用于实际编程任务,都需要具备“更高的可靠性”。
简而言之,该论文似乎表明,尽管这些前沿模型能够快速地处理一些细节任务,但它们在处理这些任务时的技能水平,仍远远不及人类工程师。
尽管近年来这些大型语言模型取得了快速的发展,并且未来还会继续进步,但它们目前在软件工程领域的技能水平仍不足以取代人类。然而IT之家注意到,这似乎并未阻止一些首席执行官解雇人类程序员,转而使用这些尚未成熟的 AI 模型。(远洋)
该如何打破AI芯片垄断霸权继英伟达A100、H100芯片被禁止销往中国后,美国政府又发布一轮对华芯片“禁运”令。10月25日,美国证券交易委员会(SEC)官网披露,英伟达此前递交的一份监管文件中所涉及的限制出口的GPU芯片禁令,立即生效。值得深...
DeepSeek,对抗“AI北约”DeepSeek对资本市场的冲击显然没有随着春节而结束。春节之后,A股中的“DeepSeek概念股”涨幅超过46%,同时带动了云计算、操作系统、华为鸿蒙等多个概念板块股价的上涨。港股市场的卖空压力也得到缓解,一段时间以来...
性能超GPT-4o,Claude 3.5 Sonnet已在Amazon Bedrock上正式可用,官方给出教程6月21日消息,Anthropic发布最强大模型Claude3.5Sonnet,拥有相比前代模型2倍的推理速度和1/5的调用成本,而且在多项评测中超过了OpenAI最强的GPT-4o、谷歌的Gemini1.5Pro,以及Anthropic自己之前最强的模型Claude3O...
消息称智谱完成新一轮数十亿元融资:国资入局,投前估值达200亿元9月5日消息,据36氪报道,近日中国大模型独角兽智谱以200亿元的投前估值,完成了新一轮融资,金额达数十亿元。本轮领投方为中关村科学城公司,其为海淀区政府设立的市场化投资平台。对上述消息,对方表示不予置评。...
OPPO发布《6G白皮书》与《6G安全白皮书》,展望AI+6G技术飞跃6G技术的发展将为通信行业带来前所未有的巨大变革,展望未来,智能互联的新世界激发行业无限畅想。随着全球6G标准化制定的脚步临近,2月27日,OPPO发布2023版《6G白皮书》并首次发布《6G安全白皮书》,描绘出实际可...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...