苹果研究人员质疑AI的推理能力:简单数学问题稍作改动就会答错

yongfengmiaoshe2024-10-12 10:12:40IT之家

10 月 12 日消息,近年来,人工智能(AI)在各个领域取得了显著的进展,其中大型语言模型(LLM)能够生成人类水平的文本,甚至在某些任务上超越人类的表现。然而,研究人员对 LLM 的推理能力提出了质疑,他们发现这些模型在解决简单的数学问题时,只要稍加改动,就会犯错误,这表明它们可能并不具备真正的逻辑推理能力。

周四,苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文,揭示 LLM 在解决数学问题时容易受到干扰。注意到,研究人员通过对数学问题的微小改动,例如添加无关的信息,来测试 LLM 的推理能力。结果发现,这些模型在面对这样的变化时,其表现急剧下降。

例如,当研究人员给出一个简单的数学问题:“奥利弗星期五摘了 44 个奇异果,星期六摘了 58 个奇异果。星期日,他摘的奇异果是星期五的两倍。奥利弗一共摘了多少个奇异果?”时,LLM 能够正确地计算出答案。然而,当研究人员添加一个无关的细节,“星期日,他摘的奇异果是星期五的两倍,其中 5 个比平均小”时,LLM 的回答却出现了错误。例如,GPT-o1-mini 的回答是:“... 星期日,其中 5 个奇异果比平均小。我们需要从星期日的总数中减去它们:88(星期日的奇异果) - 5(较小的奇异果) = 83 个奇异果。”

上面只是一个简单的例子,研究人员修改了数百个问题,几乎所有问题都导致模型的回答成功率大幅下降。

研究人员认为,这种现象表明 LLM 并没有真正理解数学问题,而是仅仅根据训练数据中的模式进行预测。但一旦需要真正的“推理”,例如是否计算小的奇异果,它们就会产生奇怪的、不合常理的结果。

这一发现对 AI 的发展具有重要的启示。虽然 LLM 在许多领域表现出色,但其推理能力仍然存在局限性。未来,研究人员需要进一步探索如何提高 LLM 的推理能力,使其能够更好地理解和解决复杂的问题。(远洋)

用友加速智能化布局 让每家企业都拥有“AI应用引擎”

由ChatGPT掀起的人工智能热潮,带动了大模型技术的快速发展。一方面,能聊天、能作诗、能绘画的ToC大模型已渗透至社会生活的方方面面。另一方面,能报销、能审批、能做经营分析的ToB大模型也已渐入佳境,逐步在各类...

OpenAI发布全新旗舰生成式AI模型GPT-4o:语音对话更流畅,免费提供

5月14日消息,OpenAI宣布推出其最新旗舰生成式AI模型GPT-4o,该模型将在未来几周内分阶段集成至OpenAI的各个产品之中。最让人惊喜的是,GPT-4o将免费提供给所有用户使用。OpenAI首席技术官穆里・穆拉蒂(MuriMurati)...

分析师:由于AI功能缺乏iPhone 16系列销量或受影响

【Techweb】作为全球手机市场的老大,苹果每年的新一代iPhone都会早早获得外界的广泛关注。就在这段时间,不断有媒体和数码博主曝光了全新的iPhone16系列在外观设计以及部分硬件配置上的诸多细节,尤其是关于外观、...

苹果:别争了,AI 时代的新「iPhone」,还是 iPhone!

所有人都想知道,在看似即将到来的AI时代,谁会成为新的「iPhone」?有很大可能,AI时代的「iPhone」,依旧是「iPhone」。近日的一篇论文显示,苹果公司的研究人员已经解决了在内存有限的设备上部署大模型的关键难题...

OpenAI回应员工担忧:支持监管,必要保障措施到位前不发AI新技术

6月5日消息,OpenAI和谷歌DeepMind员工联名发声,担忧高级AI风险巨大,亟需加强监管,对此OpenAI今天发布声明,强调该致力于提供功能强大且安全的人工智能系统。翻译OpenAI公司官方声明内容如下:我们为自己能提供能...

上一篇:亚马逊新型仓库即将启用:机器人数量是之前的10倍,与人类并肩工作
下一篇:准确率比肩专业医生,小济医生AI超声乳腺癌筛查机器人如何做到的?