谷歌联合研究:合成数据让大模型数学推理能力飙升八倍
近期,由谷歌、卡内基梅隆大学和MultiOn组成的联合研究团队,发布了一项关于合成数据在大型模型训练中应用的重要研究成果。
专注于人工智能发展的研究机构Epoch AI报告指出,当前全球约有300万亿个公开可用的高质量文本训练标记。但随着像ChatGPT这类大模型的快速发展,对训练数据的需求呈指数级增长,预计在2026年之前,这些现有数据将被耗尽。在此背景下,合成数据成为了关键的替代方案。
研究人员着重探索了两种合成数据类型,即正向数据和负向数据。正向数据是由高性能大模型,如GPT - 4和Gemini 1.5 Pro生成的正确问题解决方案,为模型提供解决数学问题的范例。然而,单纯依靠正向数据进行训练存在明显局限。其一,这种方式可能无法让模型真正理解问题解决背后的逻辑,只是通过模式匹配来学习;其二,随着训练数据量的增加,模型可能会学到虚假的相关性,导致在处理新问题时泛化能力降低。
有鉴于此,研究人员引入了负向数据,也就是经过验证为错误的问题解决步骤。这能帮助模型识别并避免错误,从而增强其逻辑推理能力。尽管使用负向数据存在挑战,因为错误步骤可能包含误导性信息,但研究人员借助直接偏好优化(DPO)方法,成功让模型从错误中学习,并强调每个问题解决步骤的重要性。
DPO方法会为每个问题解决步骤分配一个优势值,以反映其相对于理想解决方案的价值。研究发现,高优势步骤是正确解决问题的关键,而低优势步骤可能意味着模型推理存在问题。基于这些优势值,模型能够在强化学习框架内动态调整策略,更高效地从合成数据中学习和改进。
为验证合成数据的有效性,研究团队选用DeepSeek - Math - 7B和LLaMa2 - 7B等模型,在GSM8K和MATH数据集上开展了全面测试。结果令人惊喜,经过正向和负向合成数据预训练的大模型,在数学推理任务上的性能提升了八倍。这一研究充分彰显了合成数据在增强大模型逻辑推理能力方面的巨大潜力,为大模型的发展开辟了新的方向。(Suky)
GPT-4o“炸场” 但仍满足不了OpenAI的野心5月14日消息,是的,OpenAI又“改变世界”了。北京时间今日凌晨,OpenAI发布全新AI模型GPT-4o。GPT-4o支持语音聊天,可进行实时视频交互,丝滑程度如同真人交互。被誉为“一夜改变人机交互历史”。遗憾的是,在5月14...
百度李彦宏:不一定非要学AI专业 任何行业都能与AI结合8月19日消息,在第28届百度hackathon黑客马拉松比赛上,百度创始人李彦宏在接受采访时表示,在AI时代年轻人也不一定非选AI专业。李彦宏表示:“其实很多专业都跟AI是有关系的,AI之所以有这么大的潜力,它就是对任何...
蜂巢科技与星创视界达成战略合作 将于年底推出首款联名AI音频眼镜9月22日,北京蜂巢世纪科技有限公司(以下简称“蜂巢科技”)与视光学领域的领军企业之一星创视界集团有限公司(以下简称“星创视界”)宣布达成战略合作,囊括了渠道深度融合、联名产品共研与服务体验升级等各方面...
净资产超 1060 亿美元 黄仁勋成全球第 13 大富豪6月9日消息,据国外媒体报道,彭博亿万富翁指数显示,英伟达创始人、CEO黄仁勋身价在本周五达到了新的里程碑,超过个人电脑先驱迈克尔·戴尔,成为全球第13大富豪,净资产达1061亿美元。随着人工智能芯片需求推动英...
苹果高管称正寻找将Apple Intelligence引入中国市场的方法6月12日消息,苹果软件工程主管CraigFederighi(克雷格·费德里吉)在接受媒体采访时表示,正在寻找将AppleIntelligence(苹果智能)引入中国市场的方法。在日前举行的苹果WWDC24,苹果宣布推出AI方案:面向iPhone、...
大模型挑选指南来了!涵盖六种情况下的选择方案,为你匹配最佳模型|来自沃顿商学院教授
西风发自凹非寺量子位|公众号QbitAI最近Claude2亮相、谷歌Bard支持中文、OpenAI推出CodeInterpreter(代码...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
外媒:苹果正在全球范围内寻找生成式人工智能人才
8月7日消息,据外媒报道,苹果公司正在全球范围内寻找生成式人工智能(AI)人才。随着OpenAI旗下AI聊天机器...
中国电信:在通用大模型方面今年还会有新的成果
在昨日晚间的2023半年度业绩会上,中国电信公告称,2023年上半年营收2586.8亿元,同比增长7.7%;净利润201.5...