OpenAI最新研究揭示“AI阴谋论”,GPT-5已完成针对性改进
9 月 19 日消息,OpenAI 宣布与 Apollo Research 达成合作,针对 AI 模型中潜在的隐藏行为开展了评估研究,并在受控测试中发现了相关迹象。研究团队同时提出并验证了一种早期方法,用于减少这类风险。
OpenAI 将这一行为称为“scheming”(即“阴谋”),指 AI 表面上装作为与人类目标立场一致,但暗地里追求的却是其他不为人知的目的。
OpenAI 指出,这种行为可能源于 AI 在面对相互竞争的目标时出现的权衡。例如,一名股票交易员可能会通过撒谎并掩盖其违法痕迹来实现收益最大化,而在外人看来下,这种人看似守法且业绩更优。
不过在当前已部署的模型中,OpenAI 尚未发现会导致严重危害的“阴谋”行为。常见问题多为较简单的欺骗,例如假装完成任务却未真正执行。
OpenAI 称,已在 GPT-5 训练中采取措施以降低欺骗和规避问题的倾向,例如在面对不合理或描述不完整的任务时,模型会坦然承认自身局限性。不过,这些改进尚不完善,相关研究仍在继续。
研究团队为模拟未来可能出现的复杂场景,建立了测试环境,并将这种“隐匿实际目的”的行为作为“阴谋”的关键 AI 指标。在评估中,包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在内的前沿模型均表现出相关问题(该项研究在 GPT-5 发布前完成,更新结果已加入 GPT-5)。
通过合作,研究团队在 o3 与 o4-mini 中引入“审慎对齐”(deliberative alignment)方法,即要求模型在执行任务前阅读并推理一份反阴谋规范。
结果显示,OpenAI 模型隐匿行为发生率显著下降,o3 从 13% 降至 0.4%,o4-mini 从 8.7% 降至 0.3%,缩减幅度约 30 倍;但仍存在罕见且严重的失败案例,且评估可能受到模型情境感知能力增强的干扰。
OpenAI 强调,目前结果依赖于对模型推理过程(即“chain-of-thought”)的可读性与可信度。但在推理透明性受限的情况下,业界尚未做好应对准备。OpenAI 呼吁各方在更有效的方法出现前,应保持推理透明。
OpenAI 表示,这一问题对 AI 对齐构成严重挑战,应成为通向通用人工智能(AGI)研发的核心工作。未来,OpenAI 将继续与 Apollo Research 合作,扩大研究团队,开发更完善的评估工具和防范训练方法。同时,OpenAI 计划推动跨机构合作,包括试点跨实验室安全评估,发起 50 万美元(注:现汇率约合 355 万元人民币)的 Kaggle 对抗挑战赛,以及倡导业界普遍保持推理透明。(问舟)
谷歌升级Gemini 2.0系列模型,AI助手可免费深度推理IT之家3月18日消息,谷歌公司昨日(3月17日)发布博文,宣布通过升级Gemini2.0模型,推出“AIOverviews”和“AIMode”功能,让传统搜索插上AI翅膀。谷歌本次部署推出了2.0Flash、2.0Pro及Personalisation三个实验性...
DeepSeek发布NSA研究成果,创始人梁文锋亲自参与近日,人工智能公司DeepSeek在海外社交平台上发布了一份技术论文报告,聚焦于原生稀疏注意力(NSA)机制的研究。该论文引起了业界的广泛关注,不仅因为其研究内容的创新性,更因为论文的署名中包含了意外的人物。论...
百度文心智能体平台推出五大商业组件,已开始帮超10万智能体赚钱11月13日消息,百度世界2024大会「文心智能体,新智生产力」分论坛上,百度副总裁、百度搜索总经理赵世奇发表致辞,称文心智能体平台一直坚持着「易开发、有分发、有钱赚」的三大原则,努力降低智能体开发门槛,提高...
消息称著名AI学者、天工智能首席科学家颜水成离开昆仑万维11月10日消息,据AI科技评论昨日报道,AI领域国际顶尖学者颜水成已于近日离开昆仑万维。2023年9月1日,昆仑万维正式宣布,颜水成将担任昆仑万维及天工智能首席科学家。在此之前,颜水成以访问首席科学家的身份在智源...
AI催生更多API安全问题,WAAP成防护趋势4月8日消息,当前,AIGC(生成式人工智能)在各行业各领域得到了广泛应用,API作为AIGC服务商对外输出AI能力的管道,随之而来的API安全问题已日益凸显。API接口的开放性和易用性使其备受开发者青睐,开发、测试和部...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...