OpenAI发布CoT思维链研究成果,监控阻止大模型恶意行为

santianshaiwang2025-03-11 10:35:30IT之家

3 月 11 日消息,OpenAI 今日公布了其最新研究,试图用 CoT(思维链)监控的方式监控推理模型的“想法”,从而阻止 AI 大模型胡说八道、隐藏真实意图等行为,同时这也是监督超级模型的有效工具之一。

注:AI 偶尔会胡说八道,我们一般称其为 AI 幻觉。除此之外,AI 还会偷懒或故意耍坏,例如在问题太难时欺骗用户或干脆放弃。

OpenAI 使用了最新发布的前沿模型 o3-mini 作为被监控对象,并以较弱的 GPT-4o 模型作为监控器。测试环境为编码任务,要求 AI 在代码库中实现功能以通过单元测试。

结果显示,CoT 监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达 95%,远超仅监控行为的 60%。(问舟)

苹果WWDC 2024将于6月10日举行,或将推出生成式AI技术

3月27日消息,今日凌晨,苹果官方宣布,将于美国太平洋时间6月10日-6月14日举行WWDC2024全球开发者大会,并将在6月10日当天在ApplePark举办特别活动。据了解,今年WWDC大会苹果将会发布最新一代iOS18、iPadOS18、mac...

AI电商正式接棒新零售,阿里淘天集团换帅

12月20日,阿里巴巴集团宣布一项重大任命:阿里巴巴集团CEO、淘天集团董事长吴泳铭兼任淘天集团CEO。与这项任命随之而来的,是“以技术创新引领淘天的变革”这句话,开始有了更多的组织和人力的落地基础。在今天人事...

华为剧透Mate 70三支短片,AI功能又有“大跃进”?

大模型出现以后,AI手机成为了“全村的希望”。2024年以来,几乎所有的手机厂商都在发布会上,强调自家手机在AI功能上的强大之处。根据益普索最新发布《AIPhone白皮书》显示,预计2030年人类将进入YottaByte数据时代...

用友网络董事长兼CEO王文京:AI+成就数智企业

8月10日消息,在2024年全球商业大会企业数智化价值峰会上,用友网络董事长兼CEO王文京发表《AI+成就数智企业》主题演讲,他表示企业信息化进入到数字化和智能化相结合的数智化新阶段,AI对企业数智化转型起到关键作...

Gartner:受GenAI推动,2024年全球数据中心系统支出预计大幅增长24%

8月5日消息,根据Gartner的最新预测,2024年全球IT支出预计将达到5.26万亿美元,较2023年增长7.5%。虽然这一增长率低于上季度预测的8%,但总支出较原先预测的5.06万亿美元有所增加。2024年中国IT支出预计将达到5890...

TAG:OpenAI AI
上一篇:罗永浩没有错过任何一个风口,包括AI
下一篇:科大讯飞:仅用1万张910B国产算力卡跻身大模型研发第一梯队