研究人员发布了针对ChatGPT和其他LLM的攻击算法

xinfangke2023-08-07 10:01:17站长之家

卡内基梅隆大学(CMU)的研究人员发表了 LLM Attacks,这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法,包括 ChatGPT、Claude 和 Bard。这些攻击是自动生成的,对 GPT-3.5和 GPT-4的成功率为84%,对 PaLM-2的成功率为66%。

与大多数通过试错手动构建的“越狱”攻击不同,CMU 团队设计了一个三步过程,自动生成提示后缀,可以绕过 LLM 的安全机制,并导致有害的响应。这些提示也是可转移的,意味着一个给定的后缀通常可以作用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准;在这个基准上评估时,LLM Attacks 对 Vicuna 的成功率为88%,而基线对抗算法的成功率为25%。根据 CMU 团队的说法:

也许最令人担忧的是,这种行为是否能够被 LLM 提供商完全修复。类似的对抗攻击在计算机视觉领域已经被证明是一个非常难以解决的问题,在过去的10年里。有可能深度学习模型的本质使得这种威胁不可避免。因此,我们认为在增加对这种 AI 模型的使用和依赖时,应该考虑到这些因素。

随着 ChatGPT 和 GPT-4的发布,许多越狱这些模型的技术出现了,它们由可以导致模型绕过其安全措施并输出潜在有害响应的提示组成。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际的提示,要求有害响应。

接下来,算法通过使用贪婪坐标梯度(GCG)方法,生成一个提示后缀,可以导致 LLM 输出目标序列。虽然这确实需要访问 LLM。

研究人员发布了针对ChatGPT和其他LLM的攻击算法

卡内基梅隆大学(CMU)的研究人员发表了LLMAttacks,这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法,包括ChatGPT、Claude和Bard。这些攻击是自动生成的,对GPT-3.5和GPT-4的成功率为84%,对PaLM-2的成...

标题标题标题

内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容内容

软银正在开发日本版ChatGPT 计划明年推出

软银公司正在积极投入到AI相关技术的研发中,其CEO孙正义曾豪言,“如果不能拥抱AI便是失去未来”。目前,软银正在设计“日本版ChatGPT”,并预计将在明年推出这款AI产品。为了实现这一目标,软银将成立全资子公司SB...

昆仑万维旗下Opera生成式AI服务海外用户数突破100万

昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理Aria,Aria充当了用户的AI助理的角色,能够为用户提供高效的信息查找、文本/代码生成等AI生成式服务。2023...

苹果招募生成式AI人才 提供数十个大模型岗位

根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等产品。这一举措显示出苹果对生成式人工智能的强烈兴趣,并致力于不断提升其在移动设备上的性能。通过在全球...

上一篇:软银正在开发日本版ChatGPT 计划明年推出
下一篇:昆仑万维旗下Opera生成式AI服务海外用户数突破100万