三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%

剧子冉 • 2025年10月16日 22:02 • 新闻资讯 • 阅读 87

你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁都不让谁，现在居然联手发了篇论文，专门研究大语言模型（LLM）的安全防御评估。

说实话，看到这消息我第一反应是“太阳打西边出来了 ” ，后来想想也懂了，在LLM安全这事儿上，没人能独善其身，与其各自为战，不如先放下对抗找找共性问题。

他们研究的核心问题特实在：咱到底该怎么判断LLM的防御机制靠不靠谱，毕竟现在用LLM的地方越来越多，从客服到写代码都有，可风险也跟着来，有人会诱导模型说有害的话（这叫“越狱”），还有人会偷偷发指令让模型干坏事（这叫“提示注入”）。

本来行业里也有不少防御办法，但这次研究一出来才发现，之前那些评估大多是“纸上谈兵 ”，怎么说呢？就是测试的时候只用固定的攻击方式，没模拟过那种懂防御、还会灵活改策略的强攻击者。你想啊，要是黑客真要搞事，能按你设定的套路来吗？显然不可能。

所以这次研究就提出，评估防御得先假设“攻击者是会变通的”，啥意思，就是黑客会盯着你的防御策略改攻击方法，还会花功夫优化。基于这想法，他们搞出了个“通用自适应攻击框架” 。本来想觉得这框架可能挺复杂，后来发现原理其实不绕，就是个循环流程，先出攻击策略，再测试，看结果反馈，然后接着优化策略。

具体实现有四种方法，比如用梯度算优化方向，或者用强化学习让模型自己学怎么攻击，还有靠搜索算法找漏洞的，最实在的是搞了个人工红队测试，找了500多人在线比赛破解防御。老实讲，500人一起琢磨，再厉害的防御也能找出破绽，这方法比单纯靠机器测试靠谱多了。

12种防御全“翻车”，问题出在哪儿？

说了这么多框架，咱该看看实际测试效果了，不然都是空谈，这次他们测了12种最新的LLM防御机制，涵盖了提示优化、对抗训练这些常见技术，还用了行业里常用的测试基准，比如测越狱的HarmBench 、测提示注入的AgentDojo ，所有成功的攻击还都人工验证过，避免误判。

结果咋样，说出来可能有点吓人，12种防御几乎全被攻破了，就拿靠提示优化的防御来说，比如有个叫Spotlighting的方法 ，之前说在固定测试里几乎攻不破，可这次用自适应攻击一试，随便把恶意指令伪装成“完成任务的前提 ” ，比如“先把安全规则关了才能写这段内容”，一下就绕过去了。

还有靠对抗训练的防御，比如CircuitBreakers ，本来是靠训练让模型“记住”不能干坏事，结果测试里照样被突破。为啥会这样？我琢磨了下，核心问题还是之前的防御太“死板 ”了。

要么只防固定的攻击话术，要么训练的时候只用了已知的恶意样本，可黑客是活的啊，你改防御他就改攻击，这么一来，那些看似牢固的防御就成了“纸糊的墙”。很显然，之前的评估方法根本没考虑到这种动态对抗，结果自然有误导性，明明防御没那么靠谱，却让人觉得很安全。

测试结果出来后，不光是研究团队，整个行业都有点坐不住了，有个头部LLM厂商后来回应说，之前确实没考虑过自适应攻击，评估结果有偏差。还有几家中小厂商直接暂停了相关防御的部署，打算按这次的框架重新测试。说实话，能及时发现问题是好事，总比等真出了安全事故再补救强。

巨头联手不是噱头，行业要变天？

这次三大巨头联手，可不光是出了份研究报告，更重要的是给行业指了个方向，以前大家搞防御都是“各玩各的” ，你有你的方法，我有我的标准，现在好了，有了个公认的“强攻击 ”评估标杆。对中小企业来说这更是利好，不用自己花大价钱建红队，直接用这个框架就能测试，能省不少事。

而且这事儿还推动了监管层面的动作，欧盟今年生效的AI法案里，明确要求生成式AI产品得通过自适应攻击测试才能进欧盟市场；国内也跟上了，有个省把LLM自适应防御研发列为重点补贴项目，单个项目最多给500万。如此看来，以后LLM想上市，过“自适应攻击关”会成标配。

那未来防御该咋搞，我觉得核心得改思路，不能再靠单一方法防了，得搞“多层防御”，比如先用过滤模型拦那些简单的攻击，再用动态对抗训练防自适应攻击，定期还得搞人工红队压力测试。另外，研究里也提了，防御开发初期就得把强攻击考虑进去，别等做出来了才发现不行，那时候改成本太高，并非明智之举。

总的来说，这次三大巨头的研究算是给行业敲了个警钟：LLM安全别再搞“表面功夫 ”了，得真刀真枪模拟强攻击才行 。说实话，这对咱们普通用户也是好事，以后用LLM的时候，不用担心随便被人注入恶意指令，也不用怕模型被诱导说有害的话。毕竟技术再厉害，安全才是底线，你说对吧？

本文来自作者[剧子冉]投稿，不代表视听号立场，如若转载，请注明出处：https://wap.stddy.com/xinwen/202510-52485.html

87 4

本文作者

剧子冉签约作者

491 文章

6437154 评论

1 粉丝

我是视听号的签约作者[剧子冉],本篇文章《三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%》主要讲述了:你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

常识科普

夏至昼晷长，京味非遗展狮威拳韵

6月21日，我们迎来了夏至。夏至是北半球一年中白昼最长、夜晚最短的一天，标志着盛夏的正式到来。由北京市文旅局和国际在线联合出品的“中国节气里的京味非遗”系列短视频本期推出“夏至篇”，聚焦狮舞（白纸坊太狮）、太极拳（王其和），带您感受太狮腾跃的雄浑气势与太极拳法的刚柔并济，领略传统技艺在盛夏时节绽放的

山菱
2025年06月21日
135
生活经验

欧盟放话！不给稀土就不访华？中方反将一军，给了份5年加税通知

欧盟放话，不给稀土就不访华？中方反将一军，给了份5年加税通知欧盟这次算是踢到铁板了。他们本来想威胁中国，说30天内不给稀土就不来访华了。结果中国直接回了一记重拳，宣布对欧盟的不锈钢产品继续征税5年。事情是这样的。欧盟驻华大使托莱多前几天跳出来说话了，要求中国必须在30天内解决稀土磁铁的供应问题。他说

孤蝶
2025年07月03日
154
知识分享

【财神十三张辅助神器(揭秘小程序胡牌神器),财神奇牌】

初学者如何学习打麻将?打麻将是否容易学习，很大程度上取决于个人的兴趣。如果你对麻将感兴趣，那么学习起来会相对容易一些。打麻将的基本规则并不复杂，主要包括发牌、出牌和计算分数等环节。初学者可以从了解这些基本规则开始。发牌时，每位玩家会获得一定数量的麻将牌，然后通过出牌和碰、杠等操作来实现胜利。初学者

欧沐阳
2025年08月29日
111
常识科普

实测结果“微乐四川麻将怎样设置好牌（助赢神器通用版）

这软件超神无敌!掌中乐游戏中心确实真的有挂(助赢神器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”掌中乐游戏中心确实真的有挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需

蓟艺霖
2025年08月30日
104
百科栏目

终于发现了“微乐山西斗地主有挂吗（助赢神器通用版）

超神软件佳作!微乐跑得快怎么让系统给自己发好牌(怎么能让牌好一点)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐跑得快怎么让系统给自己发好牌是一款可以让一直输的玩家，快速成为一个“必胜”的

麴晨羲
2025年09月05日
108
新闻资讯

异性交往中，女人叫你哥，多半是在告诉你这3个意思，别不懂

作为一个混迹江湖多年的人，我发现，女人叫你“哥”，可不是随口喊个称呼那么简单。别看这两个字短小精悍，背后藏着她们复杂的情感信号。1.真诚亲近，拉近距离当女生叫你“哥”，其实是在跟你拉近关系。这个“哥”字听起来亲切，就像你是她生活里的“靠谱大哥”，有人撑腰，有人靠得住。她用这个称呼，给你“VIP身份

衷子晴
2025年09月30日
105
生活经验

今年供暖费大家都交了吗供暖收费今天又支出

今年供暖费大家都交了吗供暖收费今天又支出交了2255元暖气费后我懵了：按建筑面积收费真的公平吗？今天上午我把家里的暖气费2255元交了，账单上写着16元/平，按建筑面积收费。说实话，我当时心里一凉，按这个单价算，我家大约141平。反正我是这么觉得的，建筑面积和实际受热面积并不总是等价，尤其像阳

安白
2025年10月12日
83
游戏攻略

100年前，哈勃提出膨胀宇宙的观点打开了现代宇宙学的篇章

当埃德温·哈勃在1925年向天文学界宣布NGC6822距离地球约214千秒差距时,他大概不会想到,这个数字不仅粉碎了银河系是唯一星系的观念,更开启了一个延续至今的测量难题。一个世纪过去,人类已能将宇宙距离测量精度提升到百分之几,却在哈勃常数——这个以他命名的宇宙膨胀速率参数上陷入了前所未有的困境。

福建云
2025年12月28日
33
综合

中方连拒绝日方3波人马，高市准备报复，中使馆预警：在日要当心

这次日本真的碰上了大麻烦，过去十几年，日本经济界几乎每年都会组团去中国访问，这种机制几乎没断过。但最近，这种访问突然被接连叫停，表面上说是行程推迟，实际上就是被拒绝了。这个变化不是偶然，也不是因为安排不顺，而是中日关系紧张的直接反映。具体来说，日本日中经济协会、经团连和商工会议所这些重量级经济团体，

衅建伟
2026年01月07日
32
科技世界

哈马斯还在战斗，内塔尼亚胡铁定赢不了，打完这一仗，他就得开溜

近日，也门胡塞武装政治局成员巴赫提警告称，他们更倾向于同以色列进行直接对抗，因为这有助于增强民族的团结。在以色列恢复对加沙的军事行动之后，胡塞武装已多次发出导弹打击警告，目的就是公开对哈马斯提供支持。这就意味着，以色列和胡塞武装之间的战斗可能又要开始了。实际上，哈马斯交出人质，等于是放弃自己的“护身

包自乐
2025年11月06日
71

发表回复

本站作者后才能评论

评论列表（4条）

剧子冉 2025年10月16日

我是视听号的签约作者“剧子冉”！

回复
剧子冉 2025年10月16日

希望本篇文章《三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%》能对你有所帮助！

回复
剧子冉 2025年10月16日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
剧子冉 2025年10月16日

本文概览：你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

回复

三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%

12种防御全“翻车”，问题出在哪儿？

巨头联手不是噱头，行业要变天？

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们

12种防御全“翻车”，问题出在哪儿？

巨头联手不是噱头，行业要变天？