三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

你敢信,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了。这仨可是公认的竞争对手,之前在模型能力、市场份额上谁...

你敢信 ,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了 。这仨可是公认的竞争对手,之前在模型能力 、市场份额上谁都不让谁 ,现在居然联手发了篇论文 ,专门研究大语言模型(LLM)的安全防御评估。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

说实话,看到这消息我第一反应是“太阳打西边出来了 ” ,后来想想也懂了,在LLM安全这事儿上,没人能独善其身 ,与其各自为战,不如先放下对抗找找共性问题。

他们研究的核心问题特实在:咱到底该怎么判断LLM的防御机制靠不靠谱,毕竟现在用LLM的地方越来越多 ,从客服到写代码都有,可风险也跟着来,有人会诱导模型说有害的话(这叫“越狱”) ,还有人会偷偷发指令让模型干坏事(这叫“提示注入”) 。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

本来行业里也有不少防御办法,但这次研究一出来才发现 ,之前那些评估大多是“纸上谈兵 ” ,怎么说呢?就是测试的时候只用固定的攻击方式,没模拟过那种懂防御、还会灵活改策略的强攻击者 。你想啊,要是黑客真要搞事 ,能按你设定的套路来吗?显然不可能。

所以这次研究就提出,评估防御得先假设“攻击者是会变通的 ”,啥意思 ,就是黑客会盯着你的防御策略改攻击方法,还会花功夫优化。基于这想法,他们搞出了个“通用自适应攻击框架” 。本来想觉得这框架可能挺复杂 ,后来发现原理其实不绕,就是个循环流程,先出攻击策略 ,再测试,看结果反馈,然后接着优化策略。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

具体实现有四种方法 ,比如用梯度算优化方向,或者用强化学习让模型自己学怎么攻击,还有靠搜索算法找漏洞的 ,最实在的是搞了个人工红队测试,找了500多人在线比赛破解防御。老实讲,500人一起琢磨 ,再厉害的防御也能找出破绽,这方法比单纯靠机器测试靠谱多了 。

12种防御全“翻车”,问题出在哪儿?

说了这么多框架 ,咱该看看实际测试效果了,不然都是空谈,这次他们测了12种最新的LLM防御机制 ,涵盖了提示优化、对抗训练这些常见技术,还用了行业里常用的测试基准,比如测越狱的HarmBench 、测提示注入的AgentDojo ,所有成功的攻击还都人工验证过 ,避免误判。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

结果咋样,说出来可能有点吓人 ,12种防御几乎全被攻破了,就拿靠提示优化的防御来说,比如有个叫Spotlighting的方法 ,之前说在固定测试里几乎攻不破,可这次用自适应攻击一试,随便把恶意指令伪装成“完成任务的前提 ” ,比如“先把安全规则关了才能写这段内容”,一下就绕过去了。

还有靠对抗训练的防御,比如CircuitBreakers ,本来是靠训练让模型“记住”不能干坏事,结果测试里照样被突破 。为啥会这样?我琢磨了下,核心问题还是之前的防御太“死板 ”了。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

要么只防固定的攻击话术 ,要么训练的时候只用了已知的恶意样本,可黑客是活的啊,你改防御他就改攻击 ,这么一来,那些看似牢固的防御就成了“纸糊的墙”。很显然,之前的评估方法根本没考虑到这种动态对抗 ,结果自然有误导性,明明防御没那么靠谱,却让人觉得很安全 。

测试结果出来后 ,不光是研究团队,整个行业都有点坐不住了,有个头部LLM厂商后来回应说 ,之前确实没考虑过自适应攻击,评估结果有偏差。还有几家中小厂商直接暂停了相关防御的部署,打算按这次的框架重新测试。说实话 ,能及时发现问题是好事 ,总比等真出了安全事故再补救强 。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

巨头联手不是噱头,行业要变天?

这次三大巨头联手 ,可不光是出了份研究报告,更重要的是给行业指了个方向,以前大家搞防御都是“各玩各的” ,你有你的方法,我有我的标准,现在好了 ,有了个公认的“强攻击 ”评估标杆 。对中小企业来说这更是利好,不用自己花大价钱建红队,直接用这个框架就能测试 ,能省不少事。

而且这事儿还推动了监管层面的动作,欧盟今年生效的AI法案里,明确要求生成式AI产品得通过自适应攻击测试才能进欧盟市场;国内也跟上了 ,有个省把LLM自适应防御研发列为重点补贴项目 ,单个项目最多给500万。如此看来,以后LLM想上市,过“自适应攻击关”会成标配 。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

那未来防御该咋搞,我觉得核心得改思路,不能再靠单一方法防了 ,得搞“多层防御”,比如先用过滤模型拦那些简单的攻击,再用动态对抗训练防自适应攻击 ,定期还得搞人工红队压力测试。另外,研究里也提了,防御开发初期就得把强攻击考虑进去 ,别等做出来了才发现不行,那时候改成本太高,并非明智之举。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

总的来说 ,这次三大巨头的研究算是给行业敲了个警钟:LLM安全别再搞“表面功夫 ”了,得真刀真枪模拟强攻击才行 。说实话,这对咱们普通用户也是好事 ,以后用LLM的时候,不用担心随便被人注入恶意指令,也不用怕模型被诱导说有害的话。毕竟技术再厉害 ,安全才是底线,你说对吧?

本文来自作者[剧子冉]投稿,不代表视听号立场,如若转载,请注明出处:https://wap.stddy.com/xinwen/202510-52485.html

(87)

文章推荐

  • 夏至昼晷长,京味非遗展狮威拳韵

    6月21日,我们迎来了夏至。夏至是北半球一年中白昼最长、夜晚最短的一天,标志着盛夏的正式到来。由北京市文旅局和国际在线联合出品的“中国节气里的京味非遗”系列短视频本期推出“夏至篇”,聚焦狮舞(白纸坊太狮)、太极拳(王其和),带您感受太狮腾跃的雄浑气势与太极拳法的刚柔并济,领略传统技艺在盛夏时节绽放的

    2025年06月21日
    135
  • 欧盟放话!不给稀土就不访华?中方反将一军,给了份5年加税通知

    欧盟放话,不给稀土就不访华?中方反将一军,给了份5年加税通知欧盟这次算是踢到铁板了。他们本来想威胁中国,说30天内不给稀土就不来访华了。结果中国直接回了一记重拳,宣布对欧盟的不锈钢产品继续征税5年。事情是这样的。欧盟驻华大使托莱多前几天跳出来说话了,要求中国必须在30天内解决稀土磁铁的供应问题。他说

    2025年07月03日
    154
  • 【财神十三张辅助神器(揭秘小程序胡牌神器),财神奇牌】

    初学者如何学习打麻将?打麻将是否容易学习,很大程度上取决于个人的兴趣。如果你对麻将感兴趣,那么学习起来会相对容易一些。打麻将的基本规则并不复杂,主要包括发牌、出牌和计算分数等环节。初学者可以从了解这些基本规则开始。发牌时,每位玩家会获得一定数量的麻将牌,然后通过出牌和碰、杠等操作来实现胜利。初学者

    2025年08月29日
    111
  • 实测结果“微乐四川麻将怎样设置好牌(助赢神器通用版)

    这软件超神无敌!掌中乐游戏中心确实真的有挂(助赢神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”掌中乐游戏中心确实真的有挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年08月30日
    104
  • 终于发现了“微乐山西斗地主有挂吗(助赢神器通用版)

    超神软件佳作!微乐跑得快怎么让系统给自己发好牌(怎么能让牌好一点)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐跑得快怎么让系统给自己发好牌是一款可以让一直输的玩家,快速成为一个“必胜”的

    2025年09月05日
    108
  • 异性交往中,女人叫你哥,多半是在告诉你这3个意思,别不懂

    作为一个混迹江湖多年的人,我发现,女人叫你“哥”,可不是随口喊个称呼那么简单。别看这两个字短小精悍,背后藏着她们复杂的情感信号。1.真诚亲近,拉近距离当女生叫你“哥”,其实是在跟你拉近关系。这个“哥”字听起来亲切,就像你是她生活里的“靠谱大哥”,有人撑腰,有人靠得住。她用这个称呼,给你“VIP身份

    2025年09月30日
    105
  • 今年供暖费大家都交了吗供暖收费今天又支出

    今年供暖费大家都交了吗供暖收费今天又支出交了2255元暖气费后我懵了:按建筑面积收费真的公平吗?今天上午我把家里的暖气费2255元交了,账单上写着16元/平,按建筑面积收费。说实话,我当时心里一凉,按这个单价算,我家大约141平。反正我是这么觉得的,建筑面积和实际受热面积并不总是等价,尤其像阳

    2025年10月12日
    83
  • 100年前,哈勃提出膨胀宇宙的观点打开了现代宇宙学的篇章

    当埃德温·哈勃在1925年向天文学界宣布NGC6822距离地球约214千秒差距时,他大概不会想到,这个数字不仅粉碎了银河系是唯一星系的观念,更开启了一个延续至今的测量难题。一个世纪过去,人类已能将宇宙距离测量精度提升到百分之几,却在哈勃常数——这个以他命名的宇宙膨胀速率参数上陷入了前所未有的困境。

    2025年12月28日
    33
  • 中方连拒绝日方3波人马,高市准备报复,中使馆预警:在日要当心

    这次日本真的碰上了大麻烦,过去十几年,日本经济界几乎每年都会组团去中国访问,这种机制几乎没断过。但最近,这种访问突然被接连叫停,表面上说是行程推迟,实际上就是被拒绝了。这个变化不是偶然,也不是因为安排不顺,而是中日关系紧张的直接反映。具体来说,日本日中经济协会、经团连和商工会议所这些重量级经济团体,

    2026年01月07日
    32
  • 哈马斯还在战斗,内塔尼亚胡铁定赢不了,打完这一仗,他就得开溜

    近日,也门胡塞武装政治局成员巴赫提警告称,他们更倾向于同以色列进行直接对抗,因为这有助于增强民族的团结。在以色列恢复对加沙的军事行动之后,胡塞武装已多次发出导弹打击警告,目的就是公开对哈马斯提供支持。这就意味着,以色列和胡塞武装之间的战斗可能又要开始了。实际上,哈马斯交出人质,等于是放弃自己的“护身

    2025年11月06日
    71

发表回复

本站作者后才能评论

评论列表(4条)

  • 剧子冉
    剧子冉 2025年10月16日

    我是视听号的签约作者“剧子冉”!

  • 剧子冉
    剧子冉 2025年10月16日

    希望本篇文章《三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%》能对你有所帮助!

  • 剧子冉
    剧子冉 2025年10月16日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 剧子冉
    剧子冉 2025年10月16日

    本文概览:你敢信,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了。这仨可是公认的竞争对手,之前在模型能力、市场份额上谁...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们