研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2026-01-03 13:02:29   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容三亚市某某建筑科技经销部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功三亚市某某建筑科技经销部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 外交部回应日本可能数人遭到辐射

      来源:财联社  财联社12月24日电,据日媒报道,23日,位于日本福井县敦贺市、正在进行退役作业的“普贤”核反应堆发生含放射性物质的水泄漏事件。日本原子能规制委员会称,此次泄漏的水中放射性物质的浓
    2026-01-03
  • 扎波罗热核电站:乌军向反应堆附近道路投掷弹药

      据央视新闻消息,扎波罗热核电站官方社交账号17日发布消息称,当天上午7时,一架乌克兰无人机向一条沿核反应堆方向的道路上投掷了一枚弹药。弹药爆炸没有造成人员受伤,但核电站工作人员经常使用这条道路,乌
    2026-01-03
  • 扎波罗热核电站:乌军向反应堆附近道路投掷弹药

      据央视新闻消息,扎波罗热核电站官方社交账号17日发布消息称,当天上午7时,一架乌克兰无人机向一条沿核反应堆方向的道路上投掷了一枚弹药。弹药爆炸没有造成人员受伤,但核电站工作人员经常使用这条道路,乌
    2026-01-03
  • 这波我站南都

    不要误会,站的不是诋毁全红婵的那个XX记者。我说的是最近发布在“南都探校”公众号的几篇名为“中考志愿填报观察”的系列报道。我转发在下面,感兴趣的家长可以点击标题自行阅读。其实吧,里面讲的内容,我基本都
    2026-01-03
  • 泰柬开始举行停火谈判

      新华社泰国尖竹汶12月27日电记者林淑婷 常天童)泰国和柬埔寨两国代表团当地时间27日9时40分左右开始在泰国尖竹汶府边境口岸举行停火谈判。如双方达成一致,则将在当天中午签署相关协议。点击进入专题
    2026-01-03
  • 中小学孕育拔尖创新人才,抓住6个关键点

    本文共5600字,阅读约需12分钟请关注并星标“当代教育家传媒”永不失联系卓越的学校教育不是“知识追逐儿童”,而是“儿童追求知识”。唤起儿童的好奇心,教会学习者如何发挥他们内心潜藏着的“学习动机”,是
    2026-01-03

最新评论

hgtkbf.com