研究:用诗歌就能让AI说违禁内容,成功率达62%
[探索] 时间:2025-12-25 01:36:58 来源:南京市某某广告制造厂 作者:焦点 点击:178次
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容本溪市某某建筑工程运营部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功本溪市某某建筑工程运营部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热门资讯)
相关内容
精彩推荐
- 普京:俄罗斯目前没有看到乌克兰讨论领土问题的意愿
- 中新真探:喝水多多益善,尤其是夏天?
- 宣传海报,不是“语”外之地 系列文章之一
- 第十九届中国科技期刊发展论坛在北京举办
- 孩子进入青春期后很痛苦?那就对了!青少年就是会痛苦
- 油罐车混装风波关联企业一览,涉事企业多款商品下架
热门点击
- 北京养老助餐点覆盖全市四分之三的城乡社区 views+
- 北京交管部门发布9月4日出行提示:预计早高峰提前至6点45分 持续时间延长 views+
- 俄副外长:美雇佣军参与对俄领土的袭击“不可接受” views+
- 最低1.5万元/晚,最高15万元/晚,北京新开的 四合院高奢酒店长什么样? views+
- 哈马斯重申应在保证全面停火前提下达成人员交换协议 views+
- 延迟退房2小时酒店收半天房费,法院判了 views+
- 新闻8点见丨北京公交车道又有变化;打人女司机有哪些责要追? views+
- 对话遭逆行女司机殴打者:我忍了又忍,仍头晕恶心 views+
- 北京王府井惊现乐高霍格沃茨返校日活动 views+
- 欧亚经济联盟对涉华镀锌钢板启动反倾销日落复审调查 views+
