微软的“AI 看门狗”抵御新型 LLM 越狱方法媒体

关键要点

微软最近在一篇博客文章中披露了它如何发现并改善大语言模型的安全措施。他们介绍了一种新的破解方法，称为“Crescendo”。

在4月2日发布的一篇论文中，微软首先揭示了“Crescendo”破解方法，描述了攻击者如何通过发送一系列看似无害的提示，逐步引导聊天机器人如OpenAI的ChatGPT、Google的Gemini、Meta的LlaMA或Anthropic的Claude生成通常会被过滤和拒绝的输出。

举个例子，攻击者并不直接询问聊天机器人如何制作莫洛托夫鸡尾酒，而是先询问其历史，再针对之前的输出提出有关制作方法的问题。

微软的研究人员报告称，一次成功的攻击通常可以在不到10次的互动回合内完成，其中一些攻击的成功率达到了100。例如，使用研究者称之为“Crescendomation”的自动化方法，该方法利用另一个LLM生成和优化破解提示，成功说服了GPT 35、GPT4、GeminiPro和LLaMA2 70b生成与选举相关的错误信息和带有亵渎语言的咆哮。

微软的“AI Watchdog”和“AI Spotlight”对抗恶意提示和污染内容

微软已向受影响的LLM提供商报告了Crescendo破解漏洞，并在上周的博客中详细讲述了如何利用新工具，包括“AI Watchdog”和“AI Spotlight”功能，增强其LLM的防御能力。

AI Watchdog

AI Watchdog使用一个针对不良提示独立训练的LLM来“嗅探”输入和输出中的对抗性内容，以防止单回合和多回合的提示注入攻击。微软利用这一工具，以及一种考虑对话模式的多回合提示过滤器，来降低Crescendo攻击的有效性。

旋风加速器下载免费版

AI Spotlight

除了直接的提示注入攻击，微软最近的博客还讨论了涉及污染内容的间接提示注入攻击。例如，用户可能会要求一个LLM总结一封包含隐藏恶意提示的电子邮件，而他们并不知情。如果这些提示出现在LLM的输出中，可能执行诸如将敏感电子邮件转发给攻击者等恶意任务。

AI Spotlight是一种技术，微软用来将用户提示与附加内容如电子邮件和文档分开。LLM避免将这些附加内容中的潜在指令纳入其输出，而是仅将内容用于分析，然后再回应用户的提示。

根据微软的说法，AI Spotlight将内容污染攻击的成功率从超过20降低到检测阈值以下，而不会显著影响AI的整体性能。

今年早些时候，微软发布了一个名为Python风险识别工具包PyRIT的开放自动化框架，用于对抗生成AI系统的红队测试，帮助AI开发者测试其系统可能遭受的攻击，揭示新的脆弱性。

此外，在二月份，公司发现LLMs包括ChatGPT被国家支持的黑客用于生成社交工程内容、执行漏洞研究、帮助编码等。以及

融资回合为HYPR获得3000万美元媒体

2025-05-14

精品项目

微软推出新方法破解大语言模型的安全性

关键要点

微软的“AI Watchdog”和“AI Spotlight”对抗恶意提示和污染内容

AI Watchdog

AI Spotlight

导航

推荐文章

静态与动态 IP 地址：不同类型的 IP 地址解释

谷歌因日益加剧的争议而终止了中国受限搜索引擎的计划

融资回合为HYPR获得3000万美元媒体

白宫寻求增加网络安全支出媒体

深网链接：2024年最佳洋葱网和Tor网站

更新修复了EOL Zyxel NAS设备中的关键漏洞媒体

新的Bitsight，穆迪的服务旨在加强网络风险管理媒体

导航

联系方式

精品项目