微软首席技术官MarkRussinovich揭示了“万能钥匙”技术,该技术允许入侵大模型如GPT-4o与Claude3,使其生成非法内容。万能钥匙通过多轮强制与诱导策略绕过模型的安全机制,让其回答血腥、暴力、歧视、色情等非法问题,如提供盗窃方法。与Crescendo攻击方法不同,万能钥匙直接要求模型增强行为指导方针,即使输出可能被发现冒犯或非法,模型也会提供相关回答,随后通过策略性诱导让模型输出非法信息。微软已与受影响的模型平台分享了此技术,以帮助他们加强模型的安全性。
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。