传统安全是 基于规则和边界的。我们防御的是确定性的攻击,例如 SQL 注入。Web 应用防火墙( WAF )可以轻易识别并拦截 OR 1=1 这样的恶意字符串。这是个“黑白分明”的世界,攻防双方围绕着明确逻辑和特征库展开。
但是 AI 安全则是基于语义和概率。攻击者可能不再是“黑客”,而更像是“心理学家”或“诡辩者”。他们攻击的不是代码漏洞,而是模型的“心智”漏洞。一句话,既可能是需要处理的数据(“总结这篇文章”),也可能被模型理解为一条新的指令(“忘记你之前的规则”)。
---
那作为普通人我们如何防御?模型( LLM )的安全问题,是工程问题,是算法问题,还是一个根本性的“哲学”问题?
