工具介绍
核心功能
Lakera 面向接入大语言模型的应用提供运行时安全检查,用于识别提示注入、越狱尝试、敏感信息暴露与不当内容。团队可在用户输入进入模型前以及模型输出返回用户前部署策略,对高风险请求拦截、标记或转入其他流程。平台积累的攻击样本与测试能力也可用于红队演练,帮助开发者了解应用面对对抗输入时的表现。
适合场景
企业知识问答需要防止用户诱导模型泄露系统提示和内部资料,公开聊天机器人需要处理恶意越狱与不当内容,Agent 在调用邮件、数据库等工具前则要加强输入检查。安全团队可结合应用场景配置不同策略,并用测试集检查升级模型后是否出现新的薄弱点。
使用边界
安全护栏不可能识别所有新型攻击,过严规则还会拦截正常用户,所以必须持续分析误报和漏报。仅检查文本无法补救权限设计缺陷,Agent 的工具调用仍需最小权限、参数校验和独立授权。敏感数据是否可发送给安全服务也要经过数据分类与供应商审查,不能因增加一层检测就放松基础控制。
常见问题
Lakera Guard 主要拦截什么风险?
重点包括提示注入、越狱、敏感数据和有害内容等生成式 AI 风险,具体覆盖与策略应以当前产品配置为准。
接入护栏后就不需要权限控制了吗?
仍然需要。护栏负责识别内容风险,账户权限、工具授权、数据隔离和审计承担的是不同安全职责。
如何降低正常请求被误拦截?
应使用本业务的真实样本调节策略,记录拦截原因,安排人工复核通道,并持续比较误报率与风险损失。