Lakera

Lakera 是生成式 AI 应用安全平台，提供提示注入、越狱、敏感数据和有害内容防护，帮助安全与产品团队在 LLM 请求链路中实施实时护栏。

工具介绍

Lakera 面向接入大语言模型的应用提供运行时安全检查，用于识别提示注入、越狱尝试、敏感信息暴露与不当内容。团队可在用户输入进入模型前以及模型输出返回用户前部署策略，对高风险请求拦截、标记或转入其他流程。平台积累的攻击样本与测试能力也可用于红队演练，帮助开发者了解应用面对对抗输入时的表现。

企业知识问答需要防止用户诱导模型泄露系统提示和内部资料，公开聊天机器人需要处理恶意越狱与不当内容，Agent 在调用邮件、数据库等工具前则要加强输入检查。安全团队可结合应用场景配置不同策略，并用测试集检查升级模型后是否出现新的薄弱点。

安全护栏不可能识别所有新型攻击，过严规则还会拦截正常用户，所以必须持续分析误报和漏报。仅检查文本无法补救权限设计缺陷，Agent 的工具调用仍需最小权限、参数校验和独立授权。敏感数据是否可发送给安全服务也要经过数据分类与供应商审查，不能因增加一层检测就放松基础控制。

重点包括提示注入、越狱、敏感数据和有害内容等生成式 AI 风险，具体覆盖与策略应以当前产品配置为准。

仍然需要。护栏负责识别内容风险，账户权限、工具授权、数据隔离和审计承担的是不同安全职责。

应使用本业务的真实样本调节策略，记录拦截原因，安排人工复核通道，并持续比较误报率与风险损失。