深知安全风控发布AI Agent安全护栏

发布时间：2026-05-17 09:45:57

——随着AI Agent加速渗透办公协同、客户服务、企业运营等真实生产场景，一个核心痛点日益凸显：如何让这些拥有自主决策和行动能力的智能体"不乱来"？深圳深知智新技术有限公司旗下深知安全风控（DKnownAI Guard）团队于5月14日正式给出了自己的答案—— AI Agent安全护栏 。

这款产品采用 组件化插入模式 ，可无缝嵌入基座大模型及各类智能体应用，对工具调用、文件访问、流程执行等高风险场景中的潜在威胁进行实时识别与响应。与传统安全方案"一刀切拒答"的粗暴逻辑不同，深知安全风控的核心突破在于： 结合风险研判结果进行分类处理 ，在风险防控与正常使用体验之间找到最优平衡点。

产品发布的同一天，深知安全风控还公开了一项面向Agentic场景的安全护栏测评，同步开放技术报告与评测数据集，为行业提供了全新的能力评估参考。

此次测评的设计思路与传统内容安全测评有本质区别。传统测评聚焦违规表达、敏感内容识别，而AI智能体场景中的风险往往与任务目标、上下文信息及交互过程紧密相关，仅靠文本层面的判断已难以完整反映安全能力。因此，测评重点不仅在于比较识别结果，更在于观察 真实攻击识别能力与正常请求放行能力之间的平衡 。

测评团队从8个公开安全数据集中抽样1018条样本，结合真实部署语境进行人工复审与重标注，最终形成统一的 BLOCKED / ALLOWED（拦截/放行）评估框架 ，测评对象涵盖AWS Bedrock Guardrails、Azure Content Safety、Lakera Guard等主流安全方案。

结果显示，深知安全风控在多项核心指标中表现突出：

指标	深知安全风控	行业意义
召回率（Recall）	96.5%	真实攻击识别覆盖率，位列第一
真负率（True Negative Rate）	90.4%	正常请求正确放行率，位列第一

在机器学习语境中，召回率衡量的是"该拦住的有没有拦住"，真负率衡量的是"该放行的有没有误杀"。对于AI智能体场景而言，过度拦截会严重影响正常交互体验，而放行过多则会带来安全隐患。深知安全风控的优势恰恰在于—— 不是单纯追求拦截能力，而是在风险识别与误伤控制之间取得了最佳平衡 。

业内专家指出，深知安全风控的设计理念代表了AI安全思路的一次重要进化。传统内容安全关注的是"这段文本是否像风险内容"，而深知安全风控关注的是 "AI智能体是否会因此做出错误行为" 。

举例来说，当用户要求Agent"帮我删掉所有旧文件"时，传统方案可能直接拒答；而深知安全风控会结合上下文判断：如果目标路径是临时缓存目录，则放行并执行；如果指向核心数据库，则拦截并告警。这种基于风险研判的 分类处理机制 ，有效降低了对正常业务交互的误伤，同时精准拦截提示词注入、指令劫持等高隐蔽性攻击。

随着AI Agent从实验室走向办公协同、客户服务、企业运营等真实场景，安全能力已不再是"加分项"，而是"准入门槛"。深知安全风控此番发布的安全护栏及公开测评，不仅为企业提供了一套可落地的安全解决方案，更通过公开数据集与统一评估框架，为行业建立了AI智能体安全能力的 可比性与可评估性基准 。

AI AI 关注
关注
91
文章
41746
浏览量
302936

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

深知安全风控发布AI Agent安全护栏

相关阅读

ai资讯推荐

最新资讯