/ ai资讯

深知安全风控发布AI Agent安全护栏

发布时间:2026-05-17 09:45:57

——随着AI Agent加速渗透办公协同、客户服务、企业运营等真实生产场景,一个核心痛点日益凸显:如何让这些拥有自主决策和行动能力的智能体"不乱来"?深圳深知智新技术有限公司旗下深知安全风控(DKnownAI Guard)团队于5月14日正式给出了自己的答案—— AI Agent安全护栏

这款产品采用 组件化插入模式 ,可无缝嵌入基座大模型及各类智能体应用,对工具调用、文件访问、流程执行等高风险场景中的潜在威胁进行实时识别与响应。与传统安全方案"一刀切拒答"的粗暴逻辑不同,深知安全风控的核心突破在于: 结合风险研判结果进行分类处理 ,在风险防控与正常使用体验之间找到最优平衡点。

产品发布的同一天,深知安全风控还公开了一项面向Agentic场景的安全护栏测评,同步开放技术报告与评测数据集,为行业提供了全新的能力评估参考。

此次测评的设计思路与传统内容安全测评有本质区别。传统测评聚焦违规表达、敏感内容识别,而AI智能体场景中的风险往往与任务目标、上下文信息及交互过程紧密相关,仅靠文本层面的判断已难以完整反映安全能力。因此,测评重点不仅在于比较识别结果,更在于观察 真实攻击识别能力与正常请求放行能力之间的平衡

测评团队从8个公开安全数据集中抽样1018条样本,结合真实部署语境进行人工复审与重标注,最终形成统一的 BLOCKED / ALLOWED(拦截/放行)评估框架 ,测评对象涵盖AWS Bedrock Guardrails、Azure Content Safety、Lakera Guard等主流安全方案。

结果显示,深知安全风控在多项核心指标中表现突出:

指标 深知安全风控 行业意义
召回率(Recall) 96.5% 真实攻击识别覆盖率,位列第一
真负率(True Negative Rate) 90.4% 正常请求正确放行率,位列第一

在机器学习语境中,召回率衡量的是"该拦住的有没有拦住",真负率衡量的是"该放行的有没有误杀"。对于AI智能体场景而言,过度拦截会严重影响正常交互体验,而放行过多则会带来安全隐患。深知安全风控的优势恰恰在于—— 不是单纯追求拦截能力,而是在风险识别与误伤控制之间取得了最佳平衡

业内专家指出,深知安全风控的设计理念代表了AI安全思路的一次重要进化。传统内容安全关注的是"这段文本是否像风险内容",而深知安全风控关注的是 "AI智能体是否会因此做出错误行为"

举例来说,当用户要求Agent"帮我删掉所有旧文件"时,传统方案可能直接拒答;而深知安全风控会结合上下文判断:如果目标路径是临时缓存目录,则放行并执行;如果指向核心数据库,则拦截并告警。这种基于风险研判的 分类处理机制 ,有效降低了对正常业务交互的误伤,同时精准拦截提示词注入、指令劫持等高隐蔽性攻击。

随着AI Agent从实验室走向办公协同、客户服务、企业运营等真实场景,安全能力已不再是"加分项",而是"准入门槛"。深知安全风控此番发布的安全护栏及公开测评,不仅为企业提供了一套可落地的安全解决方案,更通过公开数据集与统一评估框架,为行业建立了AI智能体安全能力的 可比性与可评估性基准

  • AI AI 关注

    关注

    91

    文章

    41746

    浏览量

    302936

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com