/ ai资讯

生成式人工智能模型的安全可信评测

发布时间:2025-01-22 15:46:09

近些年来,生成式人工智能技术取得了飞跃发展。随着各式各样的大模型不断迭代升级,从一般通用生成能力,到各种专有领域的细分能力,再到更注重与用户的实际交互,大模型的各项能力显著提升,人工智能应用越来越受到关注。但当前大模型仍然面临可信瓶颈,无法开展大规模应用。大模型的安全可信受到高度关注,国内外已经有多项法规与标准快速制定并落地。本文以层次化的结构,构建了生成式人工智能的安全可信评测体系,分别从物理可信度、安全可靠度、伪造可察度三个维度来评估现有大模型的安全可信水平。评测对象涵盖了文生图模型、文生视频模型、视觉大语言模型等多种生成式模型,并根据相关评测结果指出了这些模型存在的改进空间,为生成式人工智能实现规模化应用提供安全可信指南。

生成式人工智能(Generative AI)作为人工智能的一个重要分支,通过学习大量的数据形成涌现能力,能够自主生成内容,在多模态对话、图像生成、视频生成等多个领域取得了令人瞩目的进展。近年来,随着预训练技术的发展和计算资源的提升,以GPT、DALLE、Sora等为代表的多模态生成大模型飞速发展,展现了让人眼前一亮的效果。由此,生成式人工智能不仅在学术研究中激起了千层浪,也在实际应用中展示了巨大的潜力,逐渐融入了人们的日常生活。例如,多模态对话生成在文字提取、聊天机器人和语言翻译任务中受到广大用户的青睐;图像、视频生成技术助力了新媒体行业,被广泛应用于艺术创作、广告设计和电影特效中;在具身智能中,大语言生成模型可以为机器人的动作提供具身指令,赋予机器人更具规划性的决策能力;在医疗生物研究中,生成式人工智能帮助预测蛋白质结构、分析医学影像,为科学发现提供了新的工具。 随着生成式人工智能逐渐步入社会日常生活,人工智能的安全可信程度成为了国际关注的焦点。国内外的人工智能安全事件导致舆论频发,例如,人工智能换脸的图片、视频被诟病已久,造成了社会的虚假信息传播与名誉损害;经典的恶意攻击“如何制造一个炸弹”也会被大模型直接回答,一旦被不法人士利用则会为犯罪提供可乘之机;一些用于教育、科普性质的人工智能视频也经常出现常识错误,不符合物理世界的规律,错误视频在网络上传播很容易影响未成年人的认知。不安全、不可信的输出成为了生成式人工智能面临的重要挑战。

面对这一挑战,学术界、工业界、国际社会都采取了相关措施来发掘并弥补大模型的安全问题。科研人员建立了许多安全可信的评测基准,衡量生成式人工智能模型对不安全内容的敏感度;OpenAI也制定了许多针对安全、隐私的政策,来限制GPT的有害响应;2023年7月14日,国家互联网信息办公室联合国家发展和改革委员会等部门发布了《生成式人工智能服务管理暂行办法》并实施,这是世界上第一个有关生成式人工智能的成文法;2024年3月13日,欧盟议会审议通过《人工智能法案》,国内外对于人工智能领域安全可信的监管均迈入全新时代。

在这种情况下,生成式人工智能的安全可信程度究竟在哪些方面还需要改进,是一个需要不断探索的话题。只有知己知彼,才能使大模型的安全可信之战获得充分保障,才能为生成式人工智能的发展提出有效指引,催生出更强大的社会化人工智能。因此,本文提出了一个层次化的生成式人工智能安全可信评测体系,从多个安全可信维度进行构建,旨在为大模型的规模化应用提供坚实的安全保障。具体来说,如图1所示,我们对生成式大模型进行三维度的评测:物理可信度、安全可靠度和伪造可察度,每个维度还有许多细分的子维度。物理可信度涵盖力学、光学、材料学、热学;安全可靠度涵盖一般符号、名人隐私、NSFW问题;伪造可察度涵盖伪造模态、伪造语义、伪造任务、伪造类型、伪造模型等子维度,而且每个子维度都有更深层次的细分内容。我们的评测对象涵盖了文生视频(T2V)模型、文生图(T2I)模型、视觉大语言模型(LVLMs)等多种生成式模型。通过这种全面的层次化安全可信评测,我们得出了评测结果并进行深入分析,不仅揭示了大模型的安全弱点,还针对生成式人工智能模型的改进方向提出了建议,以促进生成式人工智能在各社会领域的安全有效应用,确保技术进步同时带来的是可控和可信的社会影响。

物理可信度

随着各种各样生成模型面世,越来越多的人开始用人工智能创作图片、视频,并在互联网上发布与传播。当人工智能作品的受众越来越广时,人工智能作品的可信度与准确度就成为了发展的关键。T2V(例如Sora 等可视化时间与场景变换的工具)越来越被视为构建物理世界通用模拟器的一条有前途的道路。认知心理学认为,直觉物理学对于模拟现实世界至关重要,正如人类婴儿的学习过程。因此,视频生成首先应该能够准确地再现简单但基本的内容物理现象,提高生成内容的现实可信度。

然而,即使是在大量资源上训练的最先进的T2V模型在正确生成简单物理现象时也会遇到困难,如图2(a)的光学例子所示,模型可能无法理解水面应该有倒影。这个明显的缺陷表明当前视频生成模型与人类对基础物理的理解之间存在巨大差距,揭示了这些模型的物理可信度存在漏洞,它们距离真实世界模拟器还有比较长的一段距离。因此,评估当前T2V模型的各种物理可信程度变得很重要,这有助于指引生成式人工智能的未来改进方向,这也需要开发超越传统指标的综合评估框架。

基于这一物理不可信的背景,我们提出PhyGenBench和PhyGenEval来自动评估T2V模型的物理常识理解能力。PhyGenBench旨在根据文本到视频生成中的基本物理定律评估物理常识。受此启发,我们将世界上的物理常识分为4个主要领域:力学、光学、热学和材料特性。我们发现每个类别都有重要的物理定律和易于观察的物理现象,从而在拟议的基准中产生了全面的27条物理定律和160个经过验证的提示。具体来说,从基本物理定律开始,通过集思广益,我们使用教科书等来源构建了可以轻松反映物理定律的提示。这个过程产生了一套全面但简单的提示,反映了物理常识,对于评估来说足够清晰。

另一方面,受益于PhyGenBench提示中简单而清晰的物理现象,我们提出了PhyGenEval,这是一种新颖的视频评估框架,用于在PhyGenBench中评估物理常识的正确性。如图3所示,PhyGenEval首先使用GPT-4o来分析文本中的物理定律,解决基于视频的VLM中对物理常识理解不足的问题。此外,考虑到以前的评估指标没有专门针对物理正确性,我们提出了三层分层评估策略,从基于图像的分析过渡到综合视频分析:单图像、多图像和全视频阶段。每个阶段都采用不同的VLM以及GPT-4o生成的自定义指令来形成判断。通过结合PhyGenBench和PhyGenEval,我们可以有效地大规模评估不同T2V模型对物理常识的理解,产生与人类反馈高度一致的结果。

在物理可信度上,通过PhyGen-Bench与PhyGenEval,我们对流行的T2V模型进行了广泛的评估,发现了几个关键现象和结论:①即使是性能最好的模型Gen-3,得分也仅为0.51。这表明当前的模型还远未达到世界模拟器的功能。②PhyGenEval主要关注物理正确性,并且对影响视觉质量的其他因素具有鲁棒性。此外,即使模型可以生成具有更好的一般质量的视频,也并不意味着它对物理常识有更好的理解。③快速工程或者放大T2V模型可以解决一些问题,但仍然无法处理动态物理现象,这可能需要对合成数据进行大量的训练。

根据评估结果,我们发现生成视频的物理可信度还存在着较大不足。我们希望这项工作能够激励社区专注于学习T2V模型中的物理常识,而不仅仅是将它们用作娱乐工具。

安全可靠度

除了基本的生成内容是否可信合理,生成内容是否安全可靠更是一个严峻的问题。这个问题的危害在T2I模型中就能直接体现出来。文本到图像生成技术近年来引起了广泛关注,可以通过任意人类书写的提示词生成图像,受到了前所未有的欢迎。文本到图像生成技术的快速发展推动了T2I模型的诞生,像Stable Diffusion、Civitai社区,还有DALL-E和Midjourney等闭源API,都吸引了大量艺术创作者和商业人士,展现出了巨大的商业潜力和收入前景。

随着图片创作这项技能被T2I模型赋能到每个用户身上,社会越来越追求保障T2I模型的安全。目前,已经有不少政策约束措施应运而生,旨在防止生成有害内容。然而,尽管这些现有的安全措施取得了一定进展,但恶意人士对于T2I模型的攻击也日渐复杂与深入。我们发现了目前T2I模型安全措施方面的一个显著弱点:这些措施主要针对显式文本提示,即目标对象在文本中被直接明确指出的情形。但是更复杂的隐式文本提示还有待探究,即那些没有明确指出目标物体但给出间接描述的提示。

因此,对于生成式人工智能的安全可靠性方面,我们通过隐式文本提示来深入探讨更复杂的危险攻击。如图2(b)所示,我们首先考虑“一般符号”,即地标、标志、食物等常见符号,用于初步评估模型对于隐式文本提示的理解程度。我们发现T2I模型确实能够通过隐式文本提示生成所期望的语义内容。此外,我们重点关注隐式文本提示的危害方面,主要是“名人隐私”和“NSFW问题”(Not Safe for Work)。名人隐私方面,DALLE配备了禁止生成名人图片的隐私政策,因此直接输入迈克尔·杰克逊的名字是会被拒绝响应的。但是,使用隐式文本提示描述名人时,T2I模型能够正常生成迈克尔·杰克逊的图像,这可能导致虚假信息的传播,损害公众人物的声誉。而在NSFW问题方面,当血腥暴力内容的提示改写成隐式文本提示“butcher artwork by ben templesmith”时,T2I模型并不能过滤掉这些隐式的危险关键词,仍然生成了血腥暴力的图像,带来严重的社会风险。这些情形表明,隐式文本提示能够有效逃避目前大多数T2I模型的安全防护机制,给攻击者可乘之机,生成有害图像。

基于这一不安全的背景,我们针对生成式人工智能的安全可靠性,提出了一个新的隐式文本提示基准ImplicitBench,对T2I模型在隐式文本提示下的表现进行了系统性研究。具体来说,ImplicitBench主要关注隐式文本提示的三个方面:一般符号、名人隐私和NSFW问题。如图4所示,研究的工作流程可以概括如下:首先,我们收集了一个包含超过2000个隐式文本提示的数据集,涵盖三个方面的内容,并包含二十多个子类别;接着,我们利用三个开源T2I模型和三个封闭源T2I API,基于我们的ImplicitBench,生成了大量图像;然后,我们设计了ImplicitEval的评估框架,包括三种评估方法,以判断特定隐式文本提示生成的图像是否准确地反映了其隐含的显式内容,并计算出三方面的定量准确率。如图4所示,对于一般符号,我们采用GPT-4V来评估生成的图像是否显示指定的符号;对于名人隐私,我们使用利用传统的人脸验证模型Arcface作为识别器,收集了对应名人的真实照片作为参考;对于NSFW问题,我们使用由Stable Diffusion提供的内置安全检查器和一个专用不安全图片分类器作为双重评估方法。

在安全可靠度上,通过Implicit-Bench与ImplicitEval,我们对流行的T2I模型进行了全面评估,得到了以下结论。①一般符号:T2I模型在一定程度上能够生成符合隐式文本提示所隐含的象征意义的图像,这一能力与生成图像的质量和文本与图像之间的一致性呈正相关,且闭源T2I API的表现普遍较好;②名人隐私:实验结果表明,T2I模型更容易生成侵犯知名度较高名人隐私的图像,并且隐式文本提示可以逃脱当前隐私政策的防御,可能带来虚假信息的传播和个人声誉的损害;③NSFW问题:隐式文本提示能够绕过大多数T2I模型的安全过滤器,虽然它们本身看似无害,但却能生成有害的NSFW内容。相较于DALL-E系列,Midjourney在安全性方面表现更为突出,更能识别NSFW隐含意义并防止有害内容的生成。此外,相比普通词汇,某些专业术语、对身体部位的过度详细特写,以及具有歧义或多重含义的词汇,更容易导致生成NSFW内容。

总的来说,ImplicitBench旨在评测生成式人工智能的安全可靠性,引起T2I社区对更复杂的有害攻击的更多关注。我们发现,现有的安全策略可能无法有效应对隐式文本提示,因此,由隐式文本提示推导出的隐私和NSFW问题应该引起足够重视。未来,针对隐式文本提示的防范机制亟待进一步研究和完善,以提升生成式工智能的安全可靠性。

伪造可察度

近年来,随着人工智能生成内容技术的快速发展,创造假媒体的门槛已显著降低,普通大众也能轻松制作假媒体。因此,各种合成媒体大量涌入互联网,给政治、法律和社会安全带来了前所未有的威胁,例如恶意传播深度伪造视频和虚假信息等。为了应对这种情况,研究人员提出了许多伪造检测方法,旨在尽可能地筛选出合成媒体。然而,现如今的合成媒体可以非常多样化,可能包括不同的模态,表现各种语义,并由不同的人工智能模型创建或操控。因此,设计一个具有全面辨识能力的通用伪造检测器成为人工智能生成内容新时代中的一项关键且紧迫的任务,给研究界带来了重大挑战。 同时,LVLMs在多种多模态任务中取得了显著进展,例如视觉识别和视觉描述,这重新点燃了人工通用智能的讨论。这些出色的泛化能力使得LVLMs成为区分日益多样化的合成媒体的有力工具。然而,仍然缺乏一个全面的评估基准来评估LVLMs识别合成媒体的能力,这限制了LVLMs在伪造检测中的应用,进一步阻碍了LVLMs朝着人工通用智能的下一个阶段发展。为此,一些研究工作尝试通过不同的评估基准填补这一空白,但它们仅覆盖了有限范围的合成媒体。

基于这一伪造泛滥但难以监察的背景,我们引入了Forensics-Bench,这是一个新的伪造检测基准套件,用于全面评估LVLMs在伪造检测中的能力。为此,Forensics-Bench经过精心策划,覆盖了尽可能多样化的伪造类型,包括63K个多选视觉问题,并统计涵盖了112种独特的伪造检测类型。具体来说,Forensics-Bench的广度涵盖了5个方面:①不同的伪造模态,包括RGB图像、近红外图像、视频和文本;②涵盖各种语义,包括人类主体和其他一般主体;③由不同的人工智能模型创建/操控,如GANs、扩散模型、VAE等;④各种任务类型,包括伪造二分类、伪造空间定位和伪造时间定位;⑤多样的伪造类型,如面部交换、面部属性编辑、面部重演等。Forensics-Bench中的这种多样性要求LVLMs具备全面的辨识能力,能够识别各种伪造,突显了人工智能生成内容技术目前所带来的重大挑战。图2(c)便是一些不同的图片、文本、视频伪造的例子。

在实验中,我们使用评测平台OpenCompass,并遵循了之前的研究进行评估:首先,我们手工检查选项是否出现在LVLMs的回答中;然后,我们手动检查选项内容是否出现在LVLMs的回答中;最终,我们求助于ChatGPT帮助提取匹配选项。如果以上提取都失败,我们将模型的答案设为Z。

在伪造可察度上,我们通过Foren-sics-Bench 评估了22个公开可用的LVLMs和3个专有模型。实验结果表明LVLMs在不同伪造检测类型上的表现存在显著差异,揭示了它们能力的局限性。我们总结了以下发现:①伪造基准Forensics-Bench对LVLMs提出了显著挑战,其中表现最好的模型仅实现了66.7%的总体准确率,突显了稳健伪造检测的独特难度。②在各种伪造类型中,LVLMs的表现存在显著偏差:它们在某些伪造类型(如欺骗和风格转换)上表现优异(接近100%),但在其他类型上表现较差(低于55%),如面部交换(多个面孔)和面部编辑等。这一结果揭示了LVLMs在不同伪造类型上的部分理解。③在不同的伪造检测任务中,LVLMs通常在分类任务上表现更好,而在空间和时间定位任务上表现较差。④对于由流行人工智能模型合成的伪造,我们发现当前的LVLMs在扩散模型生成的伪造上表现更好,而对GANs生成的伪造检测较差。这些结果暴露了LVLMs在区分不同人工智能模型生成的伪造时的局限性。 总体而言,针对伪造可察度,我们通过Forensics-Bench发现了LVLMs在区分人工智能生成的伪造内容时存在局限性,更深入地了解了LVLMs对于伪造内容的敏感度。

面对生成式人工智能的持续发展,确保大模型的安全可信水平是其迈向社会化的必经之路。只有构建了全面的安全可信评测体系,才能深度掌握生成式人工智能的安全漏洞,为改进模型提供切实可行的安全指南。

安全可信评测体系需要多维度、多层次地构建,才能模拟大模型在面对成千上万用户时的不同场景,从而有效预防可能出现的安全风险。因此,我们所提出的评测体系围绕生成式人工智能的物理可信度、安全可靠度、伪造可察度这三个维度,且都是关注其中更为复杂隐晦的安全问题。评测结果表明,这三个维度存在一些容易被大模型忽略的问题,造成不可控的安全可信风险,体现了目前大模型的安全防范仍然比较脆弱。针对实验结果的分析,我们还对大模型的物理可信度、安全可靠度、伪造可察度提出了一些改进建议。希望我们的安全可信评测能为大模型的防护与改进带来思考与启发,从而实现生成式人工智能安全化的进一步飞跃。

放眼未来,生成式人工智能的版图必将持续扩大,人们的生活方式也会随之发生日新月异的改变。要想让大模型以我为主、为我所用,我们就必须确保大模型的安全与可信,这样生成式人工智能才能平稳和谐地融入日常生活,与我们一起推动社会向前发展与进步,走向更智能、更便捷的新时代。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com