3月28日,由机器视觉产业联盟(CMVU)主办、慕尼黑展览(上海)有限公司承办的VisionChina2025(上海)机器视觉展在上海新国际博览中心圆满落幕。阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会现场,围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”的主题,发表了精彩演讲。
尊敬的各位来宾,我是嘉悦,来自北京阿丘科技。今天,我将与大家分享《大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化》。
在探讨大模型之前,让我们简单回顾一下工业AI视觉的发展历程。2019年被视为工业AI视觉的元年,当时以CNN为主流的小模型路线开始在早期客户中落地。后续一直到2024年,工业AI视觉处于一个跨越鸿沟的阶段,AI开始逐渐在各个细分领域和市场中普及,从头部客户到腰部客户,甚至在某些细分行业已经成为标配。到了2025年可以说,我们已经基本跨越了这个鸿沟,表现为大部分客户已经认可AI在工业领域的实用性,认可AI在工业检测中的落地能力。
然而这几年虽然认知是变化了,但AI检测应用的增长速度并不算快,呈现出较为线性的增长趋势,远未达到爆发状态,没有形成质变。原因在于小模型技术路线存在一些长期困扰行业的问题:样本收集周期长、模型迭代周期长以及模型泛化能力差。
样本收集方面,工业缺陷样本稀缺,收集周期漫长。模型迭代过程中,非专业工程师在调优模型时常常面临不收敛的问题,导致AI落地周期延长。此外,小模型的泛化能力不足,对于未见过的样本,模型往往无法准确识别,这又回到了样本收集的难题上。这些问题成为了制约AI检测落地和增长的关键因素。
为了解决这些问题,阿丘科技这几年一直在探索和尝试。令人兴奋的是,在去年AI领域出现了一个非常大的技术变量,通用大模型爆发式涌现了。从大家熟悉的OpenAI的ChatGPT,到后来的豆包、Kimi,再到春节期间爆火的DeepSeek,3月出现的Manus智能体,这些大模型引发了广泛讨论。我们可以看到,通用AI智能的能力水平正在以惊人的速度提升,可能已经超越了许多普通人的智力和知识水平。虽然通用大模型不直接影响AI检测,但它标志着AI技术已经来到了一个突破点,预示着即将迎来突破性的影响。
回归到工业检测本身,大模型技术的变迁会产生哪些影响呢?对于大模型在工业检测中的应用,存在两种不同的声音。一种较为保守的观点认为,大模型与工业检测无关,它更像一个聊天机器人,可以辅助一些文书类工作,无法适应工业场景的严格的准确性要求。在工业检测中无法发挥作用。另一种较为激进的观点则认为,大模型的能力极其强大,很快就可以直接接入工厂,一步到位实现自动化质检。
而阿丘科技,一直对大模型技术发展进行了长期关注,我们的观点是,大模型确实会加速AI检测范式的转变,但它并不是一个非此即彼的替代关系,我们认为,大模型将进入工业检测领域,并与小模型形成协同关系。
一、什么是大模型、小模型、智能体
接下来,我想简单科普一下什么是大模型、小模型、智能体。
小模型通常指的是传统的深度学习网络,如CNN等,其参数规模较小,通常在百万级。小模型在数据处理能力上存在一定限制,对数据量和数据多样性要求较高,对数据质量和一致性的要求也较为严格。这也就是为什么在工业检测中,我们要求标注必须准确无误,否则模型会产生混淆。小模型的知识模态通常是单模态,要么是文本,要么是图像、视频等。其泛化性能相对较差,因为它们只学习了特定的、局部的知识。例如,一个用于车牌识别的小模型,只能进行车牌识别,无法识别其他物体。
相比之下,大模型采用了Transformer等架构,解决了小模型在长时间和远距离依赖问题上的不足。这种架构允许我们通过堆叠海量数据和参数来提升模型能力,参数规模通常达到数十亿甚至上百亿。大模型能够接收批量规模的文本、图像、音频等多模态数据,并对其进行处理。它对数据中的噪声和不一致性具有较强的鲁棒性,即使数据中存在一些错误,也不会对模型产生太大影响。大模型通常是多模态的,如视觉语言模型、听觉语言模型等,具有出色的泛化性能,能够在未见过的数据和新任务上表现出较好的适应性和举一反三的能力。
智能体可以简单理解为大模型应用的一种包装形式,它可以自主完成一系列动作以达成目标,类似于一个辅助人类的小助理。智能体并不是一个单独的模型分类,而是大模型在特定应用方式下的体现。
接下来,我们简单了解一下这些模型是如何训练出来的,这有助于我们理解模型为何具有这样的能力。
首先,无论是小模型还是大模型,都需要经过预处理阶段。在这个阶段,所有的非数字类信息都会被转化为数字信息,以便计算机进行处理。
其次是训练过程。对于小模型来说,训练过程主要是对专业知识的学习,可以采用监督学习或非监督学习的方式,在工业检测领域,监督学习的应用较为广泛。
而对于大模型,其训练过程则有所不同,通常分为两个阶段。首先是预训练阶段。在这个阶段,模型通过大量的互联网信息,以自监督的方式学习通用知识。这个过程通常需要消耗大量资金、算力和时间,因此,当人们提到做大模型烧钱时,通常指的是这个预训练阶段。预训练之后,还有一个关键步骤叫做微调。由于互联网数据可能存在信息不全或不准确,需要通过微调来提升模型的专业度。微调的其中一种方式是人工标注,类似于我们在工业检测中对缺陷进行标注一样,人工标注会告诉模型正确答案,然后模型会根据这些标注数据进行学习。此外,还有一种新兴的方式是强化学习,即通过给模型的答案打分,让模型不断尝试,直到达到较高的分数,从而确定最终答案。这两种方法在实际应用中都有所采用。
前面我们所讨论的大模型概念,通常指的是我们日常接触的一些应用场景,然而,当大模型真正应用于企业时,它可以细分为多个层次。
除了通用大模型,适用于多种任务和生活场景的模型之外,还有行业大模型,这类模型是为特定行业量身定制的,具备该行业的专业性。例如,在煤矿领域的大模型需要了解煤矿行业的各种专业知识;在医疗领域,大模型可以作为医生的助理,具备一定的专业辅助能力。
再往下细分,还有场景大模型,这类模型针对特定的应用场景进行设计,具有更强的专业性。例如,用于磁材检测的大模型、烟草检测的大模型,或者针对某种工艺缺陷检测的大模型等。
最后是场景小模型,这是我们目前应用的主流。它专注于特定场景中的特定任务,在该任务上具有很强的专业性。例如,专门用于检测某一产品某一缺陷项的模型,它可能无法检测其他产品或其他缺陷项,这种场景小模型在日常应用中非常普遍。另外,按技术类型划分,还可以分为单模态和多模态模型。多模态模型结合了多种不同类型的数据,如文本、图像、视频等,具有更强大的理解和生成能力。
在企业应用大模型时,一个关键点是要准确匹配企业自己的实际问题和需求,然后选择合适的模型。我们不能仅仅凭借感觉或偏好来选择模型,不同模型的效果和训练开销存在很大差异,我们要避免“杀鸡用牛刀”或“杀牛用鸡刀”的情况。
二、工业视觉如何运用大小模型?
回到工业视觉领域,要探讨如何合理运用大小模型,我们可以来列举和分析一下它们与工业检测的匹配度。
首先,通用AI大模型是通过大量互联网数据训练出来的,然而,工业数据在互联网上相对较少,尤其是工业质量数据。因此,这类通用大模型在工业检测中的准确度通常较差,直接应用于工业检测的效果并不理想。
相比之下,我们有机会构建专门的工业检测大模型,这类模型类似于行业大模型的层次。通过大量工业数据、文本和图像进行训练,能够学习到各行各业、各种制造领域中不同产品的各种缺陷知识,因此在工业检测领域具有很强的泛化能力。然而,它的准确度和精确度存在一定的上限,推理速度也相对较慢。工业检测大模型类似于企业中的综合性人才,对于常见的任务和稍微专业一些的工作,它可以胜任。例如,今天检测一种产品,明天换到另一个车间检测另一种产品,它都能很快适应。这种模型适合于工业场景中典型的工艺,以及对检测指标和速度要求不是特别严格的场景,能够实现即插即用的效果。
接下来是场景大模型,这类模型学习了一定规模的特定范围内的知识,因此在准确度、处理速度和泛化能力方面表现出色。在特定场景内,它可以实现即插即用,应用性非常好。就像直接聘请一位本领域的资深专家,他来了就能直接上手工作。这种模型适用于工艺具有一定代表性、积累了大量同场景不同产品数据的情况,同时待检产品型号较多,需要一定的泛化能力。
然后是小模型,它专注于学习特定的知识,优势在于准确度高和推理速度快。由于它只专注于一个任务,延展能力有限,类似于聘请了一位小学生,专门训练他完成一项任务,他可以将这项任务完成得非常好,而且成本较低。小模型适用于工艺独特、数据较少的场景,或者对检测指标要求较高的情况,以及产品品类有限、不追求泛化能力的场景。
最后是智能体,智能体在工业检测领域可以作为一个自主模型训练的小助手。目前,许多员工在重复性的工作中投入了大量时间,而引入智能体可以大幅降低模型迭代的难度和时间成本。
综合来看,工业市场是一个高度碎片化的市场,各种场景、缺陷类型和指标要求都存在。这意味着在工业检测中,大小模型的协同是一个必然趋势,没有哪一种模型能够完全取代其他模型覆盖所有场景。
同时,协同并不意味着是一种固定的模式,相反,随着技术的快速进步,这一过程一定是动态的。例如,在2024年,可能95%以上的应用都是小模型,只有少数企业开始落地场景大模型,并取得了不错的效果。到了今年,大模型的应用正在快速增长,工业检测大模型可能迎来其首个落地场景。预计在未来的2026、2027、2028年,大模型系统将处于快速增加的状态,但五年后可能会趋于平稳,三种模型的应用场景分工将逐渐明确和固定下来。此外,模型训练智能体有望在未来一年左右时间内出现在市场上。
三、阿丘科技AI模型产品布局
沿着这些思路,阿丘科技正在布局自己的AI产品序列。首先,我们仍然保留小模型方向的产品,因为在未来几年内,小模型仍将在应用中占据较大比重。我们为这一领域的场景提供开发工具套件,如大家熟悉的AIDI等软件工具型产品,它们追求高精度、高准确度和高速性能。
对于场景大模型类产品,我们直接提供面向特定场景的端到端即插即用模型。除了去年分享过的PCB领域的大模型应用,今年我们还尝试了在磁材、烟草、金属和塑料表面等场景的模型落地,并取得了良好的效果,将落地周期从几个月缩短到了一周左右。
工业检测大模型产品也是我们今年研发的重点。我们称之为AQ-VLM,即阿丘的视觉语言模型,它是基于我们之前积累的所有工业图像数据资产构建的一个智能的基座模型。这个大模型分为两个部分,一个是用于缺陷检测的工业视觉大模型,这个大模型能够在一些常见的通用工业检测场景中实现即插即用。同时,我们还开放了模型微调窗口,只需原来小模型所需数据量的1%左右,就可以快速微调模型,以适应新的领域。
另一个分支是通用缺陷生成模型,同样基于我们积累的高质量工业数据进行训练,并支持提示和参考图结合的方式进行生成。由于工业图像数据对质量要求较高,我们通过文本编码器和图像编码器相结合的方式进行生成,以确保生成的数据能够满足模型训练的要求。
这是一个正在研发中的产品,我们制作了一个小型demo在展台供大家分享。例如您可以导入任意一张图片,然后给它一个指令,比如“请帮我检测这张图像中的脏污”,它能够理解您的意思并框出缺陷的位置。同样,对于缺陷生成模型,您可以输入产品图样,并要求生成某种特定的缺陷,如“请帮我这张图像的右下角生成一个凹陷”。
接下来是智能体的部分。智能体不会作为我们的一个单独的产品品类存在,而是更多地集成到我们的模型训练开发平台中。它的使用模式是将原本许多人工重复性的工作,包括一些需要专业知识的重复性工作,转变为由智能体完成。我们的目标是让人工只需负责保障标准的正确性,其余工作都交由智能体处理。所以智能体可能嵌入在AIDI或阿丘的其他训练平台中。我们相信,未来智能体将成为小模型和大模型训练过程中的核心“人员”。
四、实践案例
最后,我想分享一个实践案例,以帮助大家更好地理解大小模型协同的概念。
我们最近在几个不同的客户中在尝试金属结构件检测的场景。这些客户都已经非常认可AI技术,但仍被一些问题所困扰,如周期过长、模型不收敛等。于是,我们尝试通过VLM和小模型协同的方案,看看是否能够实现模型的复用,从而解决这些问题。
具体来说,我们针对不同的缺陷类型采取了不同的策略。对于明显的缺陷,我们可以直接使用大模型进行检测。例如,金属表面上的压伤是一种非常典型的缺陷类型,大模型此前已经经过充分学习,我们可以直接输入指令,如“帮我检测一下压伤”,模型就能直接识别出压伤,无需额外训练。
对于不那么明显但相对常见的缺陷,如果我有一些样本数据,我们可以采用VLM加上微调的方法来实现检测。例如,划伤也是一种常见缺陷,但在某些场景中,划伤可能很轻,看起来对比度很低,模型之前没有学习过如此轻微的划伤。我们可以通过微调,将这些对比度很低的划伤样本数据额外输入模型,使其能够顺利识别出这种划伤。
第三种情况是缺陷既不明显又较为罕见,几乎没有通用性。针对这种情况,我们采用生成式AI结合小模型和智能体的方法来解决。我们可以给生成模型输入一张良品图,再结合真实的缺陷参考图,然后输入一个指令,如“帮我生成一个类似的缺陷”,模型会理解您的意思,并生成一个形态不同但看起来较为真实的缺陷图像。然后,我们将这些真实图和生成图作为训练数据集输入到AIDI中进行训练,这个过程可以利用智能体来辅助。最终,我们可以在场景中实现实现对缺陷的良好识别。
总结来说,对于明显的缺陷,我们全部使用大模型VLM解决;对于不明显但常见的缺陷,我们使用VLM加微调的方法;对于不明显且罕见的缺陷,我们采用生成大模型 小模型 智能体的方式。当然,这些模型的能力边界是动态变化的,因此,我们的方案也保持一定的开放性,例如也许对明显且长尾的缺陷可以采用非监督小模型,这些都有很多可能性,这些也是我们会持续关注的方向。
最后总结一下,去年展会演讲时,我们老板说过一句话:“不会用AI的将会被用AI的淘汰。”今年,在这个快速变化的时代,我要补充一句:“AI工业视觉的格局正在加速变革,不会用大模型的将会被善用大模型的人淘汰。”
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com