中科视语提出工业异常检测大模型AnomalyGPT,实现零样本异常检测
工业异常检测是工业生产中不可或缺的一部分,然而现有的工业异常检测方法通常只能为测试样本提供异常分数,需要人工设定阈值以区分正常和异常样本,这限制了这些方法的实际应用场景。此外,现有的大模型在图像理解方面展现了卓越的能力,但是缺乏特定领域知识,而且对图像中局部细节的理解较弱,这导致这些大模型不能直接用于工业异常检测任务。
近日,中科视语和中国科学院自动化研究所的研究团队针对该问题提出了异常检测大模型AnomalyGPT。AnomalyGPT利用大模型的强大语义理解能力,通过精心设计的图像解码器和提示嵌入微调方法,能够让大模型充分理解工业场景图像,判断其中是否含有异常部分并指出异常位置,在少样本和无监督工业场景中取得了业内最好性能,有利于基础大模型的行业落地。
AnomalyGPT为了解决现有大模型缺乏特定领域知识和局部细节理解较弱这两个问题,设计了提示学习器和图像解码器两个模块,对现有的大模型进行训练调整,方法结构如下图所示:
1. 图像解码器:该模块参考多模态大模型的特征对齐思路,通过若干个线性投影层,将图像编码器所提取的由浅至深的中层特征与分别代表正常和异常语义的文本特征对齐。该结构能够提供异常区域分割的注意力图,通过将该注意力图输入到大模型中,能够指导大模型关注图像中异常概率较高的局部区域,为大模型提供视觉细节信息。
2. 提示学习器:该模块包含一个6层的卷积神经网络,用于将图像解码器输出的注意力图转化为大模型能够理解的提示嵌入向量,通过提示嵌入的方式对大模型进行微调,可以为大语言模型提供异常检测所需的领域知识,同时有效避免大模型产生灾难性遗忘问题。
此外,为了对大模型进行训练,研究团队还提出来使用基于泊松图像编辑的异常模拟方法来产生模拟异常数据,如下图所示,相比于传统的剪切拼接方法,泊松图像编辑模拟产生的异常更加自然,这进一步提高了AnomalyGPT方法的性能。
基于上述方法结构,AnomalyGPT研究团队在两个最权威的工业异常检测数据集 MVTec-AD和VisA上进行了实验,与现有少样本异常检测方法相比,AnomalyGPT取得了业内最先进的性能,实验结果如下表所示:
在无监督设置下,AnomalyGPT也取得了业内最高的性能,结果如下表所示:
下图展示了AnomalyGPT在一些实例上的异常检测和定位结果,与现有的大模型相比,AnomalyGPT在图像内容理解和异常检测与定位任务上都具有更好的表现:
AnomalyGPT 论文已经被人工智能顶级会议 AAAI 2024接收,论文预印版已发布于 Arxiv 上,并开源了相关代码和演示页面。
研究团队认为,现有的大模型在通用领域表现卓越,但是在工业、医学等专业领域的表现相对较弱,如何设计相应结构和方法,提高大模型的行业应用能力,是一个值得深入研究的问题。
-
迎春纳福——2025年非遗二十四节气茶道立春茶会在天津文庙举办
-
【新春走燕郊 幸福新起点】燕郊万人空巷共赏花车巡游 璀璨夜色点亮城市活力
-
光明肉业佛手味精——春节餐桌上的鲜美秘密
-
以灯祈福,以乐相聚——2025《我们的中国年》元宵音乐会热闹上演!
-
INFOMEDIA将收购INTELLEGAM 50%的股份
-
“爱的36计 爱人自有妙计”,美纳里尼联合海王星辰和先声再康举办公益科普活动
-
沙特财政部和IMF准备召开新兴市场经济体AlUla会议
-
从中国制造到服务全球,硅基仿生展示中国医疗科技硬核实力
-
全球首创,新一代"破伤风针"新替妥®获批上市
-
拥抱自然看世界 富士胶片超长焦摄影体验活动首站于深圳湾启动
-
成旅SPACiE感恩节义卖圆满落幕
-
宜家推进物流创新:智能驾驶电动卡车在中国正式启用
-
深耕30年 格兰富以创新助力中国可持续发展
-
SK chemicals将在韩国建立废旧塑料回收创新中心
-
金车噶玛兰以极为珍稀的 Palo Cortado 完备“雪莉桶家族”
-
首届阿布扎比公共艺术双年展( Public Art Abu Dhabi Biennial )推出第二阶段,在整个酋长国推出新艺术品
-
二十年深耕外汇市场,BCR铸就行业翘楚地位
-
ASIC全牌照加持,BCR保障客户资金安全与交易透明
-
AI加持,破除内卷:2025深圳国际全触与显示展全新升级,探索行业新动能
-
大金全球首个专注于空调核心零部件研发的创新基地——苏州研发中心落成启用