来源:期刊VIP网所属分类:园林学发布时间:2022-01-10浏览:次
摘要:昆虫图像分割是昆虫图像的识别与鉴定的重点和难点。目前,昆虫分割算法速度慢、过程复杂且大多数只针对于单一背景图像。为了更准确高效地实现昆虫图像的前景背景图像分离,提出一种基于逐像素聚类的端对端的昆虫图像分割方法,能够同时实现复杂背景下的昆虫图像分割与昆虫种类识别。采用覆盖5个昆虫目级阶元的37种实际场景下拍摄的昆虫图像作为研究对象,首先通过试验确定所提模型的最优参数设置,选择ResNet101作为分割模型的主干特征提取网络,在IoU取0.50时,其掩膜分支平均准确度均值、定位平均准确度均值及平均识别误差率分别为93.15%、95.06%和12.12%,分割每张昆虫图像仅需0.080 s,所提模型能够同步实现复杂背景下昆虫目标与背景的快速准确分割并进行分类。
关键词:昆虫图像;复杂背景;实时性;实例分割;识别分类
作者:陈冬梅
通信作者:吴开华
庞大的昆虫家族是大自然生物链中的重要一环,占据着节肢动物门的最大一纲。这些生物形态各异,数量惊人,分布又极其广泛,迄今发现的昆虫有120多万种,占整个动物界种类的80%左右[1]。其中,绝大多数昆虫以植物为寄主,通过取食作物获取营养,会造成农作物的产量和品质显著降低,成为制约农业生产的重要因素之一[2]。因此,研究昆虫的规律,找出其中可供利用的特性,对于农业发展,尤其是害虫防治策略的设计和益虫的保护与利用都具有十分重要的意义。在昆虫研究中,昆虫的识别既是昆虫研究和害虫防治的基础,也是昆虫研究的重要内容之一[3]。
传统的昆虫识别是通过分类学专家或具有昆虫分类知识的技术人员对昆虫进行种类的鉴定[4]。但现有的分类学专家和掌握分类的技术人员无论在分布还是在数目上均难以满足时下正呈现扩大倾向的各类实际场景需求。同时,昆虫图像识别由于昆虫本身纹理丰富而被视为一类相对困难的图像细粒度识别问题。当识别种类及数量较多时,群体所呈现出的种间相似性、种内多样性以及不同姿态的差异会进一步增加数据复杂度,此类图像的区分信息更多地集中在像素层面,用人为构建并筛选的特征对图像进行表达很容易丢失其中的细节[5]。
信息技术的快速发展使得计算机代替人脑进行判别的方法成为了可能,以计算机为基础的昆虫自动识别方法可以处理最常见的昆虫图像数据,先将采集的昆虫图像进行图像处理和背景前景分离,再使用图像识别方法进行类别分析。目前,基于计算机的昆虫图像分割主要依赖于传统图像分割方法,如基于阈值的分割方法、基于边缘的分割方法、基于区域的分割方法以及基于数学形态学的分割方法等[6]。Mele等提出了基于全局阈值与局部种子区域生长法相结合的昆虫图像分割方法[7]。刘晓静等根据复杂背景下的昆虫彩色图像的特点,采用了一种融合颜色和空间信息的静态图像压缩(JSEG)分割算法[8]。一方面,这些研究只利用图片中边缘、颜色、纹理等低级特征,分割结果并不精确,同时对于图像的要求较高,且对于昆虫的分类大多是在分割结果的基础上进行,整个过程须要分步进行,存在效率低、适用性差等缺点。另一方面,目前多数研究是将某领域中较成熟的图像分割算法直接或稍加改进后,在较小的测试集或某张图像上进行仿真测试,很少对大样本的图像做测试,不能充分说明方法的可行性[9]。自然环境下昆虫种类繁多,实际场景下获取的昆虫图像背景复杂,有些昆虫目标与背景相似度高,这使得仅依靠图片中低级特征去解决复杂背景下昆虫目标的分割及识别分类存在较大的局限性。
近年來,随着机器学习的迅速发展,国内外学者越来越关注以机器学习和深度学习算法为基础的图像识别分割。在昆虫分割方面,杨信廷等以粉虱和蓟马为例,提出了一种基于边缘检测算子分割和支持向量机的温室粉虱和蓟马诱虫板的图像识别算法,实现温室害虫的诱虫板图像识别[10]。王卫民等针对害虫图像分割和计数存在的问题,在U-Net基础上改进得到了Insect-Net模型用于昆虫的识别和计数[11]。竺乐庆等基于全卷积网络实现了鳞翅目标本图像前背景的自动分割[12]。Pang等针对传统分类器对图像要求高且分类不准确等问题,基于F-RCN对昆虫进行识别[13]。上述昆虫分割方法仅在实验室环境无背景或单一背景的昆虫图像上具有较好的分割效果。对于自然环境下复杂背景的昆虫图像的分割及识别分类效果还有待进一步探索。
针对自然环境下昆虫图像分割和识别的特殊性和复杂性,以及目前昆虫图像分割及识别的不足,本试验提出逐像素聚类的端对端的昆虫图像分割方法,拟同时实现复杂背景下的昆虫图像背景分离和昆虫识别,本研究主要包括材料与方法、试验与结果以及总结与展望。
1 材料与方法
1.1 图像数据与试验环境
本试验的试验图像数据涵盖5个目级阶元下的37类共4 285张昆虫图像[14-15]。所有图像都是通过数码相机(佳能、尼康和移动设备等)捕获的。为了消除光照变化的潜在负面影响,所有样品图像在作物田间情况下均采用统一的光照设置进行预处理。本试验采用图像标注软件Labelme[16]以VOC格式对图像添加掩膜标签,并生成模型训练所需的掩膜图片,数据集中每类昆虫图像及其对应的掩膜图像示例如图1所示。图1中对应每种昆虫的编号、种类名称及数量均在表1中详细列出。试验在杭州电子科技大学高性能计算机平台上进行。该平台操作系统为Windows 10,平台采用单块型号为NVDIA GTX 1080Ti的图形处理器,搭载Intel(R) Core(TM) i7-8700k的CPU,内存为11 G。
1.2 昆虫图像分割方法概述
本研究拟使用基于YOLCAT++[17]的昆虫分割模型,其算法整体流程如图2所示。首先,昆虫原始图像通过主干特征提取网络得到特征图,然后C3~C5层特征图通过特征金字塔网络FPN[18]得到P3~P5层特征图。同时为消除混叠效应,对P3~P5层进行卷积得到新的P3~P5层,P6、P7层是由P5层卷积得到。模型将分割过程拆分为头部预测和原型网络2个并行的分支,将2个分支的输出合并获得最终的掩膜。笔者使用快速非极大抑制对每个实例预测得到的掩膜进行处理。通过裁剪将边界外的掩膜清零,其中训练阶段的边界是真实边框,评估阶段的边界是预测的边框。最后,以0.5为阈值对生成的掩膜进行图像二值化处理得到最终结果。
1.2.1 主干特征提取网络结构 目前,主流的图像识别算法主要是利用卷积神经网络(CNN)自动提取图像特征,而后依据提取到的特征进行目标的提取和分类。特征金字塔网络是一种通用结构,它可以与VGG[19]、ResNet[20]、Mobilenets[21]、Darknet[22]等不同的骨架网络组合使用。本研究分别使用了ResNet50、ResNet101与FPN组合的结构,具体结构如图3所示。从图3可以看出,ResNet-FPN分为3个部分,分别是自下而上连接部分、自下而上连接部分及横向连接部分。其中,自下而上部分是以ResNet作为骨架结构进行特征的提取,ResNet分为5个不同的阶段,其中将阶段3到阶段5各层最后输出的一层特征分别定义为C3、C4、C5。自上而下是从最高层开始以最近邻法进行上采样。横向连接是利用256×1×1的卷积核对C3~C5各层进行卷积操作,不经过激活函数直接得到256通道的特征图输出,将其与上采样得到的特征图进行加和得到融合特征图。然后用3×3的卷积核对融合后的特征图进行卷积,以便消除混叠效应。最终得到 P3~P5特征层。特征层P6则是P5经过步长為2的最大池化下采样得到,特征层P7则是P6经过步长为2的最大池化下采样得到。 其中, P3用于输入到原型网络分支,P3~P7特征层作为后续头部预测分支的输入。
1.2.2 原型掩膜及系数计算 原型网络是一种简单、高效的学习方式,其基本思路是对于每一个分类来创建一个原型表示。模型中原型网络分支由若干卷积层组成,其结构如图4-a所示。以P3层作为输入进入到原型网络分支,利用全卷积神经网络产生一系列与图像大小一致的原型掩膜,这一过程不依赖任一特定实例且不依赖重池化,因此产生了质量非常高且稳定性更好的掩码。P3层昆虫特征图经过卷积层卷积后输出维度为138×138×32的掩膜,即32个大小是138×138的原型掩膜。
为了提高速度,达到实时分割的目的,引入共享卷积网络,在RetinaNet[23]的基础上改进得到头部预测分支,其网络结构如图4-b所示。以P3~P7作为输入进入到预测头,然后有1个分支输出目标位置,1个分支输出掩膜系数,1个分支输出分类的置信率,即在原本目标检测分支的基础上添加一个掩膜输出,对每个锚框来预测掩膜系数,也就是对实例的表示编码为原型域的表达。所以决定目标的有4(位置)+k(掩膜系数)+37(分类置信率)个参数。将预测头分支得到的掩膜系数和原型分支得到的原型掩膜做矩阵乘法,得到图像中每一个目标物体的掩膜。
以P3层昆虫特征图为例进行说明,P3的维度是69×69×256,则P3层生成的锚框个数是14 283(69×69×3=14 283)。然后头部预测分支将其分为3个分支输出,分别是 (1)类别置信度,本数据集共有38类(包括背景),所以其维度为542 754(P3层生成的锚框个数×38);(2)位置偏移,维度为 57 132(P3层生成的锚框个数×4);(3)掩膜置信度,维度为457 056(P3层生成的锚框个数×32)。对P4~P7进行相同的操作,最后将这些结果拼接起来,标记共有19 248,本数据集共有38类(包括背景),所以全部类别的置信度维度为731 424(标记个数×38);全部位置偏移维度为76 992(标记个数×4);全部掩膜的置信度维度为615 936(标记个数×32)。
同时,在模型中引入了可变形卷积[24],即采用自由形式的采样代替了传统的刚性网格采样,将ResNet C3~C5层中的各个3×3标准卷积每隔3个卷积层换成一个3×3可变形卷积。因此,相比标准卷积,可变形卷积通过学习位置偏移得到更符合待检目标形状和尺寸的采样点。在锚框策略上,本研究采用的是保持比例[1,1/2,2]不变,把FPN每一层的特征尺寸数目增加3倍。
1.3 分割结果评价指标
图像分割的评价指标是从文献检索演变而来的,将图像分割的像素点属于感兴趣区域的可能性与文本的相关性相关联,从而将文本检索中的性能评价指标应用到图像分割[25]。目标一般分为2类(正例和负例,分别用P和N表示)。模型评价指标一般由TP(true positive)、FP(false positive)、FN(false negative)及TN(true negative)4个参数表示(表2)。其中,TP表示把正例判为正例的数目,FN表示把正例判为负例的数目,FP表示把负例判为正例的数目,TN表示把负例判为负例的数目。
准确率是指判断正确的情况占所有情况的比例,其中判断正确的总共有(TP+TN)个,准确率A可通过公式(1)计算得到。精确率是指把正的预测为正的个数占所有预测为正的样本的比例。预测为正的样本总共有(TP+FP)个,精确率P可由公式(2)计算得到。召回率是指所有正样本中被预测正确的占所有正样本的比例,其中正样本预测为正的有TP个,正样本总共有(TP+FN)个。召回率R可通过公式(3)计算得到。
期刊VIP网,您身边的高端学术顾问
文章名称: 复杂背景下昆虫图像的快速分割与识别
文章地址: http://www.qikanvip.com/yuanlinxue/61204.html