来源:期刊VIP网所属分类:计算机信息管理发布时间:2021-04-06浏览:次
摘要: 为解决YOLO算法由于其端到端的网络结构导致某些尺度上的特征被淡化或丢失使识别率较低的问题,本文以葡萄为例,对可训练变换器和RdNet在果实识别网络中的应用进行研究。提出基于可训练变换器和多尺度特征图融合的改进YOLO算法,以自主设计的基于堆叠残差块和降采样块的RdNet作为特征提取网络,采用converter变换器结构进行不同尺度的特征变换融合,从采集并筛选的葡萄果园照片中,随机选取120张作为测试集,将其余照片进行数据增强,得到480张图片作为训练集,并分别对提出的模型、YOLOv3和快速区域提出卷积神经网络(faster region-convolutional neural networks,Faster R-CNN)三种算法进行训练,使用其在测试集上的F1值与AP值评估各模型的性能差异。实验结果表明,模型在测试集上的F1值可达9258%,AP值可达9233%,而在Nvidia Jetson TX2平台上,检测速度达到19 f/s,單张640×480图片的推理时间为526 ms,达到了较理想的识别准确率,且能满足采摘机器人的实时性要求。该研究在果园等场景中可以得到更好的应用效果。
关键词: 卷积神经网络; 葡萄; 目标检测; 多尺度特征; YOLO
作者简介: 崔翔宇
通信作者: 赵红
我国是农业大国,有着上百万平方公里的农业土地,但农场与果园却面临日益严重的劳动力短缺[1]。近年来,随着农业信息化与机械化的不断发展[2],果实采摘机器人[35]成为未来农业发展的一项很重要的课题。我国的葡萄果园环境较复杂,葡萄密集程度高,葡萄采摘机器人对葡萄串做出精确识别与定位的算法提出了较高的要求。针对自然环境下的葡萄串识别问题,国内外学者陆续提出基于传统机器视觉的识别方法。田锐等人[6]通过提取基于RGB空间的人工特征方法进行葡萄串识别;刘平等人[7]使用颜色空间中H分量提取轮廓与重叠边界轮廓相融合的方法,这两种方法对环境变化敏感,鲁棒性较差;罗陆峰等人[8]通过对H分量模糊聚类,提取最大连通区域的方法进行葡萄识别。此外,大多数基于传统视觉[913]的果实识别算法都存在对环境变化敏感、鲁棒性差的问题。随着计算机硬件算力的提升,传统的视觉算法由于鲁棒性差,精度低逐渐被基于深度学习算法所替代。R. Girshick等人[14]在CVPR2014上提出了R-CNN算法,并取得了较高的检测精度,但由于其候选区的生成和对每个候选区的推理,导致其训练复杂和运行缓慢,无法满足实时应用的需求。而基于R-CNN提出的一系列改进算法[1516],通过区域生成网络(region proposal network,RPN)代替传统的候选框生成方法,在速度上有了大幅提升,但在追求实时性场景下,有时仍无法满足需求;2015年提出的YOLO算法[17]及其后来改进的算法[1819],在保证较高精度的情况下,大幅提升检测速度,但由于单阶段算法结构的限制,仍不能很好的对不同尺度的特征进行提取融合。随着基于深度学习目标检测算法的兴起,越来越多的学者将其应用到果园果实识别场景中,赵德安等人[20]直接使用YOLOv3算法进行复杂背景下的果园苹果识别,但并未根据应用场景对算法做出具体的修改;王细萍等人[21]采用卷积神经网络进行苹果病害图像的识别,但这种堆叠卷积层的方法不能很好利用多层特征的关联信息;魏玮等人[22]采用残差网络[23]通过跳跃连接降低冗余特征来提高检测精度,并提高检测速度,但这种方法同时也会导致部分特征信息的丢失;肖经纬等人[24]通过压缩后的残差网络结构来提升检测速度和精度,但仍会使模型的特征表达能力有所损失。因此,本文在YOLOv3算法框架基础上,采用模块化网络结构[25]设计,对葡萄串的特性设计全新的特征提取网络和损失函数,提出一种改进的葡萄串检测算法。该算法将特征提取网络得到的不同尺度的特征图进行融合,增强模型的特征提取与处理能力,提高了模型的鲁棒性,从而提升了对果园中葡萄串的检测效果。
1网络结构设计
本文提出的葡萄检测算法由特征提取网络、特征融合网络及一些常用的后处理部分组成。其中,特征提取网络RdNet由自主设计的基本残差模块和降采样模块堆叠组成,负责从输入图像中提取不同尺度的特征;特征融合网络用于将不同尺度的特征图进行融合,以得到包含更多特征信息的特征图;后处理部分包括将特征转换为预测值的预测层以及非极大值抑制等生成预测框的常用算法。
1.1特征提取网络RdNet
为提高训练精度及网络质量,一般会采用堆叠的卷积层进行特征提取,但由于随着卷积层层数的增加,会导致网络训练时出现梯度消失和梯度爆炸的问题。本文利用残差网络中使用跳远连接来避免梯度爆炸或梯度消失的思想,通过重复堆叠自主设计的残差模块与降采样模块,设计了特征提取网络RdNet,其网络结构如图1所示。输入图像通过残差块的卷积层进行特征提取,在几个特定的位置使用降采样模块,对特征图进行尺度变换,从而提取到不同尺度的特征。在每个残差块和降采样块输出时,都使用LeakyReLU激活函数对特征激活。在特征提取网络的后半部,提取出80×60,40×30,20×15三种尺度的特征图route0、route1、route2,用于后续特征融合网络进行多尺度特征图融合。
网络子模块结构如图2所示。由图2a可以看出,本文以该残差模块作为特征提取网络的基本单元,输入特征在主路径经过三层卷积进行特征提取,该过程只改变特征的通道数,而不改变特征的尺度大小。同时,在捷径对输入特征进行一次卷积,将其变换为与主路径相同维度的输出,从而将两条路径的输出叠加再进行激活,得到残差模块的输出。
推荐阅读:机电工程技术征稿方向
期刊VIP网,您身边的高端学术顾问
文章名称: 可训练变换器和RdNet在果实识别网络中的应用
文章地址: http://www.qikanvip.com/jisuanjixinxiguanli/56813.html