无监督混阶栈式稀疏自编码器的图像分类学习

来源:期刊VIP网所属分类:计算机网络发布时间:2020-01-18浏览:

  摘 要:目前多数图像分类的方法是采用监督学习或者半监督学习对图像进行降维,然而监督学习与半监督学习需要图像携带标签信息。针对无标签图像的降维及分类问题,提出采用混阶栈式稀疏自编码器对图像进行无监督降维来实现图像的分类学习。首先,构建一个具有三个隐藏层的串行栈式自编码器网络,对栈式自编码器的每一个隐藏层单独训练,将前一个隐藏层的输出作为后一个隐藏层的输入,对图像数据进行特征提取并实现对数据的降维。其次,将训练好的栈式自编码器的第一个隐藏层和第二个隐藏层的特征进行拼接融合,形成一个包含混阶特征的矩阵。最后,使用支持向量机对降维后的图像特征进行分类,并进行精度评价。在公开的四个图像数据集上将所提方法与七个对比算法进行对比实验,实验结果表明,所提方法能够对无标签图像进行特征提取,实现图像分类学习,减少分类时间,提高图像的分类精度。

  关键词:无监督学习;栈式自编码器;降维;混阶特征;图像分类

个人电脑

  《个人电脑》(月刊)创刊于1994年,由南开大学主办,是中国第一本专业IT评测媒体,首先将“产品评测”的概念带到中国,使“评测”的科学意识和体系在神州大陆上落地生根。

  0 引言

  隨着计算机视觉应用的普及,图像分类在各领域有着广泛的应用,是人工智能领域的研究热点。目前在机器学习领域主要有监督学习、无监督学习和半监督学习三大类,其中监督学习和半监督学习处理图像需要图像携带标签信息,对无标签图像的处理是监督学习和半监督学习面临的一大难题。因而利用图像自身的特征,进行处理后分类,实现图像分类,是一种有效的方法。

  现实中很多图像都具有较高的像素,直接处理高维数据会有“维数灾难”的问题。从高维数据中提取出有用信息至关重要。当前,常用的方法是对高维数据进行降维。目前主要有两类降维方法:线性降维和非线性降维。典型的线性降维方法有主成分分析(Principal Component Analysis, PCA)[1]和线性判别分析(Linear Discriminant Analysis, LDA )[2]。常见的非线性降维算法有界标等距映射(Landmark IsomaP, LIP)算法[3]、局部线性嵌入(Locally Linear Embedding, LLE)算法[4]、扩散映射(Diffusion MaP, DMP)算法[5]、随机距离嵌入(Stochastic Proximity Embedding, SPE)算法[6]和基于神经网络的自编码器(AutoEncoder, AE)。

  自编码器是一种无监督的神经网络,该网络一般包含三个部分:输入层、隐藏层和输出层。自编码器的核心思想是通过限制输出数据与输入数据间的欧几里得距离,实现对编码权重矩阵和解码权重矩阵的调整,该方法的优点是不需要数据携带标签信息即可实现网络的训练,通过提取自编码器隐藏层的信息,解决了无标签高维数据降维问题,该过程是一种无监督降维的学习过程。近年来,众多学者把注意力放在了研究自编码网络的应用上,文献[7-9]使用自编码器对图像进行处理。在文献[7-9]的基础上,文献[10]将栈式自编码器应用于提高图像检索的效率。文献[11-13]在医学诊断方面取得了不错的成就,实现了计算机辅助诊断。上述研究均将自编码应用于单标签分类任务。除此之外,文献[14]用自编码解决多标签问题,文献[15]用多标签的方法对癌症进行基因注释,文献[16]将自编码网络应用于运动目标的检测。这些采用自编码的方法,均在其特定的应用上获得了不错的效果。

  为了解决监督学习需要数据带标签及缓解高维数据的“维数灾难”问题,本文采用无监督的混阶栈式自编码器(Mixed-Order Stacked Sparse AutoEncoder, MOSSAE)来实现对图像的特征提取与拼接融合,进行图像分类学习。具体过程如下:首先,建立一个具有三个隐藏层的串行栈式自编码器网络,采用贪婪算法逐层训练自编码器,得到每一层接近最优的自编码器网络,然后微调整个网络,使整个网络接近整体最优。网络是逐层训练,每一层都是特征的表达,并且把前一层的输出用来当作下一层的输入,所以越往后的隐藏层,其特征阶数就越高。其次,将训练好的网络的第一隐藏层和第二隐藏层的特征进行拼接融合,形成混阶特征矩阵,实现图像的特征提取。最后,使用融合得到的混阶特征矩阵,用支持向量机(Support Vector Machine, SVM)[17-18]进行分类得到分类结果,将该分类结果与原始图像的标签进行比对得到分类精度。在公开的四个图像数据集上进行实验,结果表明所提方法能够在无监督情况下有效提取图像特征,降低图像维度,得到较好的图像分类学习效果。

  1 相关工作

  假设原始高维空间图像集X={xi|i=1,2,…,N}是N个样本集合构成的矩阵,xi是m×m维的图像转成的一维向量,满足D=m×m,X是D×N维矩阵。Y={yi|i=1,2,…,N}是降维后N样本集合构成的矩阵,yi是d维向量,Y是d×N维矩阵,且dD,降维目的是得到一个从X→Y的映射关系,即Y=f(X)。基于自编码器的降维算法在图像识别与分类领域应用广泛,是一種基于无监督学习的非线性降维方法,其分类结果一般要优于线性降维方法。本文应用混阶栈式自编码器,通过该方法来实现对图像特征的提取,使用提取的混阶特征进行图像分类。分类方法采用SVM,通过分类精度和降维时间这两指标来描述降维方法的有效性。

  降维方法分为两大类:线性降维和非线性降维。主成分分析(PCA)[1]是线性降维方法,该方法通过分析计算矩阵的特征值、特征向量来实现降维的目的,PCA是将n维特征映射到k(n

  2 自编码器

  自编码器在图像分类领域具有广泛的应用,是一种无监督的学习方法,对样本的训练不需要添加特定的标签。目前常见的自编码器包括稀疏自编码器、栈式自编码器等,都是在基本的自编码器上发展得到的。

  2.1 自编码器

  自编码器是一种无监督的神经网络,其核心是让网络输出尽可能地等于或者逼近于输入,结构如图2所示。自编码器网络结构主要分为三部分:输入层、隐藏层和输出层,其中隐藏层可以单层或多层。为了使输出X′能够尽可能地逼近输入X,中间的隐藏层必须能够尽可能地保留输入层的特征。图2表明隐藏层的神经元数目要少于输入层,故利用自编码器可以有效地对高维数据进行降维。为了更好地描述自编码器网络的特点,定义目标函数为:

  J(W,b,X)=12‖hW,b(X)-X‖。假定隐藏层神经元j的激活度用j(x)来描述,假设j(x)=ρ,其中ρ为稀疏性参数,当ρ的值趋近于零时,表明该神经网络的隐藏神经元激活度低,去掉数据的冗余信息,降低数据复杂度。

期刊VIP网,您身边的高端学术顾问

文章名称: 无监督混阶栈式稀疏自编码器的图像分类学习

文章地址: http://www.qikanvip.com/jisuanjiwangluo/50213.html