深度学习的情感分类技术在高校舆情分析中的应用研究

来源:期刊VIP网所属分类:综合论文发布时间:2021-11-12浏览:

  摘 要:传统机器学习的自然语言处理系统特别依赖人工手动标记的特征,极其耗时且容易出现维度爆炸等难以解决的问题。本文采用基于卷积神经网络(CNN)的深度学习技术来解决这一问题。通过收集校园热点话题进行预处理以及运用Word2vec模型生成词向量后,运用卷积神经网络提取其中的特征并进行情感倾向分类。通过实验数据的比较,基于卷积神经网络(CNN)的情感倾向分类获得了89.76%的准确率,较传统的支持向量机(SVM)提高了7.3%,获得更好的分类性能。本文的研究对高校治理能力和治理体系现代化建设具有积极作用。

  关键词:自然语言处理;卷积神经网络;情感倾向分析;舆情分析

  1 引言(Introduction)

  隨着信息技术的迅速发展和自媒体的普及,网络对大学生的思维方式、思想观念、人际交往和学习生活产生了深刻影响,各个高校校园文化的展示不再局限于校园内部,各种虚拟网络平台也成为校园文化交流和展示的平台。借助自媒体平台,学生们可以随时随地在社交网络上发表自己的观点和见解,而且这些观点和见解往往是带有明显的情感倾向的,在一定程度上,这些正面或负面的高校网络舆情也客观地反映出校园文化的健康程度。如何在海量的数据中捕获到用户的情感倾向信息,挖掘出带有情绪和喜恶的主观信息,是情感倾向分类要做的主要工作。情感倾向分类可以对文本所表达的带有主观情感色彩的信息进行处理、挖掘,并分析其中包含的积极或消极信息,通过判断信息的情绪极性进行舆情态势感知和预警,有助于对极端情绪的检测与控制。总之,在现代高校管理中,充分挖掘师生对热点舆情事件的情感倾向,分析其所表达价值取向或者事件产生的深层次原因,对开展校园网络舆情研究和进行有针对性的学生思想引导工作是至关重要的,对推动网络空间的科学治理也起到促进作用。

  2 基于深度学习的高校网络舆情分析系统(University network public opinion analysis system based on deep learning)

  情感分类算法研究是网络舆情分析的一个重要研究领域,对于舆情分析有着重要的意义。近年来,国内高校网络舆情突发事件频繁发生,比如2020 年的“山西作弊大学生坠亡”“疫情期间高校施行‘相对封闭式管理’”等。这些事件所爆发出的网络舆论给相关高校造成了极大的困扰。因此,在网络空间科学治理工程的背景下,分析和研究高校网络舆情发展和传播规律,探索如何在高校师生中开展有效的网络舆情管理和引导已成为需要深入研究思考的问题。作为高校,面对现下日益复杂以及多元化的网络环境,要做好网络舆情的预警工作,运用计算机辅助技术实时收集网络舆情数据,对其中的热点话题数据进行分析研判,精确地发现引发舆情危机的节点,在短时间内制定有针对性的处置策略,不给舆情危机发酵的时间和空间[1]。因此,若能对网络热点话题或事件进行搜索和分析,并总结出其中正面信息和负面信息的比例,进而对一些学生关注度高的问题及时进行解决以及疏导,这对于完善高校治理无疑是非常有用的。

  在国内,基于深度学习的文本情感分类研究起步较晚,但发展迅猛,目前已经有很多研究成果涌现出来。刘龙飞等人[2]使用CNN方法对微博文本的情感进行研究,其中原始特征由字向量与词向量同时构成,在COAE2014上取得不错的效果。刘智鹏等人[3]构造與设计了CNN与RNN模型,并进行了有效的融合,利用各自对短文本的处理优势进行商品的评价分类,获得了较好的文本情感识别性能。周锦峰等人[4]通过堆叠多个卷积层,提取不同窗口的局部语义特征以及基于全局最大池化层构建分类模块,获得了较快的文本情感分类速度。蔡庆平等人[5]设计了基于Word2vec和CNN的产品评论细粒度情感分析模型,有效地发现用户对产品特征的关注度和满意度。

  本文运用基于深度学习的情感分析技术手段,分析和研判网络中高校热点话题评论中所蕴含的情感倾向信息,并进行网络舆情监测。网络舆情分析分为舆情信息采集、文本数据预处理、词向量化、舆情数据学习及分析、舆情预警(结果可视化)五个步骤。首先利用网络爬虫技术完成数据的收集;接着对数据进行中文分词、去停用词操作,保留语句中的关键信息;再运用词向量工具将词转换成词向量,以便可以被卷积神经网络学习,通过网络的学习,提取其中的特征,最终可被用于情感极向的分类,如图1所示。可视化模块则用于显示分类结果,负面评论达到一定比例时,需要对相关问题进行疏导。

  2.1 数据采集模块

  为了能够快速地获取最新的网络舆情数据,本文利用分布式网络爬虫对指定网站进行数据爬取,简单清洗之后,作为系统实验数据来源。首先将数据收集任务分解成多个子任务,分配给多个爬虫线程来共同完成;接着通过向网站的服务器发送请求,获取网页源代码并进行数据清洗、去重去噪,将一些标签、CSS代码内容、空格字符、脚本标签等内容处理掉,使冗余的网页数据变得结构清晰[6];最终将这些信息存储为纯文本数据,为接下来的数据处理和分析提供基础。

  2.2 数据预处理

  通过网络爬虫获取的纯文本数据需要转化为适合于表示和分类的干净的词序列。由于中文句子中的词语之间没有明确的分隔符且存在一定的噪音信息,因此在预处理阶段要对句子进行分词、去除停用词等操作。

  (1)分词。中文分词是文本处理的一个基础步骤,由于中文句子不像英文句子那样词与词之间有明显的分隔符,因此需要利用中文分词技术将词语切分开。成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文句子。本文采用基于词典分词的jieba分词器,它运用有向无环图的查找算法,通过动态规划,从后至前使得词的切割组合联合概率最大。对于不在词典里的词再使用HMM算法来进行二次分词,采用分词中的序列标注方法,使用模型识别词每个位置的状态值[7]。

  (2)去停用词。通过分词可以把句子分出很多词语,但是其中有些词未包含实际含义,如“的”“了”“着”等,还有一些英文字符、数字、标点符号等。这些词普遍存在,又未包含具体含义,同时记录它们需要较大的空间。本文根据网上现有资源,对“哈工大停用词词库”“百度停用词表”等多种停用词表合并整理后,生成了一个共有1,598 个停用词的停用词表。在分词过程中,判断得到的每个中文词是否是停用词,如果是停用词则直接删除,以便降低特征的维度,提高关键词密度。

  2.3 文本的分布式表示

  预处理后的文本是一种计算机无法直接处理的非结构化数据,需要转换成结构化数据——向量。本文采用Word2vec词向量工具将文本转换成词向量,以便于网络学习。Word2vec是MIKOLOV等人[8]提出来的一种文本分布式表示方法,由此词嵌入的思想开始应用到自然处理的领域。它是一款将词表征为实数值向量的高效工具,背后的模型是CBOW或者Skip-gram,使用了Hierarchical Softmax或者Negative Sampling的优化方法[9]。Word2vec能够将每个词映射成一个K维的实数向量,精确地度量词与词之间的关系,挖掘词与词之间的联系。

  本次实验采用CBOW模型进行词向量表示,通过输入特征词的上下文相关词对应的词向量来预测输出特征词的词向量。用CBOW模型训练词向量,首先需要根据语料建立一张词汇表,并给表中的每个词语生成随机的词向量;然后将特定词的上下文词向量输入CBOW,再由隐含层进行累加,到第三层中的哈夫曼树,沿着特定的路径到达叶子节点,从而完成对特定词语的预测,训练结束后就可以从词汇表中得到每一个词语所对应的词向量。

  2.4 深度学习情感分类模型

  本文采用卷积神经网络模型来解决中文情感倾向分析问题,将由Word2vec转化后的词向量矩阵作为卷积神经网络的输入;然后通过卷积层进行特征提取,再用最大池化法降低每条评论特征向量的维度;最后在全连接层由ReLU函数做出分类输出,将评论信息分成积极和消极两种。卷积神经网络是一种多层的监督学习神经网络,由输入层(Input Layer)、卷积层(Convolution Layer)、池化层(Pooling Layer)、全连接层(Fully Connected Layer)和输出层(Output Layer)组成,其中卷积层和池化层是实现特征提取功能的核心模块,结构如图2所示。

  卷积层:在第一层卷积层中对输入的词向量矩阵进行卷积运算后,可以得到对应的特征图。卷积运算使原信号特征增强的同时,还可以降低噪音,提取输入样本中的不同特征。同时,一个卷积层中可以有多个不同的卷积核,每一个卷积核都对应一个特征图,如图3所示。

  池化层:经过卷积运算后的特征矩阵尺寸往往比较大,运用池化(Pooling)操作可以减小卷积层产生的词向量矩阵的维度,使得参数的数量和计算量下降。本实验采用最大池化法来降维,将卷积运算后的特征矩阵划分为若干个矩形区域,输出每个子区域最大值,减小数据的空间大小,如图4所示。通过降低特征矩阵的维度,使得特征表示对输入词向量的位置变化具有更好的稳健性,还在一定程度上预防过拟合。

期刊VIP网,您身边的高端学术顾问

文章名称: 深度学习的情感分类技术在高校舆情分析中的应用研究

文章地址: http://www.qikanvip.com/lunwen/zonghelunwen/2021/1112/60294.html