来源:期刊VIP网所属分类:期刊常识发布时间:2021-02-09浏览:次
[摘 要]大数据和大数据技术推动下,智能文献采访将成为图书馆文献采访的发展方向和趋势。结合大数据技术和图书馆文献采访的业务工作,研究文献采访大数据的组成和相互关系,探索基于大数据技术的智能文献采访模式及具体方法。同时,指出实现文献智能采访需要培育的几个方面的内容。
[关键词]大数据;大数据技术;智能文献采访;模式
基于云计算机、物联网等基础的大数据技术发展和应用逐渐深入到各行业。大数据所涉及的信息量规模巨大,在合理时间内达到撷取、管理、处理、整理成类并能够解读的数据资讯,根据应用动态分配资源。大数据及其相关技术,让图书馆、读者、供应商和大数据企业间的智能文献采访成为可能[1]。利用大数据及其技术,能方便获取读者阅读需求、供应商、出版商以及网络信息数据来智能分析、管理和预测读者需求、文献动态和采访细节,并以智能虚拟化的方式为图书馆采访员、读者用户间构建实现智能文献采访,从而提高采访的质量、准确性,降低采购成本、管理成本,提升文献采访效率。
1 大数据、大数据技术概述
大数据(Bib Data)是指所涉及的规模巨大的数据,于2011年由麦肯锡提出。大数据是无法用现有软件工具提取、存储、搜索、共享、分析和处理的、海量的、复杂的数据集合,是需要使用新的处理模式才能具有更强的决策力、洞察力、优化能力的海量资产。大数据基本包括大交易数据、大交互数据。大交易数据是指财务数据、用户数据、经销商数据、员工数据等。大交互数据是指微博、微聊天数据、移动终端数据、地理位置等数据。这两部分数据共同融合成为全面大数据。2012年美国启动大数据研究,随后日本、欧盟、法国、澳大利亚陆续进行大数据研究。2013年我国启动大数据建设,至2015年越来越多的政府和企业建立大数据产业园和创业平台。如百度、淘宝、京东等企业建立了商品大数据[2]。
大数据具有“4V”特征,即数据巨大、数据类型多样、处理速度快、价值密度低。大数据是动态的、开放性的、多样化的。随着海量的大数据产生,对数据处理的实时性、有效性提出了更高要求。然而传统的常规技术手段根本无法应付。在这种情况下,大数据技术应运而生。这些技术主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。NoSQL数据库技术主要实现搜索、实时统计分析、简单事务等[2]。Hadoop数据分析技术主要实现用户积累、数据整合和分析处理等方位的服务。随着数据挖掘技术、聚类分析、可视分析、预测分析和数据管理等大数据技术的不断发展和完善,逐渐实现数据的多维度采集、整理、分析、预测和管理信息源,挖掘出有价值的信息及隐藏在数据背后的信息,进而揭示事物的本质及其发展规律。
2 大数据技术给文献采访带来的影响
随着人工智能、专家系统技术、云计算、大数据、物联网等的发展应用,智能采购系统的数据挖掘、预测、分析等技术已取得重大进展。大数据驱动采购变革已开始,不断把数据拿出来分析和关联,进行合理的预测和数据推送。已有人尝试将部分技术运用于图书馆文献采访工作的理论与实践。随着大数据技术进一步完善,为智能文献采访实现提供技术支持,这也是人工智能整体发展的必然趋势。大数据技术支持下,智能文献采访不再高度依赖采购员的主观经验,而是根据大数据挖掘、个性化文献需求,自动生成采购推荐清单,高度智能地完成文献采访工作。智能文献采访系统通过对读者用户各方面数据、馆藏数据、书目数据、文献价值、经费分配、风险等等进行全面分析、比较、判断、评价,最后做出科学的文献采访。同时,通过挖掘数据价值、发现规律和知识为文献采访决策和优化提供有利依据,指导文献采访和管理的改进,最终改善文献采访的运营,实现便捷、高效及环保的文献采购[3—4]。
3 文献采访大数据的构成
在大数据技术和环境下,联系文献采访业务技术流程,可将文献采访大数据分为读者数据、图书馆数据、供应商数据、企业大数据四个部分[1]。
3.1 读者数据
读者数据分为读者用户身份数据和读者交互数据。读者交互数据是指读者的行为数据,主要是指读者点击、浏览、停留记录、检索、阅读、借阅、购买等信息数据,也包含读者与供应商和其他网络平台进行沟通联系产生的一切数据。读者身份数据是用于在大数据间进行沟通的数据,如身份信息。
3.2 图书馆数据
图书馆数据是指馆藏文献数据、采访员数据、读者基本信息。该数据也存在读者用户访问图书馆网站、微信、微博等信息的读者交互数据。
3.3 供应商数据
供应商数据是指文献资源数据、读者交互数据。文献资源数据主要是文献出版信息、文献采购信息、采购交易等数据。这里的读者交互数据是指读者参与图书供应商浏览、自主采购或推荐等信息。
3.4 企业大数据
企业大数据是指图书馆、供应商、读者共同依靠的互联企业所提供的有关文献资源、大众读者以及阅读、交易等信息。如百度、腾讯、阿里开放数据库等。企业大数据是最广泛数据,也是文献采访挖掘、预测、精确采购的数据集合。文献采访大数据相互间的结构关系如图1所示。
4 基于大数据库技术的智能文献采访模式分析
4.1 文献采访数据的收集
在大数据环境下,通过大数据搜集读者信息,利用大数据准确了解每位读者的文献需求。这些读者数据的搜集主要通过图书馆、供应商和大数据企业,还包括通过进行数据分析后获得的决策数据。供应商开放的文献采访平台拥有文献资源数据。企业大数据依靠的是互联网企业所提供的有关文献资源、大众读者以及阅读、交易等信息。这些数据为供应商营销和图书馆文献采访提供参考、预测数据。接下来需要将这些数据进行整合。其具体办法可找到一关键字段把两个或多个数据进行连接,如读者通过身份证号码在图书馆网站、供应商平台和互联网大数据企业间进行连接。通过这种方式,可以对读者的基本资料、行业特征和交易记录形成全方面了解。整理完读者数据之后按一定的逻辑给读者打标签。如这个读者最近经常浏览孕妇服装、奶粉,可以给读者打上“孕妇”标签。通過读者数据来全方位地了解读者,以便为下一步精准文献采访奠定基础。当这些读者数据越来越大,企业就将这些读者数据进行存放,为文献采访、供应商的销售提供科学、智能的预测。同时,图书馆馆藏种类、数量和结构等通过图书馆采访系统与供应商开放平台互通连接[5]。
推荐阅读:大数据挖掘的论文投刊指导
《基于大数据技术的智能文献采访模式探析》内容如果没能解决您的问题,可免费咨询在线学术顾问获取解答。
本文由期刊VIP网编辑首发,您身边的高端学术顾问
文章名称: 基于大数据技术的智能文献采访模式探析
文章地址: http://www.qikanvip.com/write/55587.html