融合区块链技术的机构知识库科学数据监护模型研究

来源:期刊VIP网所属分类:综合论文发布时间:2020-07-21浏览:

  摘 要:[目的]建设可长期使用和保存的数据监护平台是开展科研数据监护服务的核心环节和关键。[方法]文章针对机构知识库科学数据监护平台存在的数据规范性、可信任度、安全性和隐私问题,利用区块链技术的安全、公正和去中心化等特性,提出融入区块链技术的机构知识库科学数据监护模型。[结果/结论]本模型能够实现机构知识库科学数据监护的基本功能,保障数据存储的安全,提高科学数据共享的效率、利用率和知识产权保护力度。

  关键词:区块链;机构知识库;数据监护;科学数据;数据管理

大数据论文

  20世纪90年代开始,开放获取运动(Open Access,OA)在图书情报、编辑出版和新闻传播领域快速兴起[1]。这种旨在消除科学数据间的价格壁垒和许可壁垒,促进科学数据共享和广泛使用的倡议很快获得了广泛关注。在开放获取理念的倡导下,国内外的高校和科研机构纷纷将机构知识库的建设作为其科研信息服务的重点。设立机构知识库的初衷主要是为实现两点:其一是实现机构知识库中科研成果的开放获取,打破传统的数据共享壁垒,促进知识的交流和再生产;其二是可以长期保存建设机构的科研成果,提升机构的学术影响力和成果展示度,彰显机构的学术声望、学术水平和社会价值[2]。

  机构知识库在被提出来后发展迅速,但是在广泛关注和快速发展的背后,机构知识库的建设和应用也遇到了一些问题:一方面,承担机构知识库建设的高校和科研机构容易受制于自身知识资源储备、专业人才储备和资金及技术上的制约,服务范围面向单一机构本身容易限制机构知识库的可持续发展;另一方面机构知识库与传统的学科库相比,用户认知度和用户参与度都并不理想,这主要是由于机构知识库定位模糊而且服务理念尚不完善所致。针对这两方面问题,需要由图书馆员通过协助学者完善数据和元数据来促进共享,积极帮助形成向各自领域的学科库发布数据成果,建设可长期使用和保存的数据监护平台[3]。

  当前数据监护平台在数据组织的持续性和可扩展性方面存在不足,存储数据遭到破坏、更改、泄露或丢失风险[4],数据内容揭示与服务方式深读不够[5],数据的异构性与数据格式标准化技术之间矛盾突出[6]等多种悬而未决的实际问题,方兴未艾的区块链技术则因其安全、公正、去中心化等特性为以上问题提供了一个可能的解决方案。本文尝试将双链式区块链技术的相关思想融合到数据监护服务中,并提出相应的模型架构,以此为未来的数据监护服务开展提供思路。

  1 区块链技术理论基础及构建机构知识库科学数据监护模型的可行性

  1.1 区块链技术理论基础

  区块链(Blockchain)是由多个独立节点参与的分布式数据库系统,也可理解为由这些独立节点共同维护的分布式账簿(DLT,Distributed Ledger Technology),这是一种基于去中心化、去信任思想的数据记录方式。由此延伸可知区块链技术是一种不依赖任何第三方、通过自身分布式节点进行数据交互、验证、存储的技术方案[7]。

  区块链技术之所以备受瞩目,很大程度上是因为这种技术方案从根本上改变了人们的信任模式。传统的信息交流和价值交换过程必须通过中介进行,中介作为信息交流和价值交换中的第三方,为网络中互不信任的各个节点搭建桥梁,信息和价值被集中至中心节点,再由中心節点甄别后分配给目标节点。这种中心化的组织形式为信息和价值的交流活动增加了成本、降低了效率,且中心节点一旦遭受攻击,就将会威胁到整个网络的安全。而区块链技术则提供了一种无需信任单个节点,并能创建共识网络的方法解决了点对点通信中的基本问题,即拜占庭将军问题(Byzantine Failures)。

  区块链的工作原理(见图1)是将数据分成不同的区块(Block),每个区块的块身(Body)存储项目(Item),块头(Header)包含对前一区块的块头进行哈希函数(Hash Function)计算所得到的哈希值,各个区块之间都由其块头的哈希值与先前的区块紧密相连成为一个链条(Chain)[8]。

  图1 区块链工作原理示意图

  这种块链结构是完全时序的,每一个区块在创建之时都会被赋予一个无法篡改和伪造的时间戳,这使得整个数据库拥有可回溯的完整历史;网络中的每个节点独立作业,它们享有同样的权利和义务,这保证了网络中绝不存在有特殊权力的中心节点,真正实现了去中心化;整个网络中的所有数据都是开放的,所有节点都存储着相同的信息,同时它们也在监督和验证其他节点所存储信息的可靠性,并通过投票形成共识网络,当网络中少于1/3的节点恶意作弊或遭到攻击时,系统仍然可以正常工作,这种分布式记录、传播和存储技术为网络构建了高容错的安全环境。区块链技术的上述关键要素和特性使得它在数字货币和金融领域异彩纷呈,而在本文着重探讨的科学数据监护服务领域,区块链的上述特性也能够帮助解决科学数据的组织、共享、保存、增值以及涉及知识产权保护和信息安全的相关问题。

  1.2 区块链技术构建机构知识库科学数据监护模型的可行性

  目前,机构数据库建设成为高校图书馆管理和服务模式创新的重要领域,功能完备的机构知识库可以不断扩展图书馆资源,提供专业的科学数据管理和知识共享服务。运用机构知识库进行数据监护在取得明显成绩的同时也存在很多问题。主要体现在各部门、各科研人员所提交的科学数据组织规范性不够,数据提交质量参差不齐[9],科学数据间互联互通困难,信息共享和协同困难;存在中心化困扰,大多数机构知识库由单一机构中心化管理,若数据被篡改,用户无法验证真实性[10];缺乏对数据内容深度标引,无法为科学研究者提供一站式检索服务;知识库建设和管理过程中,存在安全性和隐私问题,知识产权问题亟需得到保障[11]。

  区块链技术对解决机构数据库中存在的问题具有可行性。作为由多个独立节点参与的分布式数据库系统,区块链本身就是一种数据库技术,它的应用、存储对象和技术要素本身与机构知识库就是相同的。科学数据具有数据的生命周期,区块链技术的时间链特性也完全匹配这一期望,可见用区块链技术解决机构知识库科学数据监护中存在的问题是完全可行的[12]。

  融合区块链技术构建机构知识库科学数据监护模型具有以下优势。一是区块链去中心化的特点,能够使构建的机构知识库平台更具安全性和可信任度,使收集的科研数据更加准确规范。二是区块链技术中的分布式账本、块链式数据结构、非对称性加密算法和智能合约的技术,能保证机构数据库中的科学数据不可篡改,为保障机构数据库中的数据存储安全提供保障。三是区块链技术的去中心化,使得网络中的信息传播速度和资源利用效率大大提高,可以为用户一站式检索和使用提供极大方便。四是运用区块链中的全民记账和非对称加密算法,可以对上传科学数据的用户提供知识产权保护,只有得到用户提供者解密许可才能下载使用信息,数据安全性和隐私问题能够得到解决。因此,下文就结合区块链的基本思想对机构知识库科学数据监护模型的功能需求及工作原理进行阐述。

  2 科学数据监护模型的功能需求

  以机构知识库为基础的科学数据监护服务需要按照特定的目标、遵循特定的流程、设置相应的功能,再根据功能需求设定功能模块和层次架构,并进一步阐述模型的工作原理和过程。

  一个完整的科学数据监护平台应涉及数据生命周期的各个环节,涵盖从数据产生之初到数据存储、数据利用的循环过程。英国数据监护中心(DCC,Digital Curation Centre)提出的数据监护模型从全局上将数据生命周期划分为4个阶段,分别为信息描述和表示、数据保存计划、组织观察和参与、数据监护和保存;并提出了数据监护服务的一般工作和具体工作,涉及数据生产、数据组织、数据共享、数据存储等多个环节,其服务范围遍及从科研项目构思到科研成果利用的整个循环过程[13]。

  参照DCC的流程划分和功能设定,本文将科学数据监护划分为数据采集与评价、数据组织与处理、数据存储与发布、数据共享与利用四大基本功能,其中的每一项都可以进一步详细划分为几个相互关联的具体功能,融合双链式区块链技术的相关原理,将能够实现特定功能的基本模块按照工作流程有机整合,即可获得整体的科学数据监护模型。本文所构建的科学数据监护模型拟具备的具体功能如表1所示。

  3 融合区块链技术的科学数据监护模型的构建及功能阐述

  服务项目,它会在其原有的服务理念范畴内不断融合新的技术,以实现对科学数据更好地保存、共享和增值。以上四大基本功能和15种具体功能,需要依靠融合了各种技术的不同功能模块加以实现,其中许多环节在现实中已经有较为成功的实践案例。因而本文在之后的模型构建环节,将着重从总体上阐释双链式区块链技术在面向机构知识库或机构知识库联盟的科学数据监护服务中的作用方式,较大程度上保持科学数据监护平台在具体功能选择上的灵活性和可扩展性。

  推荐阅读:大数据挖掘的论文投刊指导

期刊VIP网,您身边的高端学术顾问

文章名称: 融合区块链技术的机构知识库科学数据监护模型研究

文章地址: http://www.qikanvip.com/lunwen/zonghelunwen/2020/0721/52481.html