一种改进的大数据流通共享安全方案

来源:期刊VIP网所属分类:综合论文发布时间:2021-01-22浏览:

  摘 要:在大数据的整个生命周期中,针对数据流通共享的过程,已经有了一些安全技术进行保障,如数据加密技术、数据脱敏技术。但是,由于数据的提供方和使用方通常并不在同一系统中进行管理,存在数据资产跨域流通的情况。如何对跨域流通共享的数据资产进行确权,并对数据发生安全事件时进行泄露溯源,是大数据流通共享过程中亟需解决的安全问题。文章通过将数据加密技术、数据脱敏技术、数字水印技术和区块链技术等进行结合,提出了一种体系化的安全的改进方案,能够解决在数据跨域传输后,确保数据被安全合规的使用。

  关键词:大数据;区块链;数据流通共享;模糊哈希;数据确权

大数据论文

  1 引言

  大数据时代背景下,由于供需方所有的数据资源的不均衡、数据算力的差异性,为减少数据孤岛现象,将数据转化为知识和价值,实现业务创新和增值,需要进行各方数据的流通和共享。但在此过程中,由于数据安全相关的法律法规的不健全[1]、企业数据安全风险意识缺乏和数据安全技术能力的不足,使得在进行政府与政府之间、政府与企业之间、企业与企业之间的数据流通和共享过程中,可能发生数据泄漏、数据窃取和滥用等问题,危害了国家社会利益,侵犯了公民隐私[2,3]。

  为从技术层面上保障数据安全的流通和共享,促进大数据的合法合规使用,减少数据安全事件发生,传统的数据脱敏和加解密技术的应用,能够在防止敏感信息泄漏和数据窃取方面起到一定作用[4,5],但并不能防止数据滥用和非法传播。通过引入数字水印技术,配合区块链建设可信任的使用网络,形成体系化的数据安全解决方案,可明显地保障数据的安全流通和共享。

  2 大数据流通共享现状

  2.1 大数据流通共享定义

  大数据流通共享是指将企业、政府等信息系统中存储的大数据作为流通和共享对象,按照数据供需各方约定的规则、协议等,将数据从数据所有方向数据需求方提供分析使用的过程[6]。数据的流通共享可使数据脱离数据所有方,从其原有场景中进入一个目的性更强的应用场景,实现数据价值的变现。因此,数据的流通共享是创造数据价值关键的一环,它通过变更数据原有的使用场景和使用目的,将数据从产生端转移到使用端,实现了数据资源的优化和数据价值的释放。

  2.2 大数据流通共享方式

  本文定义的流通共享分为原始数据和结果数据的流通共享。设有数据提供方S和数据需求方A、B、C,如圖1所示。S从本地数据仓库抽取数据并传至A、B、C对应的数据服务器DB-Sa、DB-Sb、DB-Sc中。

  方式一:S对A通过直接存储对接的形式提供原始数据,如通过FTP、HDFS,将原始数据从DB-Sa传输至DB-A。在此种方式下,数据通常以离线或批量的文件形式进行传输,有时也可以是库对库的直接同步传输。

  方式二:S对B提供数据资源目录,如数据开放平台,B通过登录访问S的数据开放平台,选择所需的原始数据资源,并进行访问获取至DB-B。B获取原始数据的方式可能是离线文件的形式,如CSV、XLS等文件,也可能是API调用的形式,查询单条数据结果。

  方式三:S对C不直接提供原始数据的传输,而是在内部提供数据分析平台,由C通过数据分析平台在S所控制的区域内,完成数据分析任务后,将分析结果取回至DB-C。

  在三种数据流通方式中,方式三为结果数据的流通。对于结果数据,一般认为已脱离了原始数据所具有的表现形式,并且对特定数据需求方和特定应用具有针对性,因此从数据资产的所有权上来讲,结果数据的所有权应属于数据使用方。而方式一和方式二的情况,流通的数据为原始数据,数据的所有权属于数据提供方。

  2.3 存在的安全性问题

  由于数据资产不同于其他实物资产,存在易于复制、易于传播、易于加工等特性,从而造成了原始数据在流通共享过程中出现一些安全问题,包括数据资产确权的问题和数据泄露后溯源的问题。

  (1)数据资产确权问题:由于数据采集源丰富、易于编辑的原因,使得在流通共享后无法清晰分辨数据的所有权。如S将其所有的原始数据传输给A后,A可以否认原始数据来自S。即使S的本地留存有数据传输的日志,但是中心化的记录存在被S修改的可能,因此无法从完全合规的层面确认数据资产的所有权。

  (2)数据泄露溯源问题:按照供需双方的协议约定,数据应当限制在一定范围内使用,并保证被有限次使用。但由于无法对需求方的使用进行安全管控,因此可能存在数据被二次售卖的情况。如A可以违背协议,将S的数据转售给其他厂商,造成数据无法追溯。

  针对上述问题,闫树[7]等人提出将区块链技术应用于数据共享,王海龙[8]等人也给出了一种基于区块链的大数据确权方案,通过利用区块链的防篡改特性,实现数据流通记录的可信存证。吴健[9]等人提出通过结合区块链和数字水印技术,实现了一种在版权保护场景下的应用。但是,上述方案都是基于数据的强密码哈希的一致性保证的,一旦链下的数据发生微小改变,如增删部分内容的情况,则由于哈希值的变化将造成方案中链上链下无法对数据进行追溯和确权的现象。

  3 改进的流通共享方案

  3.1 模糊哈希

  模糊哈希算法[10,11]是一种基于数据内容的分片哈希算法(Context Trigger Piecewise Hash,CTPH),算法涉及到一个弱哈希算法和一个强哈希算法。弱哈希算法主要用于基于数据内容计算分片的大小,然后由强哈希算法对指定分片的内容进行计算,再将每片数据内容的哈希值中的部分数据拼接后,与分片大小等条件共同构成最终结果。本方案使用模糊哈希的一种实现—Ssdeep用于哈希值的计算和相似度判断,表1为对含有10000条数据记录的文件,分别进行了以100条记录为单位的顺序改变、记录增加和记录删除的情况下与原始数据进行相似度对比的结果。

  推荐阅读:大数据时代金华市区域科技资源共享的路径与实践

期刊VIP网,您身边的高端学术顾问

文章名称: 一种改进的大数据流通共享安全方案

文章地址: http://www.qikanvip.com/lunwen/zonghelunwen/2021/0122/55244.html