来源:期刊VIP网所属分类:综合论文发布时间:2019-11-16浏览:次
摘 要:[目的/意义]对美国政府大数据互操作性框架提出的背景、具体内容和主要特点进行分析与总结,以期为我国制定大数据参考框架、促进跨界合作提供有益的参考。[方法/过程]以内容分析法和文本分析法为主要研究方法,以从美国NIST官网获得的公开政策、研究报告等作为主要数据来源,从数据层、框架层、角色层和应用层等方面分析总结美国大数据参考框架的特点。[结果/结论]分析发现:NIST构建了一个具有较强参考性与适用性的大数据概念框架,着重体现了大数据范式的前后变化并鼓励挖掘大数据应用的可能性。启示我国政府在制定大数据参考框架时,应当在理论层面达成共识的前提下,关注可参考价值与利益相关者的开发需求,同时在需求与价值之间构建起映射关系。
关键词:大数据;政府;参考框架;概念模型;利益相关者
《大数据》的办刊宗旨是“以开放、创新姿态,推动大数据技术的研究与应用,促进技术交流,推广创新成果,服务大数据社会”。
大數据已成为推动经济发展、完善社会治理、提升政府服务和监管能力的新动力和新途径。各国在积极制定和实施大数据发展战略的过程中,面临一个重要挑战就是如何处理好跨部门、跨领域的大数据管理问题从而发挥大数据的基础性和战略性价值。2016年5月,美国国家标准与技术研究院(National Institute of Standards and Technology,简称NIST)发布了大数据互操作性框架(NIST Big Data Interoperability Framework)并于2018年3月进行了更新[1],以适应新阶段的发展要求。美国的NIST大数据互操作性框架针对的是跨部门大数据管理与应用问题,本文通过分析与研究该框架,对面临同样发展困境的我国大数据发展具有一定的参考价值。
以“大数据+互操作/参考框架/参考架构/标准/概念模型”为检索关键词,笔者在中国知网检索到了87篇相关文献,在Springer、Science Direct和EBSCO检索到了323篇相关文献。通过中外对比,发现在关键词分布上国内外呈现出较为明显的区别。国内文献重点关注的是大数据指导标准的建立,譬如,肖筱华等[2]和张群[3]对当前国内大数据标准体系及标准研制情况的研究。相较而言,大数据参考架构和概念模型的研究成果不如标准多,但是也占据了较高的比例,譬如,郑大庆等综合了大数据治理的内部要素和外部应用特征构建了一个大数据治理参考框架[4]。
国外文献相较于标准制定,更偏重于对参考架构的研究,Nadal S等遵循软件工程原则细化了大数据系统的参考模型,并用它创建支持Semantic-aware大数据系统的软件参考体系架构[5]。Pkknen P等认为将Twitter、LinkedIn和Facebook等大数据开发案例的方法抽取到统一概念模型上尚且存在研究空白,因此,对已公布大数据用例实现架构进行了分析,由此提出了大数据系统的技术独立参考架构[6]。
笔者认为,国家标准和行业标准提供的是相对具体的指导,在大数据范式尚处于探索阶段时,宏观概念层次的参考架构可以为大数据领域的创新提供更多的空间,抽象化的体系也更加有利于不同技术、组织和资源的融合与交流,然而,国内对该主题的研究尚显得较为薄弱,这为本文提供了研究空间。另外,笔者未发现以NIST大数据参考性框架为研究对象的文章,因此,本文以该框架作为介绍与分析的对象,具有一定的研究意义。
本文选择美国NIST大数据互操作性框架作为研究对象的主要原因如下:
第一,该框架旨在促进政府各部门、学界与企业之间开展有效合作,所针对的问题是当前大数据发展过程中所有国家政府都需要面临的问题,大数据的概念之所以成立,在于数据通过有机、大规模集合可达成量变引起质变,该特性决定了必须进行跨部门、跨界合作,而在合作过程中的优劣互补、利益协调等问题同样困扰着我国政府部门。
第二,2016年10月,习近平在主持中央政治局第三十六次集体学习时指出:“以数据集中和共享为途径,建设全国一体化国家大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务[7]”。该指导理念与美国政府“大数据研究和发展计划”的核心原则有共通之处,都强调了对国家大数据开展工作进行集中指导与统一规划。NIST大数据互操作性框架是美国“大数据研究和发展计划”的政策产物,与我国自上而下的工作部署方向相一致,因此,可为我国的大数据战略开展提供一定的参考。
第三,该计划于2016年形成,截至目前已实施了两年多的时间,在这期间并未废止且在向第二阶段推进,可见该框架具有较强的可行性;同时,该框架还对第三阶段的工作重点提前进行了规划,对于未来大数据的趋势形成了一定的洞见,因此,也具有一定的前瞻性。
1 提出背景
1.1 大數据的潜在价值催生合作需求
早在2002年,为了对大容量的流数据进行实时数据分析,美国政府就开发大规模可拓展的集群基础设施与IBM公司展开合作[8]。由此带动IBM后续开发的IBM InfoSphere Stream和IBM Big Data等大数据产品受到了美国政府和企业的广泛欢迎。2009年,美国政府Data.gov网站开始运行,大大推动了美国的政府信息公开和数据开放。所建设的数据仓库整合了涵盖交通、经济、卫生保健、教育和人类服务等领域的数据以及多个应用的数据源[9]。
2010年,总统科学技术顾问委员会在其《设计数字化未来:联邦资助的网络和信息技术研究与开发(Designing a Digital Future:Federally Funded Research and Development in Networking and Information Technology)》报告中明确阐述了美国即将实施大数据战略。2012年,奥巴马政府启动“大数据研究和发展计划(Big Data Research and Development Initiative)”,总投资为2亿美元,计划涉及80多个合作项目,要求多个联邦部门共同参与,包括白宫科技政策办公室,国家科学基金会,国家卫生研究院,国防部,国防高级研究项目局,能源、健康和人类服务部以及美国地质调查局。该计划明确要求产业界、研究型大学和非营利组织与联邦政府合作,最大限度地利用大数据带来的机遇[10]。
由上述发展趋势及其政策要求可见,当前美国无论是政府部门、商业界,还是学术界,都已经充分认识到大数据在推动经济社会发展和增进人类福祉等方面的潜在价值。美国已从总统层面开始推动各个部门之间积极开展合作,同时,美国政府也与IBM、Aamazon、Google等公司展开合作,从技术研发、产业应用等方面共同推动大数据的发展。因此,可以说,大数据的潜在价值已促使利益相关者之间广泛构建和发展沟通。
1.2 大数据技术应用带来挑战和问题
尽管跨部门和跨界政策环境已经基本具备,但是在具体的实施过程中却面临着诸多问题与挑战,主要表现为两个方面:一是在大数据的几大关键问题上尚未达成共识。NIST大数据公共工作小组(Big Data Public Working Group,NBD-PWG)认为,未达成共识的问题包括:1)哪些属性可以用来界定大数据解决方案;2)大数据与传统数据环境的应用流程有何区别;3)大数据环境的基本特征是什么;4)新环境如何与当前部署的体系结构进行集成;5)为加速部署强大的大数据解决方案,需要解决哪些核心科学、技术和标准化问题带来的挑战。
二是尚未形成足够的大数据应用能力[11]。美国白宫科技政策办公室前主任霍尔德伦(John P Holdren)认为:美国拥有大量善于生成数据的机构,但作为一个国家,还没有充分发挥我们的能力来共享潜在竞争资源、协作分析与分享经验[12]。不同于其他物质型的国家资产,他们所对应的实现场景和所具备的价值是清晰可见的,大数据属于信息导向型资产,需要多元化的利益主体共同参与,通过持续的试验与探索才可以发现其潜在的应用价值,因此,需要足够的协作经验与顶层指导为大数据战略的开展保驾护航。
根据2012年“大数据研究和发展计划”要求,NIST开始着手制定大数据互操作性框架,以促进大数据有关专业力量间的合作,进一步确保大数据的安全和有效应用。2013年1月15~17日,NIST举办了“云与大数据论坛”,专门成立了大数据公共工作组负责开发大数据互操作性框架。2016年5月11日,NIST正式发布了大数据互操作性框架1.0版本,将美国的大数据发展分为3个阶段,不同阶段的工作任务对应参考框架的特定环节。2018年3月23日,NIST又对大数据互操作性框架进行了更新,明确指出当前美国大数据的发展已步入第二阶段[13]。
2 核心概念界定
要在大数据关键领域达成共识,确保利益相关者合作项目的顺利开展,必然要进行核心概念的界定。因此,该框架的目标之一是形成基于共识的理论范式,为实际操作的交流消除误区,同时也促进对大数据技术有更深刻的理解与认知,扩大其影响力。
尽管大数据具有很多特征,但是大体量(Volume)、多样性(Variety)、时效性(Velocity)和可变性(Variability)的“4V”特征真正推动了新型数据密集型并行架构的产生,并且决定了对大数据系统的整体设计和大数据生命周期模型的构建。基于大数据的“4V”特征,NIST将大数据界定为:“大数据由大量数据集组成,主要集中在数量、种类、速度和/或可变性等特征上,这些数据集通过建设可扩展架构可实现高效的存储、操作和分析。”
值得注意的是,NIST在概念界定中强调了各个特征之间的相互作用关系,同时重点关注了为了满足所需性能和成本效率需求可以使系统架构变得可扩展。“系统架构可拓展”通常被描述为垂直或水平拓展两种思路,垂直拓展意味着增加处理速度、存储和内存的系统参数,以获得更高的性能。这种方法受到物理能力的限制,其改进需要引入更复杂的元素(例如,硬件和软件),无疑会增加现实过程中的时间和经济成本。另一种方法是使用水平扩展,即利用集成的分布式单个资源作为单个系统,而这种横向扩展才是大数据革命的核心。同时,NIST也将与大数据系统设计相关的子概念进行了界定,譬如,大数据范例(Big Data Paradigm)包括跨水平耦合的独立资源分布数据系统,旨在提供有效处理大量数据集所需的可扩展性[14]。
期刊VIP网,您身边的高端学术顾问
文章名称: 美国政府NIST大数据互操作性框架的特点研究及启示
文章地址: http://www.qikanvip.com/lunwen/zonghelunwen/2019/1116/49390.html