您好,欢迎来到飒榕旅游知识分享网。
搜索
您的当前位置:首页大数据共享平台的系统架构与建设思路

大数据共享平台的系统架构与建设思路

来源:飒榕旅游知识分享网
数字图书馆-技带平台 大数据共享平台的系统架构与建设思路 鲁 焱(辽宁科技大学) 摘要:从大数据共享平台的特性入手,分析其系统结构与现阶段我国的建设思路。研究提出:①大数据共享 平台具有应用导向、双向开放、零边际成本、技术包容和主导5个特性;②大数据共享平台是由管理运营 系统、数据资源平台和数据应用平台等三大板块构成的无边界虚拟平台体系;⑧现阶段我国建设大数据共享平 台适合采取牵引社会资本、推进资源共享、建立利益交换机制、借助产学研一体化、完善保障等思路。 关键词:大数据共享平台;特性;体系架构;建设思路 中图分类号:G250.73 文献标志码:A 文章编号:1005—8214(2017)04—0o86—05 Study on the System Structure and Construction Thinking of Big Data Public Platform LuYan Abstract:By exploring the characteristics of science and technologies big data public platform,this study analyzes the systematic structure and provides the construction implications of big data public platform.The research ifndings include:①the big data pub- lic platform is characterized by appIication—odented,two-way open,marginal cost flee,technology collected,and govem- ment-driven;②the big data public platform is a unbounded virtual platform system,structured by three modules,consisting of managerial operation system,data resource platform and data application platform;( the construction implications of big data public platform in current China are comprised of the social capital—pull,the resource sharing promotion,the benefit exchange mechanism building,Enterprise-University-Research institute integration,and policy safeguard improvement. Key word:Big Data Public Platform;Characteristics;Systematic Stucture;Constrruction Implications 当前,大数据共享的意义正在得到广泛关注。 2012年欧盟建立开放数据平台保证公众自由获取创 个角落、不同主体手中的海量数据无法被有效聚集在 一起。③平台的目标和功能主要是面向社会提供数 新资源,lI 2015年《促进大数据发展行动纲 要》_2 等一系列重要行政举措,将大数据共享平台建 设推向了前台。几乎一夜之间我国很多地方都以“政 据,但缺乏进一步针对大数据的处理和分析服务,造 成很多大数据的应用主体在取得数据后面临分析困难 的难题。④尽管个别地方(如温州)在大数据共享平 台建设规划中提出了资源共享,防止重复建设的思 府大数据平台”、“大数据公共服务平台”、“大数据政 务平台”等不同形式提出建设大数据共享平台,浙 江、上海、青岛、银川、东莞等诸多省市已经进行了 有益尝试。但这些如雨后春笋般兴起的“平台”是不 路,_3 但现实情况是很多地方在平台的建设过程中缺 乏对相关资源的统筹规划和有效共享,造成资源的闲 置和浪费。 本文拟从大数据共享平台的特性人手,提出这类 是真正意义上的大数据共享平台、能不能切实行使大 数据共享平台的职能是值得思考的问题。 1 大数据共享平台存在的问题 通过对我国20余个大数据共享平台的广泛观察, 特殊平台的体系结构并分析现阶段我国建设大数据共 享平台的主要思路,为实践提供参考。 2大数据共享平台的特性 本文将大数据共享平台定义为:借助一定的技术 手段,面向全社会及各行各业以公用事业的方式提供 发现当前我国此类平台主要存在以下问题。①大部分 平台定位于公开数据和公共数据,而行业数据、 个人数据等则很少被整合进来,削弱了“大数据作为 一数据资源的统一开放平台体系。该平台具有如下5方 面特性。 (1)应用导向。大数据正在成为不可或缺的创新 种关键创新资源”的作用。②几乎所有的平台都提 供数据的查询、下载、添加等功能,使分散在社会各 086 资源,I4j大数据共享平台是为全社会提供数据资源的 创新基础设施,由于该平台的存在,数据资源可以像 水、电、天然气等公用事业一样方便地提供给社会公 众,而社会公众借助平台提供的丰富数据资源易于开 展各种类型的创新活动。这就决定了大数据共享平台 具有强烈的应用导向。一般来说,大数据的创新价值 要通过“孕育一萌发一膨胀一突破”等一系列过程才 能得以实现,而这一连续的过程主要借助不同主体之 间的接力合作。Es]大数据共享平台在接力创新链条上 正是扮演了上游数据资源提供者的重要角色,其最根 本的功能是聚集来自、行业、企业、个人等多种 渠道的数据,而社会上其他主体(包括、企业、 非盈利机构、个人等)可以共享数据并进一步将其应 用于各种创新。如,智慧医疗、智慧交通等行业垂直 应用创新,服务型创新等。 (2)双向开放。构建大数据共享平台的根本目的 是为全社会提供一个数据资源的“蓄水池”,保证社 会公众方便地从中取用所需“数据”,从而为各行各 业的创新提供新的动力。这个“蓄水池”的规模越 大、行业覆盖面越广、积累的数据越多、数据类型越 丰富,对创新活动的价值也就越大。因此,大数据共 享平台应该具有双向开放的特性,即面向数据资源的 需求者和供给者全面开放,任何机构和个人都可以向 其中注入数据,同时也可以方便地从中取用数据。只 有具备双向开放的特性,才能保证大数据共享平台所 积蓄的数据资源的规模持续膨胀,社会公众应用数据 资源的便利性日益提高。 (3)零边际成本。现阶段的大数据共享平台主 要聚焦于开放数据的层面,同时也不断吸收来 自企业、非盈利机构乃至个人等社会公众的其他数 据,这种高度的社会参与性是保证数据“蓄水池” Et益满盈的重要因素。而社会公众在向大数据共享 平台注入数据的同时也可以廉价地利用“蓄水池” 内的数据。如此循环往复,最终将形成显著的“产 消者”现象,即社会公众既是数据资源的生产者, 同时也是数据资源的消费者,每位社会公众在利用 大数据共享平台内的数据资源时逐步接近零边际成 本。“产消者”和“零边际成本”效应不仅使得全社 会都成为大数据共享平台的贡献者和受益者,更将 深刻地影响和重塑创新的范式。 (4)技术包容。大数据共享平台的关键是将各类 数据资源和数据资源平台统一在一个组织体系之下. 共同实现大数据共享平台的功能。这涉及3个层次 数字图书馆-技甫平台 的技术包容性。①包容各种类型的数据。由于数据 类型繁多,结构化、半结构化与非结构化的数据都是 重要的资源,必须依赖高度的技术包容性才能将多元 异构的数据统一到一个平台之下。②包容不同行业 的数据平台。各行各业所产生和需要的数据特性不 同,同样需要高度的技术包容性将各行业特色鲜明的 数据平台统一在一个体系之下。③包容不同区域的 数据公共平台。当前各地都在大力建设大数据共享平 台,这些平台在数据和行业方面各具特色,平台的体 系架构和运行方式也会存在不同,只有高度的技术包 容性才能通过资源共享的方式将尽可能多的区域大数 据公共平台统一到一个体系之内。 (5)主导。具有上述特性的大数据共享平台 显然必须由主导或由委托特定的机构进行建 设和运行,因为只有的力量才能组织和协调如此 规模庞大,涉及众多区域、行业的平台体系。由 主导建设并运行大数据共享平台,不仅在能力和资源 方面存在优势,在技术标准的统一性、数据格式的规 范性、平台接口的互通性、平台的开放性等方面也会 减少障碍。 3大数据共享平台的系统架构 基于上述分析,大数据共享平台的系统架构通常 是由管理运营系统、数据资源中心、接入应用中心三 大板块构成(见图1)。 图1 大数据共享平台的系统架构 3.1管理运营系统 管理运营系统是大数据共享平台的顶层板块,负 责与平台的决策、运行、管理及保障等相关的组织任 务,该系统主要由平台领导委员会、平台运营管理中 心、安全监管中心和技术支持中心构成,根据实际需 要还可以适当添加相应的职能。领导委员会和运营管 087 理中心是大数据共享平台的直线管理机构,而安全监 管中心和技术支持中心的性质则较为独特。 (1)安全监管中心。由于大数据共享平台内的 数据资源很多来自,而且社会公众可以自由注 入和取用数据,这就涉及到开放数据过程中的网络 安全、数据安全、、商业机密、个人隐私 保护等挑战性问题。大数据安全监管的核心在于根 据实际情况设置不同的安全等级,形成以病毒防范、 漏洞管理、入侵防范、信息加密、访问控制等为重 点的全方位防护体系。而安全监管中心的职责就是 依据安全等级对数据的注入、取用等行为的合法性 与安全性进行监督、分析和判断,在特定的情况下 预警乃至禁止。 (2)技术支持中心。对大数据的管理涉及到数据 的汇聚、传输、存储、分析、应用等一系列问题,还 要面对各类软硬件的标准、格式、接口等方面的互通 性障碍。技术支持中心主要为数据的注入、提取、存 储、传输、分析等活动提供软、硬件技术方面的支 持,并对软硬件的技术标准、数据格式、平台接口等 提供规范,为不同类型的数据平台之间的互联互通、 资源共享等提供保证。同时,技术支持中心还承担优 化平台架构、指导数据开发和分析人员开发APP应用 等职能。 3.2数据资源中心 数据资源中心是大数据共享平台的主体部分,它 借助通用接口将分散的各类大数据平台与数据资源组 织起来共同形成一个规模庞大的虚拟数据资源池。一 个完整的数据资源中心主要涉及5种类型的平台及一 个数据整理部。 (1)国家数据平台。用来聚集和开放的 数据,尤其是直接管理的各职能部门的数据。 如,来自科技、产业、教育、文化、税务、海关等部 门的数据。这个平台的数据一般是单向的,也就是社 会公众只能取用而不能注人,同时对于数据的取用行 为应该经过严格的审查程序以保证平台安全。 (2)地方数据平台。用以将不同地方建设的 大数据公共平台整合起来,从而使地方之间实现 数据资源共享,以及保证全社会能够在最大程度上获 得各地方的数据。将尽可能多的地方数据平台整 合在一起有助于打破不同地方及地方数据平台之 间的割裂现象,消除“信息孤岛”,避免数据资源的 闲置和浪费。 (3)行业数据平台。用来组织和整合那些有开放 088 数字图书馆-技带平台 数据意愿的行业协会、联盟、中介机构等所掌控的数 据资源。如,2011年NIH(美国国家卫生研究院)说 服制药公司向学术界提供废弃药物数据,以寻找废弃 药物的新作用和新用途。这类行业数据往往具有直接 的应用价值,应成为数据资源中心的重要构成部分。 目前我国也有些行业意识到共享数据资源的重要性, 将这些行业数据纳入数据资源中心。如,东莞市大数 据协会已经与多个行业及100多家企业合作,进行数 据的整合与共享方面的尝试。 (4)企业数据平台。用来组织和整合有开放数据 意愿的企业数据资源。如,礼来(Eli Lilly)、默克 (Merck)和辉瑞(Pfizer)等制药公司联合组建的ACRG 药物基因组数据库、Thomson Reuters Integrity的生物医 药信息综合数据库。这些企业数据都是高度开放的, 通常针对性很强且数据质量很高。近年来我国加入数 据开放行列的企业也越来越多,对于数据资源中心建 设具有直接支持作用。如,东莞市唯一的交通智能卡 发行商“东莞通”公司与东莞大数据协会合作进行信 息共享、灵狐科技推出免费的智能大数据预测开放平 台等。E7] (5)个人数据聚集平台。由于社会公众在从大数 据共享平台中取用数据的同时也可以向其中注入数 据,而来自社会公众的丰富数据将为基于大数据的创 新贡献巨大力量,这就需要在数据资源中心建设一个 专门用来接纳和聚集个人数据的平台。 (6)数据整理部。由于涉及、行业、企业和 个人较多,系统繁杂,导致平台数据来源复杂、格式 不统一、质量低下、动态性较差等情况。所以必须对 数据进行采集、降噪、存储、分析和可视化,以全生 命周期管理为目标,建设一套适合数据共享交换的标 准。数据整理部主要针对数据资源中心内的不同数据 平台以及各种类型的数据,在技术支持中心的指导下 建立数据交换和目录体系,明确可以共享的信息名 称、数据格式、提供方式、提供单位、共享条件、更 新方式、更新时限等要素,并对和社会公众不断 注入的多元化数据进行归纳分类、规范格式、去除冗 余等,以方便数据的存储、管理和使用。 3-3接入应用中心 建设大数据共享平台的根本目的是方便社会公众 利用数据资源,所以还需要建设与之配合的接入应用 中心,否则即便积累和存储了海量数据,大数据共享 平台的价值也要大打折扣。接人应用中心的功能模块 主要包括3部分。①数据的注入和导出平台。以方便 社会公众向数据资源平台中注入数据,同时为社会公 众从数据资源平台中取用数据提供通道。如下载数 据、打印数据等。平台还应提供服务API的申请、使 用、监控、APP应用上传、APP应用展示等功能,为 基于开放数据的应用创新提供全方位服务支撑。如, 浙江数据开放平台包含100项可下载的数据资 源、137个数据接口和8个移动APP应用,依托法 人、空间地理基础数据库和信用浙江、电子证照库 等,还推出8个专题数据应用板块。_8 ②数据审查 部。主要依照数据整理部的需要,在安全监管中心和 技术支持中心的指导下,针对社会公众注入/取用数 据的行为是否合法、和社会注入的数据格式是否 符合标准等进行监督和审查,保证大数据共享平台的 安全性和运行的流畅性,以及数据的互联互通。③数 据分析平台。针对那些不具备数据分析条件的使用者 (主要是个人用户和中小微企业)提供大数据处理和分 析的公共服务,其中既包括数据分析处理所需的硬件 服务也包括相关的软件服务。同时,数据分析平台也 可以接受使用者的委托提供数据处理和分析服务。数 据分析平台一般不需要单独建设,而是可以尽量利用 现有的大学、研究院所乃至企业的分析能力,从而提 高科技资源的共享效率、避免重复建设和浪费。 4现阶段我国建设大数据共享平台的主要思路 基于前述关于大数据共享平台系统架构的分析, 大数据共享平台运行模式如图2所示。针对大数据共 享平台的组织架构和运行特点,现阶段我国建设大数 据共享平台应采取如下思路。 图2大数据共享平台的运行模式 4.1重视牵引社会资本 大数据共享平台的建设和运行由主导,同时 必须重视吸引社会资源以多种形式加入。从目前的情 况看,我国可以从如下三个方面引导大数据共享平台 的发展。①建立大数据资源供给的组织保障体 系,可在现有的(正在建设的)各级大数据公共 数字图书馆・技 平台 平台的基础上,组建一级的数据共享和数据开放 办公室,负责统一协调各级地方大数据公共平台 的互联互通,打破各地方之间在数据资源共享方 面的割裂状态。②组建高层次的大数据产业技术联 盟,带动各行业及相关企业加入数据开放的行列。目 前我国已经有中关村大数据产业联盟、中国企业大数 据联盟、上海大数据联盟、语音大数据联盟等多个覆 盖面较广、影响力较大的联盟,这些联盟开放数据的 主动性较强、吸引力也较大,但联盟之间的协同还不 够,应该尽快整合各类联盟,组建国家级的大数据产 业联盟,以进一步带动我国大数据产业公共平台的建 设。③加强各类大数据平台联通技术的研发,原则上 应依托高水平大学和科研机构,也可依托代表行业技 术水平的龙头企业,开发大数据平台互联互通的技术 标准、接口标准、数据格式标准等,尽快攻克大数据 平台联通的关键共性技术。如,数据传输技术、数据 分类技术、数据存储技术等。 4.2强力推进资源共享 只有高度的共享才能保证最大范围、最大程度 的聚集数据资源,并使数据资源为全社会所用。资 源共享机制涉及两个紧密相关的方面。①科技资源 共享。大数据公共平台的建设和运行涉及大量的技 术、基础设施、人才等资源,需要针对大数据公共 平台的需要统筹规划,加速推进科技资源共享,有 效利用社会上的存量科技资源共同为平台发展提供 资源和能力,同时也能够很好地规避重复建设和资 源浪费。②数据资源共享。我国的数据开放水平总 体而言还很低,对基于大数据的社会化创新造成很 大制约。笔者在调研过程中就发现有从事跨境电子 商务的公司将数据中心设置在数据开放程度较高的 印度,相信这并非特例。因此,当前我国要强力推进 数据的开放共享,一是要确实将数据的开放落到 实处;二是要加快推进大学和科研机构将其所掌握的 丰富的数据向社会开放;三是要激励和引导企业开放 数据,尤其是那些掌握了大量社会数据的电子商务企 业;四是要激励和引导个人积极共享数据。 4.3建立利益交换机制 对于数据的开放和共享而言,由于面临安全、隐 私及所有权等方面的多种障碍,需要通过相应的激励 机制提高全社会共享数据的意愿。在市场经济 下,这种激励机制主要体现为利益交换,具体可以从 以下几方面人手。①借鉴“”等互联网社区 的思路,对于向数据资源平台中注人数据的企业和个 089 人,可以根据其提供的数据量给予相应的数据取用权 利,提供的数据越丰富获得的权利也就越多,使得 “生产”数据的责任和“消费”数据的权利之间对等, 从而尽快形成“产消者”效应。②对于大学和科研机 构,针对当前愈发突出的“科学商业”趋势,[9 数据 资源正在成为科学家创新创业的关键基础资源的特 性,可以在通过行政指令要求大学和研究院所开放数 据的同时,给予大学和科研机构更大的数据资源取用 权利,从而激励大学和科研机构将其掌握的高质量科 学数据开放共享。③对于的数据而言,可以在通 过指令要求各级地方开放数据的同时, 将数据开放水平作为绩效考核的指标之一,从而 激励地方打破数据隔离的状态。④尽快建立数据 交易市场,方便各类数据持有者(主要是企业和个 人)加入数据交易的行列,数据持有者能够通过开放 和共享数据获得相应的收益。 4.4借助产、学、研一体化 大数据共享平台建设和运行所需的技术、人才等 关键资源,以及一些重要的软硬件设施,很多都掌握 在龙头企业、高水平的大学和科研机构中。虽然大数 据共享平台是主导的,但应该重视企业、大学和 科研机构的力量,借助产、学、研一体化的方式开展 平台建设,而在建设过程中主要发挥领导、规 划、组织和保障等方面的作用。①一些必须专门建设 的基础设施(如数据存储、传输等)可以以PPP的方 式交给企业执行,如阿里、腾讯等龙头企业就具备建 设和运行大数据基础设施的潜在能力。②构建产学研 合作体,在平台领导委员会的指导下,承担大数据共 享平台的运营管理、技术支持和安全监管等任务。③ 吸收企业、大学和研究院所的人才、技术等科技资源 为大数据共享平台所用,这与前述的资源共享机制是 一致的。 4.5 完善保障措施 大数据共享平台的建设和运行需要创新机制 ,提供强有力的保障。①打破各级、政 府各类部门、大学和科研机构及企业之间的数据界 限,使各类科技资源和数据资源持有者能够统一到大 数据共享平台的框架之下,方便依据平台建设和运行 的需要调配资源。②组织相应的专家团队,对大数据 共享平台的数据格式、软硬件技术性能、技术标准、 平台运行流程、安全等方面的问题进行研究,为平台 的顶层设计、系统开发、管理运行中的各类问题提供 技术支持。③尽快研究出台保障数据开放的具体 数字图书馆一技带平台 实施措施,针对不同类型的数据持有者发出强有力的 指令,实实在在地加速和公共数据的开放。 ④各类数据持有者(包括)加入到数据开放行列 的积极性与其能够得到的利益密不可分。对于激励各 类数据持有者加入大数据共享平台的利益机制,需要 以利益契约的方式固化下来,保障各方能够获得 相应的利益且不以的变动而随意变动,即提 供工具让大数据共享平台的共同受益者参与到其 中,而不是仅由唱独角戏,社会公众却缺乏利益 驱动力。 [参考文献] [1]曹凌.大数据创新:欧洲开放数据战略研究[J]. 情报理论与实践,2013,36(4):1l8—122. [2]南方都市报.加快开放数据[EB/OL].[2015 —09—06].http://news.sina.co ̄cn/o/2015—09—06/doc. 『3]温州市办公室.关于推进大数据平台 建设的实施意见[EB/OL] [2016一O4—21].http:// www.wenzhou.gov.crdartL2015/8/27/art._474117022.htm1. —[4](英)维克托・迈尔一舍恩伯格,肯尼思・库克耶. 大数据时代——生活、工作与思维的大变革 [M].杭州:浙江人民出版社,2012:127—156. [5]李天柱,等.信息产业的接力创新:一个多案例 研究[J].科学学研究,2014,32(3):447— 453. [6]南方日报.东莞将搭建大数据共享平台可以对 接企业[EB/OL].[2016—04—18].http://gd.sina. com.cn/dg/2016-04-18/city-dg—iKfiqqv6153393.shtm1. [7]中国首个免费大数据平台上线助企业知未来[EB/ OL].[2O16—04—18].http://it.msn.tom.cn/served. [8]浙江在线.浙江数据开放平台上线[EB/OL]. [2016—04—20].http://zjnews.zjo1.com.cn/system/. [9]李天柱,等.科学商业的范式分析及其创新轨道: 基于生物制药[J].科学学与科学技术管理, 2014.35(11):13—27. [作者简介】鲁焱(197O一),男,硕士,副教授,研 究方向:大学生思想政治教育。 [收稿日期]2016—07—20 [责任编辑]徐娜 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sarr.cn 版权所有 赣ICP备2024042794号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务