您好,欢迎来到飒榕旅游知识分享网。
搜索
您的当前位置:首页数据科学的统计学内涵

数据科学的统计学内涵

来源:飒榕旅游知识分享网
第31卷第5期 研究 VO1.31.No.5 2014年5月 Sta幽 激I Research May 2014 数据科学的统计学内涵 魏瑾瑞蒋萍 内容提要:数据科学以大数据为研究对象,而大数据对统计分析最直接的冲击莫过于数据收集方式的变革。同 时统计分析的视野也不再局限于传统的属性数据,而是包括了关系数据、非结构、半结构数据等其他类型更丰富的 数据。伴随着数据开放,数据库之间的关联信息的价值逐步得到体现。本文基于统计学的视角,分别从科学理论 基础、计算机处理技术和商业应用等三个维度,研究了数据科学的统计学内涵,探讨了数据科学范式对统计分析过 程的直接影响,以及统计学面临的机遇与挑战。 关键词:数据科学;大数据;统计学;计算机科学 中图分类号:C81 文献标识码:A 文章编号:1002—4565(2014)05—0003—07 The Statistical C:onnotation of Data Science Wei Jinrui&Jiang Ping Abstract:Big data is the key in data science.The direct impact of big data on statistical analysis is that it provides a new way of data collection.And the scope of statistics has broaden to include the relational data,unstructured data,semi— structured data and other types of data,no longer limited to traditional attribute data.With the open data movement,the value of the linkage between the databases has been paid much more attention.In this paper,we study the statistical connotation of data science in three dimensions with statistical view,such as theoretical basis,computer sciences and business application.The impact of the paradigm of data science on the process of statistical analysis has been explored, and also the opportunity and challenge for statistics. Key words:Data Science;Big Data;Statistics;Computer Science 将从提高劳动生产率转变为如何更好地利用信息 、引言 题,来辅助决策”(Herbert A.Simon)。工业化时代的标 过去因记录和存储等方面的限制只能有选择性 志是大规模、低成本、标准化,大数据时代仍然可以实 地存储(如精简的古文、有影响力的文献),而现在 现大规模和低成本,然而其核心不再是标准化,而是 则是泥沙俱下等权记录,论语和一行微博同样载人 差异化(个性化)。比如,基于位置的服务、个性化推 史册。网络公开课、大规模开放网络课程(massive 荐、自媒体、自带设备到工作场所(bring your own open online course,MOOC)、开放存取仓储(Open device,BYOD)等等。当个性化定制变得司空见惯, Access Repositories)等也已经逐渐开始对传统的教 虚拟的“平均人”(average man,Adolphe Quetelet,《论 学和科研产生冲击。我们已身处大数据的洪流,而 人类》,1835)也将逐渐消失。互联网过去一直被认为 且是“被卷入”,一如对现代通讯工具的被迫回应。 方面,数据记录大量产生(数据尾气,商业记录、 是一个纯粹的虚拟世界,而如今,它与现实的边界越 来越模糊(线上与线下结合、位置信息、好友分享、浏 行政记录等);另一方面,不仅原始数据而且数据的 览记录、普适计算等)。“你可以逃跑,却无处可藏” 复制品(报纸、杂志、网页等)也需要存储空间,信息 累积的方式也从竹简、纸张、软盘过渡到硬盘、网盘 等效率更高的存储媒介。 本文获国家社会科学基金重大项目“大数据与统计学理论的 发展研究”(13&ZD148)和辽宁省社会科学规划基金青年项目“抽样 工业时代的中心问题是如何提高劳动生产率,而 调查方法应用的科学性与适应性研究一基于大数据方法的适应性 “在后工业时代(信息时代),人类社会面临的中心问 改进”(L13CTJO04)资助。 庄· 统计研究 2014年5月 (Mary Meeker,2013,KPCB)。 概念,数据②本身是一个很宽泛的概念,只要是对客 观事物记录下来的、可以鉴别的符号都可以称之为 数据,包括数字、文字、音频、视频等等。统计学研究 知识经济(基于知识的资本)中知识的增长与 知识的数字化基本上是同步的。在2012年初达沃 斯世界经济论坛上,一份题为《大数据,大影响》的 报告宣称,数据已成为一种新的经济资产类别。那 么一个很自然的推论是,数据的贡献就应该被合理 地计量。然而目前传统的经济统计方法测量的对象 主要是商品和服务,并不能很好地适应于数据①。 Mandel(2012)¨ 认为,在数据驱动的经济的框架 的数据虽然类型丰富,如类别数据、有序数据等定性 数据,定距数据、定比数据等定量数据,但这些都是 结构化数据;数据科学所谓的数据则更为宽泛,不仅 包括这些传统的结构型数据,而且还包括文本、图 像、视频、音频、网络日志等非结构型和半结构型数 据 ,即,大数据⑧。 下,各种数字信息的生产、分配和使用是驱动经济增 长的重要因素,而经济增长、消费、投资和贸易等宏 观指标的测量低估了数据的贡献。 已故图灵奖得主格雷(Jim Gray)在20世纪90 年代中期曾指出,数据库技术的下一个“大数据”挑 战将会来自科学领域而非商业领域,并且提出了科 学研究的“第四范式(the fourth paradigm)”是数据 密集型科学-z 。在《大数据时代的历史机遇:产业 变革与数据科学》(2013)一书中,鄂维南院士也提 到:“大数据在科学领域的表现是数据科学的兴起, 数据科学将成为科研体系中的重要组成部分,并逐 渐达到与物理、化学、生命科学等自然科学分庭抗礼 的地位”。然而数据科学目前只是多个相关学科 “拼接”起来的一个新兴学科,尚未形成完整的学科 框架体系 ,同时,也鲜有在统计学视角下的探讨。 为此,本文首先从统计学的视角研究了数据科学的 基本含义;其次,分别从理论基础、计算机处理技术 和商业应用等三个维度讨论了数据科学的统计学内 涵;第三,研究了数据科学范式对统计分析过程的直 接影响,以及统计学视角面临的机遇与挑战;最后给 出全文结论。 二、统计学视角下的数据科学 统计学研究的对象是数据,数据科学顾名思义 也是以数据为研究对象,这产生一种直观的错觉,似 乎数据科学与统计学之间存在某种与生俱来的渊源 关系。Wu(1998)直言不讳,数据科学就是统计学 的重命名,相应地,数据科学家替代了统计学家这个 称谓。若此,那是什么促成了这种名义上的替代? 显然仅仅因为数据量大本身并不足以促成“统计 学”向“数据科学”的转变,数据挖掘、机器学习这些 概念似乎就已经足够了。 问题的关键在于,二者所指的“数据”并非同一 大数据(以半/非结构型数据为主)使基于关系 型数据库的传统分析工具很难发挥作用,或者说传统 的数据库和统计分析方法很难在可容忍的时间范围 ①数据的属性不同于商品和服务,商品是有形的且可存储 的,服务是无形的且不可存储的,而数据则是无形的且可存储的。 事实上,在SNA2008中有这样的表述,“一些服务产业生产的产品可 能具有货物的很多特征(如唱片、书籍、数据库等固化的知识和数 据,无论纸质媒体还是电子媒体,都是可确定其所有权的、可存储 的),SNA将这些产品称为知识载体产品”。因此,广义的服务还包 括知识载体产品,数据可以归入此类。但是给予知识载体产品以货 币化的度量并不容易,从商品和服务中将其单独定价也常常是很困 难的。譬如统计年鉴,其定价很大程度上只是印刷的成本,因为其 中的内容(数据)属于公共产品;而一本小说,其价格同时包含了印 刷成本和作者的知识创造,并且不同的国家和地区对知识创造的重 视程度存在显著差异。 ②数据强调的是客观记录,信息强调的是对客观事实的解释 和含义(信息的第一属性是客观现实性)。经过解释的数据,才成为 信息。数据是信息的载体(表现形式);信息是数据的含义(解释)。 但是,数据经过处理之后仍是数据,处理的目的仅仅是为了便于解 释。与数据、信息并提的一个概念是,知识,它是指反映各种事物的 信息进入人们的大脑之后,对神经细胞产生作用后留下的痕迹。 ③很多较早提及大数据的文章仅仅是用来形容数据量大这 个维度,确有所指的大数据概念始于20世纪90年代后期的科学 领域(如气象地图、大型的物理仿真模型、基因图谱等已经超越了传 统的计算能力)。在美国计算机协会的文献记录中(the ACM digital library),最早提及大数据一词的文章是Cox和Ellswo ̄h(1997),该 文对“大数据”的定义是:可视化涉及到的数据集一般都非常大,对 内存、本地磁盘和远程磁盘负担过重,我们把这样的问题称之为大 数据问题。Laney(2001)在“3D Data Management:Controlling Data Volume,Velocity,and Variety”一文中定义了大数据的三个基本特 征,沿用至今。大约在2008年,大数据的概念被电子商务和电信行 业广泛采用,以表达那些传统统计分析方法无法回答的商业问题。 大数据的革新不仅仅是数量级上的,数据的结构、形式、语义、 组织和粒度等各方面都更加复杂和具有异质性。目前的共识是,大 数据具有以下4V特征,即海量、时效与速度、价值、多源异构,然而 很多所谓的大数据其实并不完全同时满足以上四个特征。此外,大 数据这个概念是随着时间、空间和技术而变化的,是相对于当前的 技术和资源而言的。其中,“超越了当前处理能力的极限”有两层含 义:其一是当前的技术无法处理(可行性),其二是当前的技术可以 处理,但是无法在可容忍的时间范围内完成(有效性)。 第31卷第5期 魏瑾瑞蒋萍:数据科学的统计学内涵 · 5 · 内完成存储、管理和分析等一系列数据处理过程,为 了有效地处理这类数据,需要一种新的范式——数据 扩展到现在的非(半)结构型的大规模数据(大数 据)和关系数据等类型更为丰富的数据。从分析方 法的扩展来看,是从参数方法到非参数方法,从基于 科学。真正意义上的现代统计学是从处理小数据、不 完美的实验等这类现实问题发展起来的(the best source of good statistical work is bad experiments,John 模型到基于算法,一方面传统的统计模型需要向更 般的数据概念延伸;另一方面,算法(计算机实 Mount,2013),而数据科学是因为处理大数据这类现 实问题而兴起的。因此数据科学的研究对象是大数 现)成为必要的“可行性分析”,而且在很多方面算 法模型的优势越来越突出。 注意到,数据分析有验证性的数据分析 据,而统计学以结构型数据为研究对象。退一步,单 从数量级来讲,也已发生了质变。对于结构化的大规 模数据,传统的方法只是理论上的(可行性)或不经 济的(有效性),实践中还需要借助数据挖掘、机器学 习、并行处理技术等现代计算技术才能实现。 三、数据科学的统计学内涵 (一)理论基础 数据科学中的数据处理和分析方法是在不同学 科领域中分别发展起来的,譬如,统计学、统计学习 或称统计机器学习①、数据挖掘②、应用数学、数据 密集型计算、密集计算方法、MapReduce、Hbase、 Storm等。在量化分析的浪潮下甚至出现了“metric+ 模式”,如Econometrics(计量经济学)、Bibliometrics (文献计量学)、Webometrics(网络计量学)、biometrics (生物统计学)等。因此,有学者(如Conway等(2OLO)) 将数据科学定义为计算机科学技术、数学与统计学 知识、专业应用知识三者的交集,这意味着数据科学 是一门新兴的交叉学科。但是这种没有侧重的叠加 似乎只是罗列了数据科学所涉及到的学科知识,并 没有进行实质性的分析,就好似任何现实活动都可 以拆解为不同的细分学科,这是必然的。 根据Naur(1960,1974) 的观点,数据科学或 称数据学是计算机科学的一个替代性称谓。但是这 种字面上的转换,并没有作为一个独立的学科而形 成。Cleveland(2001) 首次将数据科学作为一个 独立的学科提出时,将数据科学表述为统计学加上 它在计算技术方面的扩展。这种观点表明,数据科 学的理论基础是统计学,数据科学可以看作是统计 学在研究范围(对象)和分析方法上不断扩展的结 果。一如统计学最初只是作为征兵、征税等行政管 理的附属活动,而现在包括了范围更广泛的理论和 方法。从研究范围的扩展来看,是从最初的结构型 大规模数据(登记数据),到结构型的小规模数据 (抽样数据)、结构型的大规模数据(微观数据),再 (confirmatory data analysis,CDA;Hypothesis—driven Discovery)和探索性的数据分析(exploratory data analysis,EDA;Data—driven Discovery)两个基本取向,但 不论是哪一种取向,都有一个基本的前提假设,就是观 测数据是由背后的一个(随机)模型生成,因此数据分 析的基本问题就是找出这个(随机)模型。Tukey (1980,2000) 儿 明确提到,EDA和CDA并不是替代 关系,两者皆必不可少,强调EDA是因为它被低估了。 数据导向是计算机时代统计学发展的方向,这 观点已被越来越多的统计学家所认同。但是数据 导向仍然有基于模型与基于算法两种声音 (Breiman,2001) ,其中,前文提到的EDA和CDA 都属于基于模型的方法,它们都假定数据背后存在 某种生成机制;而算法模型则认为复杂的现实世界 无法用数学公式来刻画,即,不设置具体的数学模 型,同时对数据也不做相应的限制性假定。算法模 型自20世纪80年代中期以来随着计算机技术的迅 猛发展而得到快速成长,然而很大程度上是在统计 学这个领域之外“悄然”进行的,比如人工神经网 络、支持向量机、决策树、随机森林等机器学习和数 据挖掘方法。 若响应变量记为Y,预测变量记为 ,扰动项和参 数分别记为占和 ,则基于模型的基本形式是:y 八 , , ),其目的是要研究清楚Y与 之间的关系 并对Y做出预测,其中 是一个有显式表达的函数形 式(若,先验假定,则对应CDA;若 是探索得到的,则 对应EDA),比如线性回归、Logistic回归、Cox回归 等。可见,传统建模的基本观点是,不仅要得到正确 ①见于Hastie,Tibshirani和Friedman(2009),李航(2012)。 ②从某种程度上来讲,机器学习比数据挖掘更宽泛一些,因 为数据挖掘更倾向于是一种非监督学习,比如聚类、关联规则等,是 种完全探索性的数据分析;而机器学习包括非监督学习、监督学 习、半监督学习和强化学习等,特别是在很多场合更注重对输出变 量的预测,即监督学习。 6· 统计研究 2014年5月 的模型——可解释性强,而且要得到准确的模型—— 外推预测能力强。而对于现实中复杂的、高维的、非 线性的数据集,更切合实际的做法是直接去寻找一个 恰当的预测规则(算法模型),不过代价是可解释性 较弱,但是算法模型的计算效率和可扩展性更强。基 于算法的基本形式类似于非参数方法Y= ,8),但 是比非参数方法的要求更低Y+_ ,因为非参数方法 很多时候要求.厂或其一阶导数是平滑的,而这里直接 跳过了函数机制的探讨,寻找的只是一个预测规则 (后续的检验也是基于预测构造的)。在很多应用场 合,算法模型得到的是针对具体问题的解(譬如某些 参数是被当作一个确定的值通过优化算法得到的), 并不是统计意义上的推断解。 (二)技术维度 数据科学是基于数据的决策,数据分析的本质 既不是数学,也不是软件程序,而是对数据的“阅 读”和“理解”。技术只是辅助数据理解的工具,一 个毫无统计学知识的人应用统计软件也可以得到统 计结果,但无论其过程还是结果都是可疑的,对统计 结果的解释也无法令人信服。Jeremy Burton(EMC, 2012)在2012年5月更是直接阐述了“IT将转向数 据科学”的观点。“从计算机科学自身来看,这些应 用领域提供的主要研究对象就是数据。虽然计算机 科学一贯重视数据的研究,但数据在其中的地位将 会得到更进一步的加强”。 不可否认,统计分析逐渐向计算机科学技术靠 近的趋势是明显的。这一方面是因为,数据量快速 膨胀,数据来源、类型和结构越来越复杂,迫切需要 开发更高效率的存储和分析工具,如NoSQL、HDFS、 MapReduce、HBase、Cassandra、Dynamo以及Storm (twitter)和s4(yahoo!)等一些流计算方法,这些方 法都具备显著的伸缩性和扩展性,可以很好地适应 数据量的快速膨胀¨ ;另一方面,计算机科学技术 的迅猛发展为新方法的实现提供了重要的支撑。对 于大数据而言,大数据分析丢不掉计算机科学这个 属性的一个重要原因还不单纯是因为需要统计软件 来协助基本的统计分析和计算,而是大数据并不能 像早先在关系型数据库中的数据那样可以直接用于 统计分析。 事实上,面对越来越庞杂的数据,核心的统计方 法并没有实质性的改变,改变的只是实现它的算法。 因此,从某种程度上来讲,大数据考验的并不是统计 学的方法论,而是计算机科学技术和算法的适应性。 譬如大数据的存储、管理以及分析架构,这些都是技 术上的应对,是如何实现统计分析的辅助工具,核心 的数据分析逻辑并没有实质性的改变。因此,就目 前而言,大数据分析的关键是计算机技术如何更新 升级来适应这种变革,以便可以像从前一样满足统 计分析的需要。 (三)应用维度 在商业应用领域,数据科学被定义为,将数据转 化为有价值的商业信息①的完整过程。数据科学家 要同时具备数据分析技术和商业敏感性等综合技 能。换句话说,数据科学家不仅要了解数据的来源、 类型和存储调用方式,而且还要知晓如何选择相应 的分析方法,同时对分析结果也能做出切合实际的 解释②。这实际上提出了两个层面的要求:①长期 目标是数据科学家从一开始就应该熟悉整个数据分 析流程,而不是数据库、统计学、机器学习、经济学、 商业分析等片段化碎片化的知识。②短期目标实际 上是一个“二级定义”,即,鼓励已经在专业领域内 有所成就的统计学家、程序员、商业分析师相互 学习。 在提及数据科学的相关文献中,Provost和 Fawcett(2013)¨ 对应用领域有更多的倾向;Stanton (2012) t2 3认为数据科学与统计学、数学等其他学科 的区别恰在于其更倾向于实际应用;期刊{Journal of Data Science}同样强调了应用这个主题。甚至有观 点认为,数据科学是为应对大数据现象而专门设定 的一个“职业”。其中,商业敏感性是数据科学家区 别于一般统计人员的基本素质。对数据的简单收集 和报告不是数据科学的要义,数据科学强调对数据 多角度的理解,以及如何就大数据提出相关的问题 (很多重要的问题,我们非但不知道答案而且不知 道问题何在以及如何发问)。同时数据科学家要有 良好的表达能力,能将数据中所发现的事实清楚地 表达给相关部门以便实现有效协作。 从商业应用和服务社会的角度来看,强调应用 这个维度无可厚非,因为此处是数据产生的土壤,符 ①譬如,哪些贷款是有违约风险的,哪些商品更容易被一同 购买,哪些广告更频繁地被点击等等。 ②这里的解释不是单纯地用文字叙述统计结果,而是能够结 合背景阐明其中隐含的重要信息,比如,“这可能说明了什么”。 第3l卷第5期 魏瑾瑞蒋萍:数据科学的统计学内涵 · 7 · 合数据科学数据导向的理念,数据分析的目的很大 程度上也是为了增进商业理解,而且包括数据科学 家、首席信息官这些提法也都肇始于实务部门。不 过,早在20世纪90年代中期,已故图灵奖得主格雷 (Jim Gray)就已经意识到,数据库技术的下一个“大 数据”挑战将会来自科学领域而非商业领域(科学 研究领域成为产生大数据的重要土壤)。2008年9 月4日刊出的《自然》以“big data”作为专题(封面) 探讨了环境科学、生物医药、互联网技术等领域所面 临的大数据挑战。2011年2月11日,《科学》携其 子刊《科学一信号传导》、《科学一转译医学》、 《科学一职业》专门就日益增长的科学研究数据进 行了广泛的讨论。格雷还进一步提出科学研究的 “第四范式”是数据(数据密集型科学),不同于实 验、理论、和计算这三种范式,在该范式下,需要“将 计算用于数据,而非将数据用于计算”。这种观点 实际上是将数据从计算科学中单独区别开来了。 四、数据科学范式对统计分析过程 的直接影响 以前所谓的大规模数据都是封闭于一个机构内 的(数据孤岛),而大数据注重的是数据集问的关联 关系,也可以说大数据让孤立的数据形成了新的联 系,是一种整体的、系统的观念。从这个层面来说, 将大数据称为“大融合数据”或许更为恰当。事实 上,孤立的大数据,其价值十分有限,大数据的革新 恰在于它与传统数据的结合、线上和线下数据的结 合,当放到更大的环境中所产生的“1+1>2”的价 值。譬如消费行为记录与企业生产数据结合,移动 通讯基站定位数据用于优化城市交通设计,微博和 社交网络数据用于购物推荐,搜索数据用于流感预 测、利用社交媒体数据监测食品价等等。特别是数 据集之间建立的均衡关系,一方面无形中增强了对 数据质量的监督和约束;另一方面,为过去难以统计 的指标和变量提供了另辟蹊径的思路。从统计学的 角度来看,数据科学(大数据)对统计分析过程的各 个环节(数据收集、整理、分析、评价、发布等)都提 出了挑战,其中,集中表现在数据收集和数据分析这 两个方面。 (一)数据收集方面 在统计学被作为一个独立的学科分离出来之前 (1900年前),统计学家们就已经开始处理大规模数 据了,但是这个时期主要是全国范围的普查登记造 册,至多是一些简单的汇总和比较。之后(1920— 1960年)的焦点逐渐缩聚在小规模数据(样本),大部 分经典的统计方法(统计推断)以及现代意义上的统 计调查(抽样调查)正是在这个时期产生。随后的45 年里,统计方法因广泛的应用而得到快速发展 。 变革再次来自于统计分析的初始环节——数据 收集方式的转变:传统的统计调查方法通常是经过 设计的、系统收集的,而大数据是零散实录的、有机 的,这些数据通常是用户使用电子数码产品的副产 品或用户自行产生的内容,比如社交媒体数据、搜索 记录、网络日志等数据流等,而且数据随时都在增加 (数据集是动态的)。与以往大规模数据不同的是, 数据来源和类型更加丰富,数据库间的关联性也得 到了前所未有的重视(大数据的组织形式是数据网 络),问题也变得更加复杂。 随着移动电话和网络的逐渐渗透,固定电话不 再是识别住户的有效工具变量,相应的无回答率也 在增加(移动电话的拒访率一般高于固定电话),同 时统计调查的成本在增加,人口的流动性在增加,隐 私意识以及法律对隐私的保护日益趋紧,涉及个人 信息的数据从常规调查中越来越难以取得(从各国 的经验来看,拒访率或无回答率的趋势是增加的), 对时效性的要求也越来越高。因此,官方统计的数 据来源已经无法局限于传统的统计调查,迫切需要 整合部门行政记录数据①、商业记录数据、个人行为 记录数据②等多渠道数据源,与部门和搜索引擎服 务商展开更广泛的合作。 (二)数据分析方面 现代统计分析方法的核心是抽样推断(参数估 ①行政记录数据的优势在于,可以提供一个尽可能最优的覆 盖面,且数据可以实时更新,同时还可以做中观横截面分析,因此, 利用部门行政记录数据已经成为官方统计的新趋势。在芬兰、丹 麦、挪威等一些北欧国家,普查基本上是通过整合部门行政登记而 来的。在我国,政府统计机构使用部门行政记录数据虽有法律上的 依据且践行多年,但由于行政记录主要是为部门统计服务,因而操 作性并不强,协调难度较大。 ②个人行为记录数据,指人们在线从事日常活动时释放的各 种数据(如交易数据、位置数据、浏览记录等),因此也称为“数字足 迹”或“数字尾气”、影子数据。这些数据可以直接进行一些实时的 统计分析,即所谓的“现实挖掘”——通过收集人们社会行为的现实 信息来获取知识(从人们谈话的内容、关系网络、时空位置等信息分 析其社会行为);也可以用于大数据分析,比如根据搜索数据或微博 数据来监测市场价格。 8 · 统计研究 2014年5月 计和假设检验),然而数据收集方式的改变直接淡 化了样本的意义。比如基于浏览和偏好数据构建的 推荐算法,诚然改进算法可以改善推荐效果,但是增 加数据同样可以达到相同的目的,甚至效果更好。 即所谓的“大量的数据胜于好的算法”这与统计学 的关键定律(大数定律和中心极限定理)是一致的。 同样,在大数据分析中,可以用数量来产生质量,而 不再需要用样本来推断总体。事实上,在某些场合 (比如社会网络数据),抽样本身是困难的。 数据导向的、基于算法的数据分析方法成为计 算机时代统计学发展无法回避的一个重要趋势。算 法模型不仅对数据分布结构有更少的限制性假定, 而且在计算效率上有很大的优势。特别是一些积极 的开源软件的支撑,以及天生与计算机的相容性,使 算法模型越来越受到学界的广泛重视。 大数据分析首先涉及到存储、传输等大数据管 理方面的问题 。仅从数量上来看,信息爆炸、数 据过剩、数据泛滥、数据坟墓、丰富的数据贫乏的知 识……这些词组表达的主要是我们匮乏的、捉襟见 肘的存储能力,同时,存储数据中有利用价值的部分 却少之又少或尘封窖藏难以被发现。这除了对开采 工具的渴求,当时的情绪主要还是迁怨于盲目的记 录,把过多精力放在捕捉和存储外在信息。在这种 情况下,开采有用的知识等价于抛弃无用的数据。 然而,大数据时代的思路改变了,开始变本加厉 巨细靡遗地记录一切可以记录的数据。因为:①数据 再怎么抛弃还是会越来越多。我们不能通过删减数 据来适应自己的无能,为自己不愿做出改变找借口, 而是应该面对现实,提高处理海量数据的能力。②退 步,该删除哪些数据呢?当前无用的数据将来也无 用吗?显然删除数据的成本要大于存储的成本。 大数据存储目前广泛应用的是GFS(Google file system)、HDFS(Hadoop distributed file system)等基 于计算机群组的文件系统,它可以通过简单增加计 算机来无限地扩充存储能力。值得注意的是,分布 式文件系统存储的数据仅仅是整个架构中最基础的 描述,是为其他部件服务的(比如MapReduce),并 不能直接用于统计分析。而NoSQL这类分布式存 储系统可以实现高级查询语言,比如Hadoop的 HBase和Hive,Google的BigTable,还有Cassandra、 MongoDB等。与传统的关系型数据库管理系统 (RDBMS)不同的是,NoSQL数据库对现实中的数据 格式具有弹性和适应性(非固定格式)。下表1列出 了关系型数据库管理系统(RDBMS)与MapReduce的 区别。事实上,有些RDBMS开始借鉴MapReduce的 些思路(如Aster DATA和GreenPlum),而基于 MapReduce的高级查询语言(如Pig和Hive)也使 MapReduce更接近传统的数据库编程,二者的差异 将变得越来越模糊” 。 表1 关系型数据库管理系统(RDBMS)与 MapReduce的比较 RDBMS MapReduce 数据量 GB PB 访问形式 交互式和批处理 批处理 更新频次 多次读写 一次写入,多次读取 结构模式 静态模式 动态模式 结构化程度 结构化的数据集 半结构和非结构数据集 完整性 高 低 横向扩展 非线性 线性 来源:根据White(2012)整理。 大数据分析的可行性问题指的是,数据量可能大 到已经超过了目前的存储能力,或者尽管没有大到无 法存储,但是如果算法对内存和处理器要求很高,那 么数据相对也就“大”了 。换句话说,可行性问题 主要是,数据量太大了,或者算法的复杂度太高。大 数据分析的有效性问题指的是,尽管目前的硬件条件 允许,但是耗时太久,无法在可容忍的或者说可以接 受的时间范围内完成。目前对有效性的解决办法是 采用并行处理。注意到,高性能计算和网格计算也是 并行处理,但是对于大数据而言,由于很多节点需要 访问大量数据,因此很多计算节点会因为网络带宽的 限制而不得不空闲等待。而MapReduce会尽量在计 算节点上存储数据,以实现数据的本地快速访问。因 此,数据本地化是MapReduce的核心特征。 五、结论 首先,数据科学不能简单地理解为统计学的重 命名,二者所指“数据”并非同一概念,前者更为宽 泛,不仅包括结构型数据,而且还包括文本、图像、视 频、音频、网络Et志等非结构型和半结构型数据;同 时,数量级也是后者难以企及的(PB以上)。但是 数据科学的理论基础是统计学,数据科学可以看作 是统计学在研究范围(对象)和分析方法上不断扩 展的结果,特别是数据导向的、基于算法的数据分析 方法越来越受到学界的广泛重视。 第二,从某种程度上来讲,大数据考验的并不是 第31卷第5期 魏瑾瑞蒋萍:数据科学的统计学内涵 ·9 · 统计学的方法论,而是计算机科学技术和算法的适 应性。譬如大数据的存储、管理以及分析架构,这些 [2]C Lynch.Jim Gray’s Fourth Paradigm and the Construction of the Scientiifc Record[A].T Hey,S Tansley,K Tolle.The Fourth Paradigm:Data—Intensive Scientific Discovery[C].Microsoft Research,2012,177—185. 都是技术上的应对,核心的数据分析逻辑并没有实 质性的改变。因此,大数据分析的关键是计算机技 术如何更新升级以适应这种变革,以便可以像从前 [3]朱扬勇,熊赘.数据学与数据科学发展现状[J/OL].http:// WWW.paper.edu.cn/releasepaper/content/201 106—329.201 1— 06一l6. 样满足统计分析的需要。 第三,大数据问题很大程度上来自于商业领域, 受商业利益驱动,因此数据科学还被普遍定义为,将 [4]郑京平,王全众.官方统计应如何面对Big Data的挑战[J].统 计研究,2012(12):3—7. 数据转化为有价值的商业信息的完整过程。这种强 调应用维度的观点无可厚非,因为此处是数据产生 的土壤,符合数据科学数据导向的理念。不过,早在 20世纪90年代中期,已故图灵奖得主格雷(Jim Gray)就已经意识到,数据库技术的下一个“大数 据”挑战将会来自科学领域而非商业领域(科学研 究领域成为产生大数据的重要土壤)。他提出科学 研究的“第四范式”是数据,不同于实验、理论、和计 算这三种范式,在该范式下,需要“将计算用于数 据,而非将数据用于计算”。这种观点实际上将数 据从计算科学中单独区别开了。 第四,数据科学范式对统计分析过程的各个环 节都提出了挑战,集中表现在数据收集和数据分析 这两个方面。数据收集不再是刻意的、经过设计的, 而更多的是用户使用电子数码产品的副产品或用户 自行产生的内容,这种改变的直接影响是淡化了样 本的意义,同时增进了数据的客观性。事实上,在某 些场合(比如社会网络数据),抽样本身是困难的。 数据的存储和分析也不再一味地依赖于高性能计算 机,而是转向由中低端设备构成的大规模群组并行 处理,采用横向扩展的方式。 第五,目前关于大数据和数据科学的讨论多集 中于软硬件架构(IT视角)和商业领域(应用视 角),统计学的视角似乎被边缘化了,比如覆盖面、 代表性等问题。统计学以数据为研究对象,它对大 数据分析的影响也是显而易见的,特别是天然的或 潜在的平衡或相关关系不仅约束了数据质量,而且 为统计推断和预测开辟了新的视野。 参考文献 [1]M Mande1.Beyond Goods and Services:The(Unmeasured)Rise of the Data-Driven Economy[EB/OL].http://www.progressivepolicy. org/2012/10/beyond-goods-and-services.2012—10. [5]P Naur.Report on the algorithmic language ALGOL 60[R]. Comm.ACM,1960(5):299—314. [6]W Cleveland.Data science:an action plan for expanding the technical areas of the field of statistics[J].International Statistical Review,2010(1):21—26. [7]J Tukey.We need both exploratory and confirmatory[J].The American Statistician,1980(1):23—25 [8]T Fernholz,S Morgenthaler,J Tukey,et a1.A Conversation with John W.Tnkey and Elizabeth Tukey[J].Statistical Science,2000 (1):79—94. [9]L Breiman.Statistical Modeling:The Two Cultures[J].Statistical Science,2001(3):199—231, [10]N Zumel,J Mount.Practical Data Science with R[M].EARLY ACCESS EDITION.MEAP,2013,14—31. [11]F Provost,T Fawcett.Data Science for Business[M].O’Reilly Media.Inc.2013.4一l6. [12]J Stanton.Introduction to Data Science[EB/OL].http://ischoo1. syr.edu/media/documents/2012/3/DataScienceBookl1.pdf, 2Ol2—03. [13]R Groves.Three eras of Survey Research[J].Public Opinion Quarterly,2011(75):861—871. [14]王珊,等.架构大数据:挑战、现状与展望[J].计算机学报, 2011(10):1741—1752. [15]T White.Hadoop:The Definitive Guide[M].O’Reilly Media/ Yahoo Press,2010,1—15. [1 6]M Cox,D Ellsworth.Application—controlled demand paging for out- of-core visualization[C].Proceedings of the 8th conference on Visualization.IEEE Computer Society Press,1997:235一ff 作者简介 魏瑾瑞,男,1983年生,河北武安人,2013年毕业于厦门 大学经济学院统计系,获经济学博士学位,现为东北财经大 学博士后科研流动站博士后、东北财经大学统计学院讲师。 研究方向为数据分析方法与应用。 蒋萍,女,1956年生,辽宁大连人,1990年毕业于东北财 经大学,获经济学博士学位,现为东北财经大学统计学院院 长、教授、博士生导师。研究方向为国民经济核算。 (责任编辑:程唏) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sarr.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务