“提纯”大数据 驱动发现与决策

——哈佛大学加里·金教授谈大数据
发布时间:2017-04-28     稿件来源:《群众》(下半月版)     作者:何 乐    
 
 加里·金是美国国家科学院院士、美国统计学学会会员、哈佛大学Albert J. Weatherhead III教授(全校仅24位教授获此殊荣),是社会研究方法领域的世界知名学者。1994年,他与罗伯特·基欧汉和悉尼·维巴合著《社会科学中的研究设计》一书,为整个社会科学建立了一个普遍适用的研究架构。文中多个案例根据其讲座内容整理、编辑而成。

 

当下,“满城尽谈大数据”,但很多人并不理解大数据技术的真正价值是什么。要探讨其价值,就必须先理解何为“大数据”。其实,它有个学名叫做量化社会科学:根据特定目标,对数据进行收集与存储、筛选、算法分析与预测,到结果展示,以辅助相关决策作出最正确的抉择。只不过,信息化社会,让伴随人类社会一直存在的数据变得海量、高增长和多样化,超出传统社会处理能力,需要人们具有更强的决策力、洞察发现力和流程优化能力来“提纯”大数据,来适应大数据时代。

社会科学必须积极拥抱大数据

以实证研究知名、擅长量化研究的哈佛大学政治学系教授、量化社会科学研究所主任加里·金积极主张社会科学应拥抱大数据。“这是一次革命。在庞大的新数据来源的支持下,没有一个领域可以不被量化的步伐触及。”

在公共政策层面,加里·金教授曾成功运用大数据技术,为美国社会保障管理总署进行评估,进而发现美国社保账户及人口寿命的预测存在系统性偏差。社会保障平台是美国最大的单一政府平台,它的资金是跨代流动的——当前退休者的养老金供给来自于现在工作的人交的税金。正确预测信托基金项目的资金流,以及人口寿命,关乎整个社会养老金体系的长久存续。改变传统的定性分析的模型,评估组引入大数据技术,结果发现自2000年以后,由于一些药物的使用和癌症早期发现率的提高,美国人比预测更长寿了,直接导致美国社保信托基金至少存在8000亿美元的缺口。这一发现,影响了奥巴马政府在税率、退休年龄等公共政策层面的决策。

“全球脉动”行动计划,是“大数据+公共政策”在现实中的又一次实践。作为联合国发起者希望它对全球的发展起到杠杆作用。借助自然语言破译软件,对社交网络中信息进行情绪分析,评估特定地区发生失业、开支缩减或疾病爆发的可能性,形成数字化的预警信号来预先指导援助。

数据的价值在于分析

加里·金教授认为当前世界各国积极部署大数据技术战略,其意义不应仅限于掌握庞大的数据信息,而应在于对有意义的数据进行专业化处理,提高数据的“加工能力”,并通过“加工”实现数据的“增值”。这里的“加工”就是“分析”,它是数据价值得以体现的关键。

离开分析,数据就只是伴随科技进步而产生的免费的副产品。一团体为了让成员能更高效地注册而引进了注册系统,掌握了很多信息。这些都是因技术改进而产生的数据增量,但并不代表能利用这些信息的全部含义,即“有用”。

“价值含量、挖掘成本远比单纯的数量更为重要”。大数据的真正价值在于数据分析。大数据本身并不会自动产生好的分析结果。如果数据残缺、断章取义或者被破坏,极有可能会导致相关部门作出错误的决策。因此,大数据时代的关键在于运用科学的方法来分析海量数据并从数据分析中“提纯”有益于社会发展和进步的观点。

定性分析弥补定量数据的“盲区”

数据量不断膨胀,数据多样性程度不断提升,不等于可以产生更多的发现。很多时候,海量数据反而会加大数据分析的难度,耗时耗力且无益于解决当下面临的问题。如果缺少有效的分析方法,大数据就难以对社会发展产生积极影响。

可喜的是,在各新式分析模型助力下,如主体建模、文本分析、深度学习、复杂网络建模,大数据开始真正驱动了。通过使用精妙的统计学方法,量化的前进步伐进入了学术、商业和公共政策等领域,过去不能量化的信息,如强定性属性的音频和视频,在大数据时代,都成为可被分析被量化的存在。

但需看到,目前仍有一些内容未能被完全量化。大数据时代,定性分析、定量分析仍需要配合操作,才能避免“大数据傲慢”。一个著名的例子就是谷歌的“谷歌流感趋势”,通过“用户生成数据”,即汇集人们在谷歌上搜索的关键词,迅速标示流感疫情的发展、扩散情况,只需要1天就可以生成一份最及时的报告,而不是美国国家疾病预防控制中心的2周。但谷歌的工程师无法对网民群体进行定性分析,即证明在网上进行搜索的群体等同于流感涉及的群体。因此,谷歌所收集到的数据是一个有偏样本,基于该样本作出的数据分析存在失灵风险。大数据并不是“全数据”,后者是通过专门的理论设计和测量工具产生,而前者多数是相关部门业务流程数据的沉淀,尽管规模巨大,但其样本的代表性有偏。

数据的相关性不等于事实的因果性

关键字列表是大数据分析中一个经常用到的定量分析方式,通过收集包含这些关键字数据出现的频率,进行相关性分析,但在数据和分析的基础上做出的决策依旧难免风险的存在。统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。

加里·金教授在2011年发起了一个大数据分析项目,意在通过检测Twitter和其他社交媒体帖子中的“工作”、“失业”和“分类”等关键词,测算美国的失业率,借以评估次贷危机后美国经济的复苏情况。项目组通过使用情感分析的技术,收集相关帖子,并试图找出这些帖子的增减是否与每月失业率存在相关性。结果发现,一段时间内,关键字“Job”(工作)的帖子数量急剧增加,但这与失业率毫无关系。此Job非彼Job,项目组忽略了同时期苹果公司CEO史蒂夫·乔布斯(Steve Jobs)去世的消息。

Jobs的例子是一个经典的案例,数据本身并不等同于智慧。”加里·金教授事后进行了总结:虽然很多大数据分析都产生了有用的内容,但大数据实质是一个工具,不应该被视为解决方案本身。完全依靠大数据来指导决策,从相关性得出结论,而不进一步分析,是危险的,决策的错误率将会非常高。

 

大数据的4V理论

美国互联网数据中心(IDC)认为大数据技术具有容量(volume)、类型(variety)、速度(velocity)和价值(value)四性。

数量(Volume),即数据巨大。在数字数据洪流时代,每个人都可以获得大量数据信息,相当于古希腊时代最富盛名的亚历山大图书馆存储的数据总量的320倍之多。

多样性(Variety),即数据类型繁多。多样化的数据来源所映射出的相关性正是大数据的威力所在,例如从电网数据中统计出傍晚办公楼集中关灯的时间,估算出晚上的堵车时段。

速度(Velocity),即产生、处理速度快。数据挖掘趋于前端化,提前感知预测并直接提供服务。例如,电子商务网站从点击流、浏览历史和行为(如放入购物车)中实时发现顾客的即时购买意图和兴趣,并据此推送商品。

价值(value),即从超大容量的多样数据中经济地提取价值。数据的重要性就在于对决策的支持,本能地要求数据高质量。

【加入收藏】    【打印此文】     【关闭】
分享到:

本社地址:南京市建邺路168号4号楼 邮编:210004 电子邮箱:qz@qunzh.com

办公室电话:(025)83219816 违法和不良信息举报电话:(025)83246532,(025)83219815

中国互联网举报中心:https://www.12377.cn

Copyright @ qunzh.com all rights reserved 群众杂志社版权所有 苏ICP备10218479号

互联网新闻信息服务许可证32120180001号

中国互联网视听节目服务自律公约