无标题文档

大数据与数据驱动的智慧

发布时间:2018-01-08     稿件来源:《群众•大众学堂》2017年第6期     作者:梅 宏    

主讲人:梅宏,中国科学院院士,发展中国家科学院院士,现任北京理工大学党委常委、副校长。曾获国家自然科学二等奖、国家技术发明二等奖、国家科技进步二等奖,以及教育部自然科学一等奖、教育部技术发明一等奖等。主要从事软件工程和系统软件领域的研究,在构件化软件中间件、开发方法学和工具环境等方面取得了系列成果。2017年12月8日下午,梅宏院士为中共中央政治局集体学习讲解大数据战略。

 

随着物联网、云计算、移动互联网等网络技术的应用、发展与普及,社会信息化进程进入大数据时代,海量数据的产生与流转成为常态。2015年,国务院印发《促进大数据发展行动纲要》等文件提出实施国家大数据战略;2017年12月,中共中央政治局在十九大后第二次集体学习聚焦大数据战略。大数据正成为现代化信息技术的新热点、产业发展的新方向。这里,我结合多年对大数据的研究,谈谈自己的理解和体会。

“信息时代新阶段”的高度认识大数据

信息技术革命与经济社会活动的交融催生了大数据。所谓大数据,是信息化到一定阶段之后必然出现的一个现象,主要是由于信息技术的不断廉价化,以及互联网及其延伸所带来的无处不在的信息技术应用。大数据有四个驱动力,即摩尔定律所驱动的指数增长模式,技术低成本化驱动的万物数字化,宽带移动泛在互联驱动的人机物广联连接和云计算模式驱动的数据大规模的汇聚。

大数据不仅是量大,重要的是多元。从技术能力的视角来说,大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集,同时并不是超过某个特定数量级的数据集。从数据内涵的视角来说,大数据是具备海量、高速、多样、可变等特征的多维数据集,需要通过可伸缩的体系结构实现高度的存储、处理和分析。与过去信息化不一样的,大数据的很多东西不是过去那种主动采集产生的,而是信息系统通过各种各样的交互自然产生的。

当前,大数据开启了信息化的第三波浪潮。如果我们回顾来看,大体上能够看到两个明显的阶段划分:一个是从PC机进入市场带来的信息化的第一波浪潮,这个浪潮差不多到上世纪90年代中期,这个时候的主要特征是单机应用为特征的数字化;另一个是从上世纪90年代中期到现在,互联网推动了软件从单机向网络计算环境的延伸,带来了信息化的第二波浪潮,其基本特征是以联网应用为特征的网络化。现在我们正在进入新的阶段,即以数据的深度挖掘和融合应用为特征的智慧化。

大数据研究面临诸多挑战

大数据成为人类认识复杂系统的新思维、新手段,成为促进经济转型增长的新引擎,成为提升国家综合能力和保障国家安全的新利器,成为提升政府治理能力的新途径,其重要性已成各界共识。

在大数据热潮中,许多地方政府和国有企业纷纷上马大数据平台建设项目,甚至不顾本身应用需求和环境约束盲目上马,已经出现超前投资、重复投资导致的资源浪费现象。大数据理论和技术的发展都还处于早期阶段,但大数据现象将长期存在。

国际上,大数据于2012、2013年达到宣传高潮,2014年后概念逐渐成熟,对其认知趋于理性。中国大数据领域发展较国际落后3到5年,“大数据”概念持续升温,但仍存在“炒作”现象。这是为什么呢?原因有三点:首先是我们当前对数据认识不到位,只是把其当成获取资源的一个途径。其次,大数据投入过热,资源的浪费比较明显,特别是数据中心的投入。再次是我们认为大数据的理论和技术都还处于发展早期,尽管对大数据的定义已有了共识,但是对它的核心观点和命题还有很多争议,比如大和小到底怎么来定义等。此外,对于从事计算领域研究的人来讲,总希望能为数据的处理方式提供一种手段,但当前数据科学的理论基础还没有,很多数据分析的结论基本上缺少因果,缺少理论知识,都是靠关联关系建立起来的。

这些都给大数据研究带来了挑战,分为两大类:一方面是数据的管理。主要指计算机的技术,如数据库管理系统。传统的关系型数据库追求数据的一致性和系统的高性能,没有预先定义的模式使得一致性难以支持,高性能也难以实现。此外,在数据处理方面也面临问题。由于单台计算设备不管性能有多高,它也不可能把数据处理完,所以并行处理成为不二选择,但要并行处理就面临不同数据的需求,比如批处理、流处理、图处理。现在一直在探索是不是存在通用的数据处理方法或数据处理平台能适应所有类型的数据,但目前来看并没有。

另一方面是数据的分析。第一是分析对象的改变,过去是预处理后的数据,现在是原始数据;以前是样本数据,现在是全数据;以前是单源单模态数据,现在是多源多模态数据。第二是分析的需求发生变化,现在需要更加准确的高精度分析,还有复杂关联的深层特征和大规模的复杂关联。第三是分析模型能力的变化,目前来看,许多的大数据分析方法主要是可视化的展现、统计分析和机器学习的技术,我们需要追求的是从表达力受限的低维数据到高信息量的高维数据、从弱表达力的简单模型到强表达力的复杂模型。最后是现有的以通用性考虑为主的IT体系很难满足大数据的需求,有必要考虑对整个IT架构进行革命性的重构。

大数据应用尚处于初级阶段

大数据应用成为一种趋势,不仅仅在于它能提升人们生活的便捷度,改变人们的生活习惯,更在于它背后的观念变革,有可能引起社会结构的变化。一方面,“万物互联”的特性,让大数据分析能够抽丝剥茧,揭示那些隐藏在行为背后的内在规律,促使人们更好地认识自我、理解社会;另一方面,“物皆有灵”的品质,不仅让生活更加智能化、智慧化,还将影响人际交往方式,塑造不一样的社会生活。某种意义上,谁能下好这步“先手棋”,谁就能掌握开启未来之门的钥匙。

在大数据应用中,应该冷静、审慎。真正的大数据应用应体现在数据挖掘的深度和多源(跨界)数据融合的广度上,绝不仅仅是单源数据的“海量”。“大”未必一定胜过“小”。承载“规律”的模型驱动更符合人类探求知识的本性,无论从大数据的深度和广度来看,均难有真正意义的“全体数据”,就现实世界的复杂性而言,均是抽样数据。如果只是一个量大的数据进行规律统计,或者仅仅是一元的数据进行规律统计、分析、发布等都不叫大数据。

描述性分析(发生了什么)、预测性分析(可能发生什么)、指导性分析(选择做什么)是大数据应用的三个层次。第一层次是关注当前发生的现象,把发展的态势曲线描述出来,呈现发展的历程;第二层次是在当前分析的基础上预测未来可能发生的现象,呈现事物发展趋势,比如说流感的预测,奥斯卡的预测;第三层次则不仅是预测未来,而是通过做一个动作对产生结果的预判来对当前态势的决策作出指导。

与此同时,当前的大数据应用呈现这么几个特点:描述性、预测性应用较多,指导性应用较少;基于单一数据源和已存在数据集的应用较多,基于多源多态数据和主动收集数据的应用较少;模型导向类应用较多,需求导向类应用较少。上述特点表明,大数据应用尚处于初级阶段。

数据驱动的智能时代正在到来

对大众来说,人工智能充满着科幻色彩;对科学家来说,人工智能可能是最受内心驱动、最具理想色彩的一门科学。早期的人工智能都是硬编码,即高级程序设计,后来长期的发展开始走基于规则的智能,实际上就是基于逻辑的,构建一个规则库和一个事实库,加上逻辑推理。当时人工智能很长时间受到批评,认为人工智能没有产生什么实际的效果。

现在正在进行的人工智能,它和过去的做法不一样,这是数据驱动的智能。它是利用机器学习和统计分析的方法从数据中自己向上发现规律。本质上是把人的智能问题转化成计算问题,这个计算的问题要么是逻辑推理算的,有一个规则去驱动的,要么是通过数据处理的方式从数据里面生成的。

机器真的能拥有人的智能吗?现在有种提法是类人智能和类脑智能,我们国家在进行脑计划,有类脑计算,即借鉴大脑中进行信息处理的基本规律,在硬件实现与软件算法等多个层面,对于现有的计算体系与系统作出本质的变革,从而实现在计算能耗、计算能力与计算效率等诸多方面的大幅改进。大体分成三个层次:第一个是传统的人工智能走的路,一个软件加上一个知识库,在上面做推理;第二个是形成一个自演化的知识库,靠数据的方式解决,从数据里面能够不断地提炼一些东西出来,知识库能够自己去增长;第三个是生成自演化的软件,现在所有的软件,一旦写好以后,编译结束以后是改不了的,自演化的软件能够使机器自己改代码,但现在肯定是不可能的。


责任编辑:孙秋香

【加入收藏】    【打印此文】     【关闭】
分享到:
无标题文档