话题·大数据你读懂了吗

发布时间:2015-03-09     稿件来源:《群众•大众学堂》    
 

“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”

——马云

 

时下最热的概念莫过于“大数据”,作为一个行业专业术语,充斥着网络、报纸和我们的生活。显然,我们已经站在了一个属于“大数据”的时代,对于大数据,我们真的读懂了吗?

何谓大数据

大数据技术(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。

对于“大数据”,专业信息技术研究公司Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。数据科学家维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》中提出,“大数据”时代人们对数据研究方面最大的转变,就是着重于相关关系的实际价值而不再固守因果关系。也就是说不再苛求由因到果的推导顺序,而是更加关注数据关系所展现的未来趋势。

大数据是云计算、物联网之后IT行业又一大颠覆性的技术革命。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。

大数据的特点

要理解大数据这一概念,首先要从“大”入手,“大”是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4V来总结(VolumeVarietyValueVelocity),即体量大、多样性、价值密度低、速度快。第一,数据体量巨大。从TB级别,跃升到PB级别。第二,数据类型繁多,如网络日志、视频、图片、地理位置信息,等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据将改变人类解决问题的方式

以往我们主要是通过分析方法来解决问题,首先建立模型和定律,然后通过逻辑推演出新的模型和定律。Innovation EndeavorsZavain Dar提出,由于计算机系统和网络的发展,大数据崛起和API的蔓延将改变我们解决问题的方式。过去,我们是通过建立新颖的分析模型来推导出新发现,现在则变成了通过建设基础设施及能力,用综合化的手段去解决同样的问题。他举例说,对于web排名这件事,Google的科学家的做法并不是通过页面和链接的关系推导出某种定理来用于更好地进行搜索,而是通过收集并综合之前的点击流和链接数据来预测未来用户希望看的东西。而Amazon也没有归纳出什么电子商务定律来指导了解谁将购买什么,而是通过历史的事件来优化未来的活动。

GoogleAmazon都是将解决问题方式从分析向综合转移的早期例子,因为这两家公司的产品都是建立在数字化媒介当中的数据之上的。数据的创建、存储及用来与数据交互的接口都是数字化、自动化的。但现在随着大数据的流行和API的普及,数据科学和基础设施方面的先驱已经通过建立高吞吐低时延的设施来获得渐进性、可预测的综合性创新和洞察,摒弃过去那种跃进式、但耗时长的分析性做法。

从分析方法论转向综合方法论的转变,其潜在意义将是巨大的。博云网表示,以往,这些方法局限在人工智能及信息获取等计算机科学领域,一切数字化以后,我们将不再需要预先设定的结构和公理这些知识性甚至哲学性的负担了,基础架构的普及就可以加速综合型问题解决的普及。Marc Andreessen曾提出过软件蚕食世界的观点,Dar认为,这个观点应该修正为数字化数据集+输入输出自动化机制+软件将会以综合方法论的问题解决方式蚕食世界。

玩转大数据

大数据的处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。

采集:大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片需要深入的思考和设计。

导入/预处理:虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

统计/分析:统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

挖掘:与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,实现一些高级别数据分析的需求。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

面对大数据,我们应该做些什么

一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。

二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。

三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。

四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。

【加入收藏】    【打印此文】     【关闭】
分享到:
无标题文档