我经常引用一句老外的话:
“我们在数据的海洋中遨游,水中满是鲨鱼,而且海平面在快速上升。”
确实,我们生存在一个大数据的世界中:每一秒,全球发送电子邮件300万封;每一分,YouTube上传20小时视频信息;每一天,微博新贴1亿条、淘宝交易2000万笔,而Google处理数据近30PB……
按照著名的IT先驱、小型机之父戈登·贝尔(Gorden Bell)估算,将一个人一生说过的话、见过的事物等一切与生活相关的信息都整理成文字,所需的存储容量,是3TB。
戈登·贝尔决不是信马由缰随口乱说的。1995年他加盟微软,担任微软旧金山实验室的首席科学家。1998年,他极富远见地启动了大数据项目MyLifeBits,旨在制造一台存储一个人一生中所有信息的机器。我曾写过《个人大数据让你灵魂不朽》,介绍这段传奇故事和他的《全面回忆》一书。
然而你知道吗?Twitter一天要处理的数据量,多达7TB!你会觉得恐怖吗,你两辈子产生的数据,不及Twitter的24小时。
To be or not to be,我们的时代,就是这样一个数据大爆炸的疯狂时代。但为什么是当今时世,不早也不晚,成为大数据时代呢?
一、移动终端的普及,使数据收集和传播变得简单
据统计,2011年全球连接互联网的设备总数为40亿台,而今年(2015),这个数字将将增至至少150亿台。
现在,除服务器、存储器、PC或平板终端、智能手机、游戏机等设备可以联网之外,电视机、数码相机、家用生活电器也纷纷加入可以联网的行列。据Digital TV Research公司根据从40个国家采集的样本预测,到2016年,全球连接到互联网上的电视机数量将从2010年的1.24亿台增长到5.51亿台,全球拥有电视的家庭中,电视机可以上网的比重约为43%,2010年时这一数字仅为11%。
在这样的大环境下,智能手机的普及成为大数据时代的标志。超过60亿人至少拥有一部手机,而全球一共70亿人。通过智能手机,用户收发邮件、存储、发送和接收各种数据,可以用手机登录社交媒体,频繁发贴与他人交流。将手机拍摄的照片和视频上传到社交媒体或分享网站的行为,已经成为人们日常生活的新常态。总体来看,超过2/3的智能手机用户,正在使用某种社交媒体,而微信的普及更让手机控、低头族成为都市生活病态场景。
自2013年之后,智能手机的总出货量一直呈上升趋势,预计到2016年,智能手机的商场占有经将接近90%,苹果、谷歌和微软在智能手机市场的激烈竞争程度是前所未有的。
正是智能手机的普及,使每个人都能随身携带“数据采集设备”,并随时随地交换大量信息。
二、传感器无处不在,使曾经无法获得的数据唾手可得
大数据的价值,在于使以前无法了解的东西变得明朗。之所以能够实现,重要原因之一是无处不在的传感器,帮助人们收集到那些以前无法获得的数据。
环顾你的周围,每个人的手机上都搭载了GPS(用于卫星定位)和陀螺仪(测量物体角度和角速度)等传感器。冰箱上安装了感知冰箱门开关的传感器,空调中搭载着控制温度的传感器,就连通过自动感应人的存在来控制照明开关的装置上,也安装了传感器。
传感器的应用范围不仅包括与自然相关的气象、地震观测等人们熟知的领域,还包括道路交通流量信息监测、农业水质土质监测以及防洪水量监测等领域。显然,传感器数据中不仅有数值数据,还包括各种图像数据。
燃气轮机上安装了300~1000个传感器;汽车上安装了150个以上的传感器,并且还在不断增加;车站、商店安装传感器监测人流;用传感器不仅可以监视建筑物老化程度和自来水管道漏水情况,甚至可以植入人体,监测血管流通情况,并在犯罪预防等领域发挥作用;安装在办公室内的传感器可以通过收集气温、湿度、电脑运转效率等信息……各种传感器应用场景,只有想不到,没有做不到。
如今,传感器性能不断提升的同时,体积越来越小、重量越来越轻、耗电量越来越少,而价格却在不断下降。这使得传感器的应用门槛不断降低,从而对传感器的应用范围扩大和传感器信息的增加起到巨大的促进作用。
三、社交媒体野蛮生长,极大促进了大数据量的飞速膨胀
外媒报道,全球共有45亿人使用社交媒体,其中:有5亿人使用Twitter,平均每天发布3亿4000万条推文;Facebook在全球拥有9亿5000万用户。正是全球个人用户发送的大量数据,引发了数据的大爆炸。
在中国,社交媒体同样也改变了中国人的沟通方式和思维方式,越来越多的中国人开始使用社交媒体,花在社交媒体上的时间越来越多。虽然中国有独特的“防火墙”国情以及过度娱乐化和挥之不去的利益链条,但经过多年的发展,休闲娱乐、微信息社交和垂直社交已经形成中国社交媒体的特色,并不断向移动化、垂直化、社群化的方向迁移。
企业也在活用社交媒体。据麦肯锡统计,目前已有80%的企业使用了社交媒体,而IDC的调查也表明,社交媒体是企业投资中增长最快的领域。
IBM的调查表明,企业最重视的顾客交流方式,社交媒体排名第二,仅次于第一名“面对面”,远远领先于传统以为非常重要的“网站”、“渠道合作伙伴”以及“呼叫中心”等。
企业对社交媒体的高度重视,今后一定会变得司空见惯,社交媒体被应用于企业经营活动的时代已经到来。
四、IT技术持续更新,海量数据处理变得消费化、日常化
另一位戈登、英特尔创始人戈登·摩尔(Gorden Moore)早在上世纪80年代就预言:集成电路上能容纳的晶体管数量,每18个月必翻一番,而价格则降一半。这位神人提出的“摩尔定律”直到现在都仍然有效。
晶体管的数量极大地影响着CPU的处理性能。2010年晶体管的数目是2003年的32倍,而十余年来,CPU的处理性能已提升至以前的100倍。
进步显著的不只是CPU。随着网络无线化的发展,传递数据的网络环境也在迅速变化。如果,数据传输速度已提升至10年前的1600倍。
数据存储器的容易不断增加、价格不断下降的同时,使用闪存技术的固态硬件SSD逐渐进入了大众的视野,能够高速处理海量数据的环境也因此明朗起来。
由于这些基础技术的飞速进步,IT对海量数据的处理能力与十年前不可同日而语。今天的智能手机,性能远超曾经的PC;而今天的PC服务器,性能也不输曾经独占鳌头的小型机。
数据专业领域也应声而变。基于大规模并行处理MPP的数据仓库一体机,曾经是数据处理性能的代名词,而今天,一方面MPP继续前进,一方面“数据仓库已死”(我曾经写的一篇文章),随便一个开源数据库的性能也不输昨日的数据仓库,而非关系型数据库也百花齐放,很多产品已经超越商业应用的业务需求。
五、云计算朝代的到来,帮助我们存储“无限的数据”
云计算的概念提出于2006年,是众多被曲解的IT术语之一。经过近十年的发展,随着基础技术的巨大进步以及大数据时代的到来,云计算终于迎来春天。
通过网络,云用户可以共享异地服务器中存储的应用程序或数据。由于无须拥有自己的服务器,云计算既可减少系统构建初期所需的投资,保障系统在短时间内运转自如,也可在灾害来临时将数据存储到安全的地方。用户根据信息使用量支付相应的费用。这种信息使用方式,可称为“由拥有信息系统向共享信息系统转移”。
在一定意义上,云计算之所以“返老还童”,大数据的作用日益显著是根本性的驱动力。
传统企业的信息系统,在数据存储容量上是有物理性上限的。个人用户尽管可以将发送和接收的邮件及其附带的各种文件、图片等数据保存到自己的电脑硬盘或手机存储卡中,但这些设备能够存储的数据也是有限的。
但在云环境下,我们就无须考虑存储量上限、增设服务器等问题了。因为我们可以在毫无意识的情况下,将各种数据和应用程序存储到网络数据中心,其容量可以通过极其简单的操作得以扩展。也就是说,与电脑内置硬盘不同,云服务的存储容量是没有物理上限的。
夸张一点说,云服务可以供我们无限使用。这也是企业和个人对云计算的兴趣日益高涨的原因这一。
云计算的普及,为企业和个人存储数据和共享数据提供了保障。能够无限存储数据的云服务,成为大数据时代加速发展的催化剂。
六、大数据技术的蓬勃发展,使海量数据的解析处理成为可能
以Hadoop为代表的、与大数据时代相适应的技术的诞生与发展,为海量大数据的解析处理提供了平台保障。
现实基础是,尽管数据量在不断增加,IT领域的投资预算却在不断消减,因此必须依赖技术进步、而不是增加IT管理人员来解决问题。Hadoop可以让多台计算机分工处理同一项运算活动,从而大幅缩短数据处理时间。
另一方面,数据存储技术也取得了令人瞩目的进步。通过采用闪存这种半导体技术取代传统的旋转轴式硬盘,能够实现数据的高速处理。通过10倍速大幅提升数据压缩率,使同样的物理容量可以存储更多的数据。通过100倍速提升数据检索速度,使人们对高速处理大数据的需求得到满足。
人们还需要不同的技术来灵活应对不同种类的数据处理。统计处理大数据的技术有两种,一种是定期总结并处理交易数据等数据的大批量处理技术,另一种是实时处理基于价格变动的股票交易等数据的流式数据处理技术。流式数据处理需要以分、以秒为时间单位进行数据处理,是当今大数据技术的重要发展方向。人们更期望的是,将两种技术结合起来,即使是在数据统计时间长、更新次数多的情况下,也可以实现比以往更为高速的数据处理。
七、海量的显性知识,能够使更多的隐性知识显性化
大数据的有趣之处在于,在大量收集显性知识的过程中,那些隐藏在表面之下的隐性知识就会渐渐浮现在我们眼前,从而带来完全不同的价值。
例如,开关冰箱门的次数、冰箱内温度的变化以及开关冰箱门的时间,这些传统上不会觉得有价值的数据,如果收集起来,就能控制冰箱的运转。如果早上开关冰箱门的次数较多,就要确保该时间段内冰箱内的温度不变;如果是在开关门次数较少的深夜,就要切换到省电模式。
冰箱开关门之类数据虽不大,但属于典型的大数据。大数据的本质并不在于数据的多寡,而是在于IT系统的结构是否发生转变。大数据的核心在于,收集到以往无法收集的数据,看见以往看不见的事物。
所以,大数据的特点在于:大量聚集那些可以直接得到的信息(显性知识),进而导出隐藏在表面之下的隐性知识。
冰箱开关的时间数据,就是“可知的信息(显性知识)”,但是如果将这样的数据大量收集起来,根据“在经常开关冰箱门的时间段中,有部分地区的冰箱门开关次数有所减少”这一现象,我们就可以推断出该地区可能举办了“万人空巷”的大型活动,大多数人都外出了。这样一来,“显性知识”就变成了看不见的“隐性知识”。
大数据的特别之处还在于,不论是结构化数据还是以各种形式呈现的非结构化数据,都可以在相互协作的状态下对其进行数据分析,从而揭示以往不能发现的规律。
例如,如果将各地商铺的销售数据与气温变化、气象数据及该区域的大型活动等其他数据相结合,我们就可以预测今后一个星期内,哪些店铺中的哪些东西可以畅销。
八、层出不穷的应用需求,通过创造价值驱动大数据迅猛发展
以上七点,都是大数据产生与发展的背景和驱动力。但真正带动大数据成为产业的,是层出不穷的大数据应用需求。它们通过不断创造价值,牵引大数据创新数据资源、数据技术及数据管理全生命周期,从而改变商业模式,创造更大价值。
在接下来的几天里,我们继续讨论典型的大数据应用。