某位多年的老友,曾经谬赞我很英明,因为在大数据火爆之前,我早已开始研究大数据。其实,大数据只是个概念,有没有提出它、它有没有红火,大数据相关的需求是早就出现了的。
对于一个规模较大、尤其是IT依赖较重的企业来说,数据体量早就成为障碍。除了从软硬件基础上改进(如采用大规模并行处理MPP)之外,如何在应用系统中改进算法,使用户体验到的性能足够令人满意,是必须解决的挑战。
“1秒定律”这样的互联网法则,进一步提升了用户的期望。如果说,曾经的企业应用,让用户等上几分钟、甚至几小时来获取复杂查询的结果,是完全可以接受的,那么,B/S应用让用户觉得,这不过就是个网页嘛,必须1秒钟给我结果,超过10秒我就关浏览器了。
搜索引擎加剧了问题的严重性。用户会认为,用Google搜索整个互联网,1秒就可以出结果,一家企业的数据再多,也多不过互联网吧,为什么不能像搜索引擎那么简单。用户不会明白,搜索引擎其实是一个简单的数据库检索,而用户搜索的也并不是互联网,只是一个索引库而已。
企业应用也可以像搜索引擎那样“偷梁换柱”,把用户的需求事先考虑在系统中,简单点的像是BI报表或Dashboard,复杂一些的像是自助查询或按需求取数等。这也正是前些年热门的企业数据仓库EDW和商业智能BI。
但是大多数据EDW/BI都宣告失败(所以我曾经写过《数据仓库已死》)。根本原因在于,数据仓库试图采集和建模整个企业的全部数据,从而为企业业务开展和决策管理奠定基础,然而随着时代的发展,企业已经没有边界,传统的供应链、产业链逻辑无法界定很多问题,网状的互联企业(Interconnected Enterprise)使得EDW中的企业数据只是一个局部。于是CXO对EDW/BI说:你是精确的错误,我是大概的正确。
我常常说,企业就像一头大象,要看清它,离得太近就可能认为它是“一根绳子”、“一堵厚墙”或“一个柱子”,而无法还原为“企业大象”。因此,仅依靠企业内部数据是非常不足够的,而必须采用更多的外部数据。例如,社交网络上的用户数据、专业论坛上的用户评论、电商网站上的交易数据以及行业信息、竞争对手信息、第三方机构的分析报告等等。
很显然,这种基于多来源的异构环境、数据源和业务需求都存在巨大不确定性的情况,传统的企业应用根本束手无策。相当程度上,企业信息化程度越高,就越成为业务发展的桎梏,因为稳定和成熟的IT系统,无法满足业务迅速变化所需要的高度灵活性。
这便是大数据概念提出的时代背景。数据体量越来越巨大,数据结构越来越多样化,传统的数据技术和数据应用根本无法适应。
更糟糕的是,大数据的时代背景是信息爆炸,其基本特征是:数据存储飞速膨胀;信息泛滥急剧攀升;无效信息铺天盖地;信息超载无所不在;信息疾患草木皆兵。这使得,数据体量和数据复杂性的严重程度不仅难以缓解,反而日益加剧。
比更糟糕还要糟糕的是,日益肿胀的大数据,绝大部分都不靠谱,我也说过,大数据=大垃圾。你说它是金矿?你说它是石油?好嘛,那你就付出成本去开矿、去钻探吧,但绝大部分时候,你将一无所获。另一种“1秒定律”是,你想方设法挖掘了24小时的视频信息,找不到你需要的哪怕1秒钟的有价值内容。
正所谓:这是最好的时代,这是最坏的时代,这是大数据的时代。大数据工作者,被称为这个时代最性感的人。因此,如果性感是一种罪,那你罪有应得。