当年刚出道时,我是网络工程师,玩儿的是Cisco网络设备的命令行配置。后来“路过”Java开发,以技术升迁路径到达CTO的位置。
尽管我是这种标准的工科技术出身,我却早已成为最不爱讲技术的“忽悠师”。我常常开玩笑说:我总是跟业务讲IT、跟IT讲业务,最后大家都觉得我厉害,其实我什么都不会。
在我看来,数据也好、技术也好,IT也罢、DT也罢,如果没有业务价值,一切都等于零。所以我也常说另一句话:(在商业环境里)没有商业价值的技术就没有价值,技术能够创造的最好成绩是零分。
因此无论任何问题,我习惯于先讨论业务,再看技术能否实现、数据能否支撑,而不像很多IT人一样是先看实施上怎么做,做不到就否定、就说业务需求太复杂。[有一个表象,能够鉴别你是哪种人:在画架构图的时候,你是把用户和应用画在上面,还是把基础设施画在上面?]
大数据也是如此。不管多么热闹、不管红火,不能创造业务场景、落地业务价值的大数据,就算不是骗子,那也是骗子。
一、大数据4V特征
尽管当今世界是一个大数据的海洋,尽管大数据的概念已经路人皆知,大数据(Big Data)迄今并无严密的公认定义,通常用4V特征来描述它。
既云“大数据”,首当其中就是Volume(海量),系指数据量太大,难以用传统数据处理手段和工具进行处理。从2005年起,全球每天产生的数据量多达2.5 QB、每年数据总量增加300倍,预计至2020年,预计全球数据总量将达到90ZB。
一方面是数据量大,另一方面却要求Velocity(高速)。极快的增长速度、极高的处理速度,这是大数据的第二个特征。纽约股票交易所每交易时段处理交易信息量高达1 TB,而轿车上用于监控燃油和胎压等信息的传感器接近100个,它们需要得到实时快速处理。2016年全球网络连接数量预计将达到189亿,平均每人2.5个连接。
或许Variety(多样)才是大数据最重要的特征。在YouTube上,视频信息每月被观看40亿小时;2014年,全球可穿戴无线保健监控装置达到4.2亿台。在这个时代,大量人对人数据(网民数据,虚拟社区,社交网络,网络日志等等)、人对机器数据(归档数据,医疗设备,数字电视,电子商务,智能卡,银行卡,计算机,移动设备等等)、机器对机器数据(传感器,GPS设备,条码扫描,安全监控,科学研究等等),使大数据的品类多到不胜枚举。
不幸的是,大数据并不一定像某些人鼓吹的那样神奇,它是Veracity(欠真)的。统计表明,数据质量不佳给美国经济每年造成损失高达3.1万亿美元,而三分之一的业务领导不信任他们用于决策的数据信息,27%的被访者不确定其数据有多少是不准确的。
好消息是,有一部分人认为大数据的第四个特征是Value(价值)。因为统计也表明,大数据已经创造了很高的价值,促进了生产率提升和销售增长。只是人们也发现,大数据的价值密度是很低的,例如连续视频信息中价值数据可能仅1s。
二、大数据本身并无价值
忽悠者云:得数据者得天下。又说,大数据时代,数据是企业资产。但究其实,数据本身是没有价值的,说得极致点,大数据就是大垃圾。
为什么?因为数据本身,是根本不可能有价值的。数据是什么?开关打开是1、开关关闭是0,高电平是1、低电平是0,或者用磁介质、光电质的不同状态表示1和0——总之是一堆二进制数字串。它没有任何价值。
大数据价值的源泉,是将数据转化为智慧。数据-信息-知识-智慧的演进关系,称为DIKW体系(DIKW Architecture)。如果用天气预报来说明,那么:数据是百页箱采集的数字、卫星云图、环境监测的数字,信息是明天的天气、温度、湿度,知识是穿衣指数、晨练指数、洗车指数,而智慧是穿衣混搭方案、减肥健身方案、规避违章方案。
DIKW体系不是一个严密的体系,数据与信息、知识及智慧之间,绝不是简单的直接映射或衍生递进关系。所以DIKW体系也被称为“信息金字塔”,数据在塔底、智慧在塔尖,形象地告诉人们,通过挖掘大量的数据“金矿”,才能得到一丁丁点儿智慧“金子”。
大数据4V特征之价值(Value)特征,表现之一是价值密度低,道理就在这里:虽然数据是资产、是金矿,但能产生知识和智慧价值的数据却是很少的。这就是数据金矿、数据资产的真相:数据只是数据价值的“原石”,数据是否有价值,并不由数据本身决定的。
三、大数据价值来源于智慧能力
在当今大数据时代,企业核心能力不仅是供企业竞争优势的知识体系,更是:通过全面整合各类大数据源、准确把握企业经营信息,以业务洞察为导向、以智慧分析驱动企业决策,从而创新和优化商业模式、提升核心能力的综合能力。
因此,从业务价值创造来说,大数据就是企业的智慧能力,包括以下五大类型。
- 描述现状的能力:整合企业各类数据源,按照业务需求描述企业经营管理的现状。典型工具如报表、仪表盘等BI工具。
- 分析缘由的能力:如果报表显示第三季度销售收入令人惊喜地增长50%,它背后的原因是什么,第四季度仍然会保持增长吗?
- 预测未来的能力:尽管历史总是螺旋式发展,过去的规律在未来也常常适用,但通过过去数据预测未来本质上是不可能的。但人们又迫切希望预测未来。
- 掌握当下的能力:个人活在当下不容易,企业掌握当下更难,经营者最难把握的就是此时此刻企业正在发生什么。尽管国外已经从新经济(New Economy)过渡到(Now! Economy),掌握当下始终是相当不容易掌握的智慧。
- 控制未知的能力:人类古往今来的梦想,就是希望事物发展能够按照自己的意愿。控制未知?多么美妙的想象。然而在大数据的帮助下,人们一定程度上可以做到了。
四、大数据目前只是个“侏儒”
大数据目前尚在起步阶段。按照行业研究者的分类,大数据厂商总体上可以划分为基础设施与应用两大类:
基础设施类:不管是产品模式还是云平台模式,都是结构化和非结构化数据处理平台。
应用类:商业智能、数据分析和数据可视化的产品商;操作智能及广告与媒体应用的产品或平台商;数据服务平台商;面向消费者的应用或垂直应用平台商。
从DIKW体系视角,将大数据厂商进行重新归类,则可分为数据源、数据存储与处理平台、数据整合与分析工具、信息展现与数据应用等。
可见,在大数据语境下,平台、产品及服务大都停留于DIKW体系的数据和信息环节,知识和智慧则基本处于不可知、无法处理的“蛮荒”之中。
不仅如此,就算在数据与信息处理领域,大数据面临严峻挑战。举个例子:如果说“数据仓库已死”,那么数据仓库所代表的ETL过程、数据架构与模型等等,在大数据环境里将会进化成什么模样呢?在国际数据管理协会(DAMA)正在研发的DMBOK 2.0中已经加入大数据,国内的一些标准化组织也正在研究制订大数据相关标准,但是童鞋们,以大数据的迅猛增速,这是不是太慢了呢。
无论如何,大数据还是个“小矮人”,或者是“七个小矮人”。
好在,正如我们今天另一篇同题文章所揭示的,屌丝可以逆袭成人生赢家,侏儒也能有梦想、有勇气、有能力证明自己的价值,我们的大数据也能战胜那些传统的巨无霸恐龙,最终成为时代的英雄。