忽悠者云:得数据者得天下。又说,大数据时代,数据是企业资产。但究其实,数据本身是没有价值的,说得极致点,大数据就是大垃圾。

数据行业有句俚语,叫做“垃圾进、垃圾出”(Garbage in, garbage out)。它本意是用来讽刺数据仓库的,不过对人类同样也是“垃圾进、垃圾出”。

为什么?因为数据本身,是根本不可能有价值的。数据是什么?开关打开是1、开关关闭是0,高电平是1、低电平是0,或者用磁介质、光电质的不同状态表示1和0——总之是一堆二进制数字串。它没有任何价值。

大数据价值的源泉,是将数据转化为智慧。数据-信息-知识-智慧的演进关系,称为DIKW体系(DIKW Architecture)。如果用天气预报来说明,那么:数据是百页箱采集的数字、卫星云图、环境监测的数字,信息是明天的天气、温度、湿度,知识是穿衣指数、晨练指数、洗车指数,而智慧是穿衣混搭方案、减肥健身方案、规避违章方案。

例如,如果给出一个与其他事物毫无联系的数字37.5,它是没有任何价值的。但是如果给出数据之间的联系,数据就变得有意义了,像这样:

姓名:陈书悦
性别:女
年龄:12 岁
体重:1200 kg
体温:37.5 ℃

从37.5到37.5℃,就是从数据变成信息。该信息显示,陈书悦身体欠佳,需要看医生。

信息必须真实可信才有价值。陈书悦可能不是小朋友,真实年龄不止12岁;只要陈书悦是人类,她的体重不可能达到1200kg。在数据到信息的处理过程中,这些错误应该予以清洗。

信息虽有价值,但价值不高(所以现实环境中人们故意制造信息不对称,通过屏蔽来人为提高价值),相比之下知识更有价值。比如,成年人看到今天气温25℃的预报,就知道天气很舒适,而“穿衣指数”这样的知识则可以指导小朋友、外来客的着装。洗车指数、晨练指数也可以起到类似的作用。

智慧当然比知识更高明。穿衣指数只能指导基本的冷暖,而穿衣怎样混搭才漂亮,却不是每一个人都Hold得住的。同样地,体重和健康对于一些人根本不是问题,对于更多人减肥却是老大难问题。

因此,如果说数据根本没有价值,信息有些价值、知识很有价值的话,那么智慧的价值则高得多,甚至无法衡量。有一个小故事,可以生动地说明智慧的价值:某公司进口设备发生故障,工程师检查了好久找不到原因,只好请原厂商的德国专家前来诊断。德国专家在设备跟前听来听去,最后用粉笔作了一个记号,指示从此处打开设备,将线圈减少16匝,故障即可排除。工程师照办之后,设备果然恢复正常。德国专家因此收费100万美元。或有不服,德国专家笑道:粉笔记号收费1美元,知道在哪里作记号收费99.99万美元。

由此可见,DIKW体系不是一个严密的体系,数据与信息、知识及智慧之间,绝不是简单的直接映射或衍生递进关系。所以DIKW体系也被称为“信息金字塔”,数据在塔底、智慧在塔尖,形象地告诉人们,通过挖掘大量的数据“金矿”,才能得到一丁丁点儿智慧“金子”。大数据4V特征之价值(Value)特征,表现之一是价值密度低,道理就在这里:虽然数据是资产、是金矿,但能产生知识和智慧价值的数据却是很少的。这就是数据金矿、数据资产的真相:数据只是数据价值的“原石”,数据是否有价值,并不由数据本身决定的。