DAMA并不只是广场上跳舞的大妈,它更是“国际数据管理协会”的缩写。作为一个专注数据与信息管理的非营利性专业组织,DAMA自1988年成立以来,始终致力于企业信息和数据管理的研究、实践及相关知识体系的整理,在数据管理方面有着极为深厚的知识沉淀和丰富的经验。

DAMA China是DAMA在中国的分支机构。蒙主席胡本立先生不弃,本人忝颜担任DAMA China副会长。在今天的会员交流群中,我提了一个貌似无聊的问题:

虽然大家断断续续也聊过不少,我还是想来问个基础问题:数据的本质是什么?

尽管这个问题很容易把那些专业价值导向的DAMA会员引入哲学甚至佛学意义上讨论,但是很庆幸,这一次大家没有跑题。DAMA China另一位副会长、《DAMA数据管理知识体系指南》译者之一刘晨说:

数据是人对客观世界的事与物的记录及判断。

我查了一下比较严谨的数据定义,其中一种这样描述:

数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。

当今世界是一个数据的海洋。每一天、每一分、每一秒,各类系统、各种应用产生源源不断的数据。每一秒,全球发送电子邮件300万封;每一分,YouTube上传20小时视频信息;每一天,微博新贴1亿条、淘宝交易2000万笔,而Google处理数据近30PB……

所以有人说:

“我们在数据的海洋中遨游,水中满是鲨鱼,并且海平面还在快速上升。(We swim in a sea of data…with the sharks…and the sea level is rising rapidly.)”

然而数据本身,是根本没有任何价值的。技术地说,数据是什么?开关打开是1、开关关闭是0,高电平是1、低电平是0,或者用磁介质、光电质的不同状态表示1和0——总之是一堆二进制数字串。它没有任何价值。

例如,如果给出一个与其他事物毫无联系的数字37.5,它没有任何价值。但是如果给出数据之间的联系,数据就变得有意义了,像这样:

姓名:陈书悦
性别:女
年龄:12 岁
体重:1200 kg
体温:37.5 ℃

从37.5到37.5℃,就是从数据变成信息。该信息显示,陈书悦身体欠佳,需要看医生。

数据即使变成信息,也必须真实可信才有价值。陈书悦可能不是小朋友,真实年龄不止12岁;只要陈书悦是人类,她的体重不可能达到1200kg。在数据到信息的处理过程中,这些错误应该予以清洗。