我观察后台发现,最近新进了一些各行各业的新用户。这让我觉得,我还是要适当写点普及性文字。
我经常使用狄更斯式句式,这是最好的时代、这是最坏的时代。
这是最好的时代,这是最坏的时代,这是互联网的时代。互联网代表开放。纵然秦始皇修建的 Great Firewall 仍然当头屹立,国境线早已无法封锁自由的心灵。没有人能够阻挡互联网前进的步伐,即使是倒行逆施的邪恶势力。我们信仰互联网,我们坚信互联网能改变整个世界。
这是最坏的时代,这是最好的时代,这是大数据的时代。大数据代表民主。纵然我们的家园仍然有可能被随意摧毁,数据开放带来的公开、民主、透明以及全民创新,使得“除了上帝,任何人都必须用数据说话”成为共识。从数据到信息、从信息到知识和智慧的 DIKW 体系,将在更广泛的范围里颠覆旧有的垄断与坚守。
在讲述大数据基本概念时,我开篇经常说:当今世界,是一个大数据的海洋。我画了一张图,表示每秒、每分、每天产生的数据量。
在这张图下方,我用红色字体写了一句话:
“我们在数据的海洋中遨游,水中满是鲨鱼,而且海平面在快速上升。”
我想表达的是:1. 数据量很大,已经将人类淹没;2. 数据量还在进一步急速增长,很快就将全球置于“水底”;3. 数据安全性问题日益严峻。
大数据有多“大”?心理学表明,人们对绝对值没有概念,相对值才会让人们震惊,就像你猜不出一只行李箱有多重,但你很容易感知两只行李箱孰重。大数据的相对概念是什么呢?大略统计表明,当今世界一年产生的数据量,相当于人类有史以来产生的数据量的总和。
事实上,上图绘于数年前,其中的数据早已刷新。2016 年的统计显示,在一分钟的时间里,社交媒体平台与社交网络中创造了令人讶异的数据量:
- Google 翻译了 69,500,000 个词
- Youtube 用户分享了 400 小时的视频
- Siri 回答了 99,206 次提问
- Twitter 用户发送了 9,678 条充满表情的推文
这么巨量的数据有什么用呢?可以毫不犹豫地说,并没什么用,大数据就是大垃圾。大数据对人们的直接影响,可以用下图来形象地概括:
面对汹涌而至的大数据,人们的体验与需求是矛盾的:一方面,人们说,求你放过我,不要给我推送那么多没有的信息;另一方面,人们又希望,你能够更理解我,给我提供实时可信、跨界整合的价值信息吗?!
所以我们说,大数据价值也有两面性:一方面,大数据已然产生很高的价值;但另一方面,大数据价值的密度非常低,例如警察察看视频监控数据来破案,24 小时的视频中有价值的信息可能仅有 1 秒。
事实上,大数据有没有价值,取决于特定人在特定场景下的需求。我经常举例说,如果你的手机被偷,你珍贵的照片、你和女朋友的聊天情话,对于那贼来说毫无价值,他第一时间就会重置你的手机,删掉你所有的数据。
挖掘大数据价值,完成于三个基本逻辑:
- 多来源的异构数据。大数据的关键特征并不是“大”,而是“多”。只有从多角度去看世界,才能还原世界的真相。只有从内部、外部和第三方多来源采集数据,才可能得到更多的价值信息。
- 基于数据挖掘的预测分析。尽管大数据的基础仍离不开统计,但是简单的统计分析并不属于大数据。大数据真正颠覆的是思维方式,它不依赖因果关系,它采用关联关系。
- 数据分析嵌入在业务流程。数据驱动业务,意味中数据分析在每个环节,客户尚未到来,已然对客户特征进行画像,而不是业务发生之后的“马后炮”分析。很多伪大数据,其实都是事后分析。
这三个大数据逻辑,貌似简单,其实很难实现。大数据的“悖论”式痛点,首先是缺乏大数据。传统的业务流程、传统的系统架构,都不能够支持嵌入业务流程的预测分析。
所以,真正落地的大数据,不是简单地搭建一个所谓的大数据平台,更不是从外面采购一些“大数据”,它是业务、数据、技术的“三元合一”的一体化解决方案。