在这个信息爆炸的时代,大数据让人又爱又恨。在一些企业,忧患意识强的决策者拼命思考大数据多时,于是领导吩咐下属,你去研究大数据如何破题;而下属不敢违抗,但是也只能落得不得要领。

本文分享三个脚踏实地的大数据破题抓手。不管有没有道理,诸位亲只当看着玩儿吧。

一、以非结构化数据为抓手

昨天我刚说过,大数据的关键,首当其冲的不是数据量(那固然也给系统能力提出严峻挑战),而是数据复杂性。

据统计,在企业各类业务数据中,结构化数据仅占15%,其余85%均为非结构化和半结构化数据,它们存储在论坛/BBS、OA、知识及文档系统、内外部博客、社交网络、电子商务等多变的系统中。

另一方面,我以前也说过的,“不识企业真面目,只缘身在企业中”,企业不能仅依靠内部数据,而应该整合更多外部数据,而外部数据估计90%以上是非结构化数据,包括互联网公网数据、政府及行业报告与统计信息、用户和市场调研信息等等。

迄今为止,数据分析技术仍处于粗糙的起步阶段,所有算法都是以统计学为核心的,因此非结构化数据必须进行结构化处理才能找到数据价值。这就引发了两个层次的问题:

其一,非结构化数据的结构化处理,以及结构化之后挖掘分析再还原成人类便于理解的非结构化信息,这两个方向的工作,需要大量的领域知识。搞得好,数据金矿得以挖掘;搞得不好,真正的数据规律可能在处理中被遗失。所以,领域知识(甚至领域智慧),而不是数据处理方法,才是大数据的关键。

其二,尽管大数据刺激了大量的研究课题,但非结构数据的个体表现、一般特征和基本原理尚不明了,也缺乏系统化的方法和技术,这需要数学、经济学、社会学、计算机科学和管理学等很多学科的交叉研究。例如,给你一本书,你如何将其中的观点和逻辑转化为计算机能够理解的方式?给你一张图,你如何将它转化成基于图像的数据表或数据模型?遗憾的是,就算你能够转化,你并未能表达数据的全貌,仅是数据本身的一个侧面。

这就说明,非结构化数据的处理,目前还处于将粗糙的知识进行量化的简单粗暴阶段,代表人类智能与智慧的精细化处理,才是大数据的核心价值。

二、以大数据不确定性为抓手

以商业智能(BI)代表,传统数据分析方法总体上处于因果关系的探究。从效果来看,它最多能达成这样的目标:对过往的统计汇总;对原因的分析;用数据模拟来预测未来。

在企业实操中,这些分析不能说没有价值,然而企业决策者往往追求更高境界:怎样掌控企业的现状?怎样让企业按照自己的意图发展?这类复杂决策问题,传统上多归为人类智慧。

在大数据环境下,如何探索大数据复杂性,如何刻画大数据的不确定性特征,如何对大数据的个体无关联随机性进行建模,成为大数据研究的迫切课题。尽管,业界正在探索通用的非结构化数据与结构化数据的转化原则,以及基于复杂性理论的最优化管理决策方法,以求发现大数据的一般性方法和规律、实现大数据的跨行业应用,但这些探索研究,进展速度远赶不上企业实践的需求增长速度。

因此可以简单地说,将发现未知业务规律作为大数据探索的抓手,是一条可行思路。

前提是,企业领导应该有这样的认知:有可能忙乎半天,什么也没找到。本来嘛,价值密度低,就是大数据的特征,金矿没有那么好挖的。

三、以大数据业务价值为抓手

无论何种数据,都是对企业某个视角的度量。然而根据“企业大象理论”(本人胡诌的,呵呵),无论数据多全多复杂,无论多么努力建设各种统一视图,从数据中还原企业真相是不可能的。

所以企业决策者面临着双重异构的权衡:既要试图从异构的数据中作出判断,又要在决策异构中找出数据依据。传统的决策模式取决于业务知识和管理实践的积累,而以数据分析为基础进行量化决策,是大数据环境中的企业所无法逃避的课题。

其实,大数据是企业的“人造小宇宙”,与其寻觅大数据隐藏的企业真相,莫不如回归自然。说得难听点,不管我得出结论说大象是绳子、柱子或是墙,用数据说话总比拍脑袋决策要来得安全些。

一句话:对企业来说,数据就是业务,挖掘数据金矿就是寻找数据的业务价值。不从业务出发进行的一切数据探索,都是耍流氓。

抓手

延伸阅读

企业如何“破题”大数据?