数据仓库绝不是一个新概念。数据仓库之父Bill Inmon提出数据仓库概念、数据仓库领导厂商Teradata开张营业以来,已经超过35年。因为大数据的兴起,数据仓库仿佛突然古树发新芽,而Teradata也不得不面对IBM、Oracle、EMC、SAP等强大竞争对手。
不幸的是,这些老态龙钟的巨型IT公司,在数据仓库领域的投资将得不到理想的回报。因为,数据仓库已然死亡。
数据仓库是什么东东?其实就是一个数据库。我曾经半开玩笑地说,数据仓库与数据库的区别,就在于前者多了一个“仓”字。这个“仓”字意味着什么呢,数据库就像家家户户的私人贮物间,只要满足自己家的需要,随便堆堆放放和增增减减,都没太大关系,而数据仓库就像物流中心的库房,因为货品繁多,必须有自己的架构和管理。因此,为了保证海量数据下的系统性能,数据仓库必须设计从硬件到软件的并行架构,并辅以列式数据库、内存数据库等技术来提高性能,而同时,仓库中数据本身的架构也必须遵照一定的数据模型,建立所谓的“统一视图”。
企业为什么需要数据仓库?为了进行业务分析。从前,财务告诉领导一个数,销售告诉领导一个数,领导很难断定,究竟是下属故意在骗他,还是口径不同造成数据差异。所以领导的决策实际上是拍脑袋的,因为他无法掌握企业的真实情况。通过建立企业级数据仓库(EDW),领导的头痛得到“医治”。EDW将企业内各种信息系统的源数据整合起来,建立企业级的完整数据仓库,就可以对企业经营状况进行统一视图下的综合分析了。
然而现在世道变了!数据仓库就像一头大笨象,而“谁说大象不会跳舞?”的反讽答案是,每个人都说大象不会跳舞。
今天的企业,不再是独立的个体,而是互联的企业(connected enterprise)。[事实上,万物均已互联(Internet of Everything),何况企业。] 因此,若要准确观察一个企业,不能仅限于内部,而应该离企业远一点,从外部进行研究分析。数据仓库没有外部数据,于是它傻眼了。
即使企业实行“鸵鸟政策”,权力的天平也已发生变化。决定企业生死的,不再是企业自身、更不是企业领导,而是相互连接的客户,他们形成一个网络社区,构建自我组织、形成兴趣团体,企业若想生存,必须迅速对客户需求作出反应。然而很不幸,数据仓库中不仅缺乏来自互联网的客户数据,在业务上、技术上根本无法支撑对客户群体的快速分析与实时反馈。
更不要说,数据仓库完全是“事后诸葛亮”。数据仓库中的企业数据,只能代表过去,进行一些统计分析尚且勉为其难,要想预测未来、或进行当前时点分析,基本上都只能算作sandbox,没有一个决策管理者敢相信甚至依赖数据仓库的分析结果。
超级重型的数据仓库建设过程也是违反时代精神的。搭建一个数据仓库,一期都是短则一年半载、长则数度春秋,而后续过程更像是“上了贼船”,永远没有尽头。有一个需求,就建一个系统,而系统未及建好,业务已发生变化,这样的困局使企业不得不开起IT“倒车”。敏捷、迭代、精益这些原本小众的词汇,早已成为所有企业的准绳,数据仓库无法跟上“用则迅速取之、不用就无情丢弃”的灵活需要。
数据仓库厂商并不是没有危机感。Teradata提出统一数据架构(UDA),试图将数据仓库与Hadoop整合到一起,然而你想想柯达的故事(参见昨天的文章)?各路匆忙推出数据仓库一体机的IT大厂商,也都匆忙推出自己的Hadoop发布版,就像落魄公子试图挽回情人的绝情而去。
然而这位“情人”是无法挽回的。她的名字叫做“时代趋势”。