地震是个倒霉的行业(其实气象也是)。尽管斥巨资部署巨型计算资源、并在全球设置密集的探测网络,人们还是无法准确预测地震发生的时间和地点。每年成千上万的人因地震丧生,而一次地震所带来的损失就高达千亿万亿之多。近年来我国汶川、玉树、雅安等高级别地震,更使人们在悲愤之余,辱骂地震局不作为的声音也不绝于耳。

地震的原理很简单:它是由地壳构造板块相互挤压形成的。因此地震必有预兆,然而却无法可靠、有效地预测地震。地震专家只能采取预报的方法。例如,2008年四川汶川发生8.0级大地震,导致十多万人伤亡,何时四川会再次遭遇这样的地震?他们不能确定。他们只能预报,在某个地方、某个时间段内发生某级地震的可能性。例如,他们只能说在未来20年,四川有80%的可能性发生里氏8.0级地震,但他们无法完全确定地说出何时何地会发生几级地震。

我之前说过,数据有望帮助解决五个层次的问题:报告已经发生的事,分析为什么发生某事,预测某事未来的情形,当下正在发生什么事,主动掌控某事发生或不发生。目前的技术手段能够有限度地做到前两个层次,后面三个层次都面临很多挑战,存在大量需要解决的技术难题。

人们希望预测地震,潜在意识里是认为地震必有规律。不幸的是,尽管地震发生已有百万年之久,人们也掌握了大量地震相关的数据,但已经发生的地震和即将发生的地震之间,并没有必然联系。因此严格讲,地震预测是不可能的任务。何况,如果地震局在每次分析数据时都对疑似地震发出预警,就会出现大量要求疏散的假警报,产生“狼来了”的效果。

实现准确预测需要一些真实的因素。人们需要掌握足够多的历史数据来建立模式,与这些模式相关的事件必须始终发生。因此必须具有区分疑似事件和真实事件的能力。要让预测起到作用,必须将当前数据与历史数据进行匹配,以便进行模式识别。但计算机和地震专家需要一定时间来对数据进行分析。假定人们拥有足够多的数据,能够帮助提前一天预测到地震的发生,而计算机和专家却需要两天时间进行分析,那么预测结果就没有意义了。

这便是典型的大数据挑战:不仅要求有拥有足够多的相关数据,更要求要足够快的数据分析与处理的能力。

对于预测地震来说,有三个关键问题必须找到答案:何时、何地、何种震级。为了回答这三个问题,需要掌握促使地震发生的不同自然因素,以及提示它们之间复杂的相互运动的更多、更好的数据。

传统上,地震预报通过昂贵地震探测仪和大型计算机运算来实现。在今天,普通个人计算机加配廉价的探测仪,甚至移动设备内置的动作感应功能,便能实现地震探测;而分布式计算也能更好地提升地震预测计算机能力。斯坦福大学的地震捕捉网(Quake-Catcher Network, QCN),由参与分布式地震检测的200多名志愿者的计算机网络组成。QCN能够提前10秒钟提醒可能会受灾的人群。这是极其宝贵的10秒,意识着地震受灾者有时间决定坐电梯还是走楼梯、跑去室外还是躲到桌子下面。

尽管准确地预测地震仍然有很长的路要走,但在今天的大数据时代,地震预测已经能够帮助争取到减轻灾情的时间了。如今,收集、存储和处理大量地震数据不再像以前那样昂贵,技术进步已经使成本下降了九成以上。通过得到更多、更好的数据,不只为计算机实现更精明的决策提供了更多的可能性,也使人类变得更聪明了。

本文部分内容参考《大数据云图》一书。

bigdata_demystified