昨天匆忙之中写了篇标题党小文《如何用大数据追求浪漫爱情?》,虽然残存几处文字错误,仍不妨碍它引起不错的反响。有朋友谴责我太保守,故意语焉不详,所以今天我再补充一些内容。

先来看一张图。这张图曾经在我们内部讨论时用过,它大体概括了人的生命周期。

human_lifecycle

这张图当然很简略,不能说明太多问题。但是即使简单到这种程度,假如我能掌握所有人的这张图,那威力就大得不得了。我就能知道你什么时候结婚生子,就能知道你什么时候买房买车,就能知道你什么时候退休进养老院……于是我就可以给很多相关行业提供咨询,让他们给你提供以你为中心、体验至上的精准服务了。

其实这并不是我一个人的痴心妄想。早在五年前,某金融集团的CEO就提出过这样的构想。他设想他的统一用户视图要超越平安集团,做到全生命周期的随身定制服务。这样,当你需要存款时,他比你更早把储蓄账号准备好;当你的汽车不慎遇险时,他比你更快地提供理赔服务;他为你周到体贴地为你考虑医疗健康、小时进幼儿园、老时进养老院等等全方位服务。可惜,我当时供职的公司认为这样的构想太过超前,我本人也没敢贸然接招来承诺这样的挑战。

你会说,即使是今天的大数据时代,对人进行全生命周期建模,也仍然是痴人说梦啊。没错,我同意你的看法。Gartner给大数据的评估是5~10年才进入成熟期呢,对人建模?Mission impossible.

不过,不知道你有没有那么自恋,在搜索引擎里搜过自己的名字(包括网名)么?只要你不是过于屌丝(其实我相信你们个个都是高富帅或白富美),我保证你总能搜出一堆结果,从相关背景信息,到你原创或转载的文章,以及你在微博、微信上的朋友关系,还有你在淘宝、亚马逊上的购物记录,甚至包括你的Facebook、Twitter、LinkedIn信息(火长城挡不住翻墙)和Filckr照片,或是你朋友提到你的文章或图片。也就是说,你的个人网上身份业已形成。通过大数据整合,我们已经能够通过照片、视频、状态、微博、论坛帖子、自我介绍及人际关系等信息,大体上把你勾勒出来了。也就是说,在大数据背景的互联网上,你,就是你,你的足迹已经为你建模。

再来看你与他人的关系。六度理论揭示出,你与世界上任何人之间,最多只隔着六个人。而Facebook和LinkedIn的实践进一步证实,人与人之间的关系比六度理论更紧密,任何两个用户之间的平均距离只有4.74个人。同时,概括起来,人与人之间的关系,其实只有两种:

  • 绑定关系:与家庭成员、亲密朋友之间的紧密关系,它提供情感支持与日常陪伴
  • 连接关系:普通朋友和熟人的一般关系,它提供松散和多样化的人际连接,以便带来新的交流和机遇(如招聘)

可见,以你为中心,以你的绑定关系为近邻、以你的连接关系为环境,就可以建立起你的社交模型。事实上,已经有不少实践以微博数据为样本、以特定话题为示例,建立起某用户与其粉丝之间的信息连接模型。

精神世界可以建模吗?让我们以智慧为例。下图便是Caroline Bassett博士建立的智慧模型。限于篇幅和学识,这里就不详细讨论了,你如果有兴趣,请链接至 http://www.wisdominst.org/emergentwisdom.html 自行研究,并请将你的研究成果分享给我们。

wisdom_model

最后终于轮到人与人之间的特殊关系:爱情。华盛顿大学心理学教授Gottman博士建立了一个爱情实验室,他能回答你关于爱情的所有问题。据说,只要跟小两口聊上半个小时,他就能预测你们的婚姻能否长久,预测准确率高达90%。

Gottman教授的工具称为“心象地图(mental map)”。在爱情关系中,它就是寻找伴侣的路径蓝图。作为一个简单示例,通过跟踪男子在特定某日对妻子所做所为的全部事项(如约会情况、午餐情况、早餐时夫妻讨论问题的情况)的兴趣过程,并收集全部信息并进行分析,便能得到一天的心像地图。

Gottman进一步与同事Murray教授合作,创建出人体行为的数学模型,用来预测婚姻的成功性。他们合作出版了《The Mathematics of Marriage: Dynamic Nonlinear Models》一书。从书名来看,他们应该是认为婚姻关系并不复杂,无非是一个非线性动态模型。(这书俺也没读过,要是你去米国,不妨帮俺带一本。)

顺便摘录Gottman教授的一些有趣的研究成果。他认为,毁灭爱情的四大硫酸是:

  • 抨击伴侣性格
  • 双方相互轻视
  • 太过自我保护
  • 关闭情感互动

Gottman的研究表明,离婚的特征是:

  • 七年之痒确实存在。七年中,无子女夫妻的离婚率为50%,有子女夫妻的离婚率为25%
  • 75%未离婚的夫妻经遭遇了幸福感的下滑,而25%始终幸福的夫妻的秘诀是:相互了解、相互欣赏、相互钦慕

 

本文部分内容参考《大数据云图》一书。

bigdata_demystified