有朋友转给我几个“白痴测试”的题目,都是那种明白之后很简单、但是最初你差不多都会上当的问题。选两个你来试下:

问题1:你参加赛跑,追过第二名,你是第几名?
第一名

问题二:你参加赛跑,你追过最后一名,你是第几名?
倒数第一名

现在,你告诉我问题1的答案,然后再告诉我问题2的答案。十之八九,你告诉我,问题1的答案是第一名,问题2的答案是倒数第二名。

当然,你的答案是错的。我并不需要告诉你正确答案,因为你多想一下就会自然明白。重点是,如果你是白痴,则十个人有九个人都是白痴,因为大家基本上都错了。

而重点的重点是,如果你拿这两个问题去问一个大数据系统(假如有),机器能够回答正确吗?会证明机器也是白痴吗?

你必须记得,系统是不可能自动具备智慧能力的。事实上,机器不仅不可能有智能,它甚至不具备足够的灵活性,它只擅于做死板的、重复性的工作。就上面两个问题而言,问题1很容易让机器记住答案,而问题2你还没办法让程序去理解。

你说,现在我们有大数据方案,比如说机器学习。恩,你可以写一个爬虫,让它到网上去查找问题的答案——正如我写这篇文章之前的手工测试一样。然后你让程序去学习这些答案,机器自然就会“具有智能”了。然而倒霉的是,这两个白痴问题的答案,绝大部分人的回答是错的。于是,机器学习的结果,它也学成了白痴。

这就是我相信至少在现阶段,机器智能不可能超越人的原因。为了进一步说明,让我们看看车品觉在他的《决战大数据》中提到的一个场景:

“早上,你在上班的路上,看见有个男生穿 了一件非常好看的T恤,你心动了。于是,你来到公司,坐在座位上的第一件事情,就是在购物网站上搜索T恤。结果呢?出现了10万个相关商品。

“你正在犹豫怎么挑选的时候,老板突然在办公里宣布,大家集体去会议室开会。你坐在会议室里,发现开会好无聊,于是打开了手机应用,继续想怎么买到那款T恤,然后你筛选了一些比较中意的品牌,但是依然没有找到那款你在路上碰到的、中意的T恤。

“最后,手机上弹出了一个手机促销活动的广告,你发现一款你非常喜欢的品牌的手机价格很便宜,虽然你已经有手机了,但是你依然毫不犹豫地买下了它。”

在这个场景中,我们看看系统能够做到和无可奈何的事情:

  • 当你搜索时,搜索引擎知道你在上海,于是可以推荐上海的卖家给你,并将收货地址切换到上海。但是,你是路上看到的那件T恤,那时你还不在上海。同时,你没有登录电商网站之前,T恤这个因素只有你知道,系统无法知道。
  • 所以,网站系统能够理解的事实是“早上九点半,你搜索了T恤,得到10万个结果,你一个都没有点击”。但是机器无从知道,你不点击的原因只是老板在叫你开会。
  • 你在开会时再次搜索T恤,网站系统能够知道这是你的第二次搜索,但是它无法理解,你为什么忘记了那款喜欢的T恤,却选择了一款并没有搜索的便宜手机。
  • 当你最后买手机时,你确实是选择了上海的卖家。但系统不知道,你只是在上海出差,你的收购地址在杭州。
  • 如果分析你为什么搜索和选择了半天,最后并没有购买T恤,系统可能得出结论说,网站的推荐引擎不给力。但它怎么也无法无法推断,你究竟为什么搜索了T恤,却买了手机。

如果说,文艺作品是对现实世界的建模,小说永远比真实社会来得简单,那么大数据系统对现实世界的模拟更粗糙。因为,你永远只能收集到碎片化数据,用这些碎片去还原真实场景,根本是不可能的。所以在对用户进行挖掘分析时,系统只能缩小范围,去针对具体的小问题来建模,比如,研究用户行为时,能够区分用户是通过PC还是手机登录的;分辨用户需求时,可以分辨是天气差异所造成的南方与北方用户的需求不同。

所以不要说大数据有价值。大数据的基本特征之一是,价值密度低。也就是说,绝大部分大数据都是垃圾。