世界上最好的产品,都是将人类复杂多变的需求予以抽象和简化,开发出能够满足几乎所有人的功能。因此,我认为最伟大的信息科技产品,并非广受吹捧的苹果iPhone(在苹果的产品中事实上iPod更杰出),而是微软的Microsoft Office。不管是否正版购买,Office几乎人人都在使用,却听不到多少贬低它的声音——要知道风口浪尖上的微软历来是广受诟骂的。(果粉们也不必争论iWork就是比Office更好,一个简单道理:为什么苹果允许Office跑在苹果平台上呢。)

Google搜索引擎是另一个伟大的产品。很久以前我说过“因为简单,所以伟大”这样的话,Google搜索引擎的伟大之处首先就在于把复杂的搜索需求变得很简单(在这个意义上,它比Office更伟大)。Google搜索引擎不只是用户界面简单到极致,其后台的PR逻辑也是十分简单有效。

简单,最不简单。因为做减法是最困难的。Google因数据而生,从存在第一天起就面临来自全球的各种非结构化、半结构化数据,在当时的技术条件下如何解决“大+快”的数据采集、存储与处理的巨大挑战,Google必定是“人前显贵,人后受罪”的。

无论是文本、文档数据,还是语音、视频或机器数据,以迄今为止的技术,将其结构化是必由之路。最简单的想法是索引,而搜索引擎其实也是基于索引的。然而当数据量大到一定程度,索引表也无比巨大,存储和检索面临巨大的挑战。在技术挑战面前,互联网公司往往不得不像农民一样自己发明工具。于是Google发明了BigTable,也就是Hbase的前身。这是Google应对数据库性能的创新。

在算法方面,基于传统的数据库查询语言SQL的查询检索也性能有限。减法大师Google,因此提出了MapReduce架构。这是一个伟大的发明,无论多么复杂的信息来源,它都简化为Map和Reduce两个过程,前者解决与数据源的对应问题,后者解决数据模型的合理架构问题。简直是神来之笔。而大数据领域最重要的开源产品Hadoop,便是目前最著名的MapReduce实现。

Hadoop同时还实现了Hadoop分布式文件系统HDFS,以解决文件系统层次的大数据难题。而HDFS的前身,乃是GFS(Google文件系统)。因为MapReduce和HDFS,Hadoop便能够在成千上万台计算机上实施分布式大数据处理。

因为开源产品Hadoop,现在任何企业都能够部署大数据平台了。然而这却是Google多年前就开始采用的大数据技术。如今,Google早已开始以此为基础,把重点转移到其他创新技术上了。在后Hadoop时代,Caffeine、Pregel和Dremel成为Google的新一代“三驾马车”。

早在2010年,Google便将搜索引擎迁移到新平台Caffeine上。Caffeine能够更迅速地添加链接到Google的大规模网站索引系统中,从而使内容索引更迅速、更有效。Caffeine的优化结构设计,使其在海量数据处理上具有巨大的优势。

Pregel是Google的图数据库,用来解决信息之间的映射关系。按照DIKW(数据-信息-知识-智慧)体系,数据本身并没有意义,唯有变成可信信息、可用知识和人类智慧时才有价值。Pregel是Google在知识图(knowledge graph)领域的重要创新。

Dremel则是Google的先进数据查询分析系统,可跨越数千台服务器查询大量数据,不管是Web文档集合还是数字图书馆,甚至是数以百万计的垃圾信息。它是与PIG和Hive类似的查询前端类似,可让用户在无需编程的情况下只需输入查询请求便可定制即席查询和重复查询,而它的巨大优势是,它的性能更快,几乎是瞬时反应。这使得它在数据分析的速度和精度比Hadoop更卓越,可谓鱼与熊掌兼得。

Google的优势并不局限于技术和产品的超强功力。这是一个野心勃勃、底蕴十足的公司:

  • Google拥有强大的软件工程师队伍。Google的团队在大数据技术的研发上,具有无与匹敌的强大能力,这是目前世界上其他公司都只能望其项背的。
  • Google拥有巨大的基础设施。数不胜数的服务器(据估计不下100万台),以无缝连接的分布式架构一刻不停地提供服务,使其成为巨大的数据王国。
  • Google拥有巨量的数据。它拥有的不仅是整个互联网的全网信息,人们使用其搜索引擎和它的各种其他服务时都会留下足迹,捕捉和分析这些“足迹”将给Google带来巨大价值。
  • Google拥有许多不断增加其数据的途径。Google Analytics能够帮助企业和网站追踪自己的用户,而Google也能获得这些数据。通过Google Adsense广告系统,Google能够洞察全世界的广告效果。
  • Googleg还将触角伸向企业市场。通过Google提供的BigQuery服务,企业无需购买昂贵的软硬件来建立基础设施,便能使用Google先进的大数据分析技术。

令人恐怖的是,Google直接投资和从事许多行业,似乎要占领全人类、全世界。Google眼镜志在收集更多的行为数据。Google的无人驾驶汽车试图掌控人类的出行数据。即使你关心的自己的健康,Google在医疗行业也有广泛的投资,甚至与苹果董事长联合投资了专注健康医疗的公司Calio