大数据概念的提出,主要缘由就是:随着数据量和数据复杂性的增加,传统的数据处理技术和工具已经很难获取、存储、管理和分析数据。所以,大数据领域的创业企业如雨后春笋,新兴技术更是层出不穷。

但哪些大数据技术才是最受关注的呢?以下是老外列举的十项大数据领域的新兴技术,内容略旧、描述简短,可供一般性参考。

1. 列数据库

传统的行数据库对于在线交易处理非常出色,也能提供很高的更新速度,但当数据量增加、尤其是非结构化数据增加时,行数据库的查询性能就变得非常难以接受。列数据库在处理数据存储时,按列而不是按行存储,可提供大量数据压缩和快速查询处理。列数据库的缺点是,通常只能执行批量更新,更新作业的速度比传统行模式低得多。

2. 无模式数据库,或NoSQL数据库

键-值存储、文档存储等数据库,都可以归入这一类型,其核心能力是巨量非结构化数据、半结构化数据甚至结构化数据的存储与检索。它们通过破除传统数据库的部分或全部限制(例如读写一致性),来换取可扩展性和分布式处理能力。

3. MapReduce

MapReduce是一种编程范式,具有良好的可扩展性,能够面向成千上万台服务器或服务器集群执行大量作业。任何MapReduce实现,都包括两个任务:

  • Map任务:输入数据集被转换为不同的键/值对或元组集
  • Reduce任务:多个Map任务的输出被组合成为数量较少的元组集

4. Hadoop

Hadoop迄今最知名的MapReduce实现,也是完全开源的大数据处理平台。它足够灵活,能与多种不同数据源共同工作,不管是聚合多数据源进行大规模处理,还是从数据库读取数据来执行处理器密集型机器学习的作业。Hadoop有若干种不同类型的应用,但最常见的应用场景多属面向经常变化的大量数据,例如来自天气或交通传感器的位置数据、Web或社交媒体数据、或机器到机器的交易数据。

5. Hive

Hive是类SQL的桥接器,可让传统BI应用向Hadoop集群执行查询作业。它最先是由Facebook开发的,但业已成为开源项目。Hive是Hadoop框架的高度抽象,能帮助任何人去查询存储在Hadoop集群中的数据,就像操纵常规数据存储一样。它扩大了Hadoop的范围,使BI用户更容易接受Hadoop。

6. PIG

与Hive类似,PIG也是让Hadoop更贴近开发者和业务用户的桥梁。与Hive采用类SQL不同的是,PIG使用类Perl语言去查询存储在Hadoop集群中的数据。PIG由Yahoo!开发,并且也已像Hive一样完全开源。

7. WibiData

WibiData将Hadoop用于Web分析。它构建于HBase之上,而HBase本身是Hadoop之上的数据库层。WibiData使Web网站可以更好地探索其用户数据,以便对用户行为作出实时响应,如提供个性化内容、推荐与决策服务等。

8. PLATFORA

或许Hadoop的最大局限性是,它是MapReduce非常低层的实现,需要开发者掌握广泛的知识才能使用,而且数据准备、测试与运行的全周期可能长达数小时,这使用户与传统数据库进行交互的便利性几乎丧失殆尽。PLATFORA平台可将用户的查询操作自动转换为Hadoop任务,也就是说,它创造了一个Hadoop抽象层,使任何都可以利用它来简化和组织存储在Hadoop中的数据集。

9. 存储技术

随着数据量的增加,存储技术的效率和有效性需求也日益增加。这一领域的主要发展趋势是数据压缩与存储虚拟化。

10. SkyTree

SkyTree是专注于大数据处理的高性能机器学习及数据分析平台。机器学习本来就是大数据的重要组成部分,因为巨大数据量使人工数据探索或传统自动数据探索方法不够灵活或太过昂贵。

本文根据10 emerging technologies for Big Data等英文资料编译。由于大数据领域发展迅猛,一年前的内容在今天看来略嫌古老。