近来和一些不同领域的朋友聊天,感觉“大数据”这个词已经火到相当程度,但是对它的基本认识却千差万别。结合这些聊天内容,我这里整理三条科普问答。
Q1:多大数据才能称之为大数据?
A:其实大数据并没有行业公认的一致定义,并不能,比如说,1T以上的数据就可以称之为大数据。通常人们用4V特征来描述大数据:
- Volume (海量):这个是大数据之“大”的体现。我比较认可的简洁定义是:“大数据是一个巨型数据集,其容量和复杂性使传统数据库管理工具和数据处理软件无法获取、存储、管理和分析。”通俗地说,大数据就是数据量大到一定的程度,让传统技术要么玩不了、要么玩不动。
- Variety (多样):数据集中存在各种各样的数据,除传统的结构化数据外,大量是非结构化数据。例如,人对人的数据,像网民数据、虚拟社区、社交网络、网络日志等领域数据;人对机器的数据,像归档数据、医疗设备、数字电视、电子商务、智能卡、银行卡、移动设备等领域数据;机器对机器的数据,像传感器、GPS设备、条码扫描、安全监控、科学研等领域数据。
- Velocity (高速):有两个方面的体现,一是增长速度快,比传统业务系统的数据增速快得多;二是处理速度快,典型的要求是1秒定律,即无论多大数据量,像Google搜索引擎一样1秒钟出结果。
- Value (价值):也是两个方面的体现,一是根据国外的统计,大数据可创造巨大的价值;二是价值密度低,例如12小时连续视频中有用数据可能仅1秒。
按照以上判据,可能国内的很多应用场景都不一定能归类到大数据。比如说,国内四大银行的企业级数据仓库,数据量可能很大,能够达到PB级,但除了数据仓库,并没有太多其他非结构化数据,我们仍不能称之为大数据;反之,一个创业型互联网公司,数据量可能不大,但是数据结构相当复杂和多样化,对非结构化数据的挖掘利用要求也很高,那么我们仍然应该称之为大数据应用。又比如,一部1080p高新电影可能容量不小,但数据类型结构单一,也不存在太多需要对数据进行价值利用的需求,可能不算大数据;但2T硬盘上存有各种数据库、文本、图像、视频信息,如需要对其进行信息和知识聚类或挖掘,则可以算大数据。
所以我认为,是不是大数据,数据量不是最主要的判据,数据复杂性才是。以企业应用来说,一个简单的判断是,基于企业内部系统的简单统计分析,如传统的BI报表,不管数据量多大,不应该算大数据;而结合企业内部系统和互联网公网数据、或结合多种非结构化数据的内部系统,所进行的复杂类型数据挖掘分析,应该算大数据。
Q2:大数据只适用于民主社会?
A:有朋友看了涂子沛《大数据》一书,对其中的描述心向往之。但是疑惑接踵而来:这样看来,大数据与我们中国社会关系不大啰?
大数据确实促进了社会的民主、开放与透明。像奥巴马政府开发的Data.gov,将联邦政府的许多数据面向全社会公开发布,让第三方厂商基于它开发数据应用,其影响决不只是数据民主与数据应用,更是社会民主化进程中的关键步骤。对于这一点,中国人目前或许只有羡慕的份儿了。
但另一个哧人的事实是,封闭式政府对大数据的利用更加疯狂,这使得我以前说过的“Big Data is Watching You!”效应更加突出。当然,这或许不是我们想要的,但确实也未必与我们无关(比如反恐类大数据应用可能事涉我们的生命安全)。
而更主要的,不管社会的政治体制如何,大数据确实能给我们提供便利。最经典的案例是,将人群进行特征与行为细分,将产品与服务进行精准对应,从而,让商家的营销更加有效、让消费者需求的满足更加便捷。
当然,你非要“大数据恐慌”,我也没办法。这不是一个技术或趋势的问题,这更多是面临社会变迁的心理调适问题,我就不多加赘述了。
Q3:大数据吹得玄乎,有什么真实应用案例吗?
A:这就多了去了!比如说,如果你经常飞来飞去,你有没有发现,机场和各种公共场合的免费WIFI,比以前多多了。免费WIFI本身固然不算大数据应用,但其背后的商业逻辑,却算得典型的大数据思维。因为,后台那个系统,其实是在分析你的。
再举个更生动具体的案例。红领西装,原本是一家不太知名的服装企业。但最近,它突然声名鹊起,据说海尔老大张瑞敏都把它当作学习的榜样。为什么呢,因为红领研发了一个西服个性化定制平台,用规模工业生产来满足个性化需求。而其核心,便是一套由不同体型身材尺寸集合而成的大数据处理系统。详情请见延伸阅读。