前些天 @xiaole 希望分享一些大数据安全方面的文章。我得说,鉴于信息安全是一个无处不在的全方位问题,它和是不是大数据其实没有必然关系,为了简化问题,让我们限定在数据安全、而且是大数据安全的范畴内。
基础设施:在大数据背景下,随着数据量和数据复杂程度的不断增加,基础设施环境的复杂性大幅度攀升。举例来说,从前的企业IT或许较少并行处理设备,而今天并行计算已成为标准配置,因此并行环境的安全问题日益突出。又如,从前的企业环境是相对封闭的,在大数据的要求下公网连接日益增加,防火墙外的安全区越来越大,成为安全挑战。
数据源:大数据分析要求企业接入越来越多的数据源。这些数据源不再像DW/BI时代一样局限于企业内部,而更多是来自外部的非结构化数据。这就要求企业对数据源进行分析,绘制企业数据架构,并厘清数据与权限的关系。同时,还要考虑数据本身的风险,例如第三方机构通过合法理由来访问数据,它是否成为安全隐患(例如被黑客利用)。
数据量:大数据的基本定义就是海量。随着数据量的增加,部署在企业网络中的安全技术和产品,有可能在性能、功能上不再满足要求。因此必须整合现有安全工具和流程,使其允许大数据流量和大数据处理,并强化安全工具的分析能力。
新技术:Hadoop、NoSQL等新技术已成为大数据的“标配”。然而,这些技术毕竟尚未经历大范围、长时间的广泛考验,其成熟度尚有不足,其安全隐患有可能未被发现。在一个较长的时期内,大数据新技术引发的安全问题或许较为突出——这相当程度上是因为企业IT人员对新技术掌握不够。
大数据隐私:大数据隐私是广被谈论的话题,甚至引发“大数据恐慌”(见《话说大数据恐慌》)。不过我个人觉得,尽管数据隐私问题在立法上仍有不足,但合理合法地开发大数据应用的企业,隐私问题并不会成为发展障碍——说到底,大数据并具体关心个体信息,而是基于海量数据进行价值发掘。
安全大数据:大数据并不只是引发安全问题,相反,大数据架构也能通过改进系统架构,相当程度地提高企业现有系统的安全性。安全大数据是其中一个实例。通过整合企业的安全数据,例如日志数据、用户上网行为数据等等,利用安全策略进行全企业的数据挖掘,能够加快定位安全问题,从而整体提高企业安全性。