今年5月9日,银保监会针对工农中建交、邮储、中信、光大等银行的监管数据质量问题,开出总计1,770万元的巨额罚单,给金融机构数据治理工作敲响了警钟。
5月20日,银保监会发布了《关于开展监管数据质量专项数据治理工作的通知》,要求通过为期1年的数据治理,切实提升监管报送数据和相关源头数据的数据质量,以优质信息服务监管工作大局和行业高质量发展。
在我看来,银保监会的这一举措相当务实。
长期以来,尽管金融机构业务严重依赖IT、似乎是数字化时代的先锋行业,但其实很多金融机构(尤其是地方中小银行)业务传统、管理粗放,数据质量堪忧,数据资产和数据变现尚在未来蓝图中。
另一方面,很多金融机构虽然早就着手开展数据治理,但步入“深水区”之后,数据治理面临严重困境,并不像刚开始启动数据治理时那样充满希望。数据治理应该何去何从,CDO、数据主管和数据专业人员天天恨不能“哭爹喊娘”。
借监管东风、从监管报送数据切入来开展数据治理、提升数据质量不失为速赢之路。
组织开展组织治理,驱动力来自内外部多重因素:
-
内部因素:战略决策、经营管理、客户服务、业务创新、风险管控等;
-
外部因素:政府监管、市场竞争、供应商/客户、投资/审计等。
在中国国情下,来自政府监管的外部驱动更加有力,这是不争的事实。从专业角度讲,监管所要求的各项报送指标,往往比内部业务和决策管理所需的范围更广泛、更先进,扎实开展监管数据专项治理、提升监管数据质量,就能在相当程度上提高整个组织的数据质量。
我们从四、五年前开始,便开始帮助一些客户从监管数据出发,建立数据标准和数据治理体系、实施专项治理、提升数据质量。本文结合我的实战经验,简单聊聊监管数据质量评估及治理问题。
分析监管数据质量问题之前,我们先简单粗暴地定义一下:什么是好的数据质量?
-
完整性:所需要的数据是否都已获得;
-
一致性:从不同系统获得数据能否保持一致;
-
有效性:数据是否易于理解,而不会被曲解;
-
准确性:数据是否在任何时间都反应真实情况;
-
相关性:有关联的数据之间的关系是否准确有效;
-
及时性:从数据需求到数据可用是否足够及时。
为了更好地落地实操,我们把以上6个维度略加简化,把有效性和相关性合并为规范性,变成5个维度:
完整性
-
非空约束:数据无值,即NULL;
-
非法值约束:数据虽有值,但其值为无意义的空格或特殊字符;
-
记录缺失:目标表中的记录数少于源系统中的记录数;
-
数据保存周期:数据保存历史周期不满足要求,如员工的完整信息中,应包含婚姻状态。
一致性
-
数据引用约束:主外键参照完整性;
-
数据流转约束:在系统内或系统间流转时,同一个数据项的信息保持一致,如客户编号在客户信息中不存在;
-
数据属性约束:目标系统和源系统同一数据项要求应一致,如目标系统必填项,源系统为选填项。
准确性
-
数据值域约束:数据的取值应在其业务意义的值域范围内;
-
数据的规则约束:业务和技术上对不同数据项间的相互校验关系,可以是等值校验,也可以为不等值校验,如合同到期日应大于开始日期,交易金额=交易单价*交易数量;
-
主键唯一性约束:一个唯一标识只能属于一个个体;
-
代码取值约束:代码数据存在于代码列表。
规范性
-
数据长度要求:对数据字段长度的约束;
-
数据精度要求:对数据值精度的约束;
-
数据格式要求:对数据中取值格式的约束,如日期格式。
及时性
-
获取时间约束:数据获取的时间是否在指定时间窗口内;
-
获取频率约束:数据获取的频率是否在指定的频率范围内;
-
系统更新及时性约束:系统处理是否满足及时性要求,如某系统要求每月/每日计算一次。
以EAST为例,可以针对公共信息类、会计记账信息类、客户信息类、授权交易对手信息类、客户风险统计类、资金业务类等各类数据进行调研,并对引起质量问题的源系统进行调研,发现监管报送数据最严重的质量问题是不能自动取数,例如(只是示例,下同):
贷款类
-
系统数据与贷款台账数据不一致;
-
系统无法依据现有信息准确提取满足报送要求的数据;
-
系统可以实现的自动化取数,但业务尚无需求。
-
同业类
-
系统无法自动按照同业客户类型分类进行统计;
-
系统无法按照投向行业分类对非债业务进行统计;
-
系统无法自动汇总统计出一个客户的存放、拆借等金额;
-
同业存放业务的客户名称与账户名称不符合监管要求。
-
债券类
-
系统无法自动按照债券种类、发行机构分别统计;
-
系统按照期限分类计算债券余额不准确。
-
其他类
-
系统可以取数,但是业务尚未提出需求;
-
业务目前无系统支持,如资本充足率、发债业务及衍生品业务;
-
系统无法区分资产减值准备的冲销、转回、卖出资产;
-
少量业务因缺乏有效沟通渠道,暂时只能手工填报。
-
经过业务和系统的综合分析,将数据质量问题的常见成因归纳为5类:
-
技术设计缺陷:源系统设计对后线系统业务分析需求考虑不足造成的数据质量问题。
例如,在408委托贷款的委托贷款用途字段,存在技术设计缺陷,造成数据完整性问题。原因是,Portal前台页面贷款投向字段是必填项,但数据并没有记录在数据库中。
-
历史数据迁移:上线及迁移过程中造成数据质量问题。
例如,在408委托贷款的手续费金额字段,存在历史数据迁移缺陷,造成数据完整性问题。原因是,委托贷款回单表未迁移历史数据。
-
系统同步机制:系统之间同步数据时考虑不周。
例如,在204_个人活期存款分户账的开户柜员号字段,存在历史数数据迁移和系统同步机制的缺陷,造成数据一致性问题。原因是,HR系统上线前离职人员的数据缺失,且部分渠道系统使用了虚拟柜员。
-
业务需求缺陷:业务需求对后线分析需求考虑不周。
例如,在214_个人信贷分户账的客户统一编号字段,存在业务需求缺陷,造成数据一致性问题。原因是,个人客户信息录入到对公客户里。
-
下游系统代码转换:下游系统在代码转换中考虑不周
例如,在214_个人信贷分户账的贷款合同号,存在下游系统代码转换缺陷,造成数据一致性问题。原因是,CML与CMIS流转到MDS的个人贷款贷款状态不一致,CML 贷款状态正常,CMIS贷款状态却是注销。
总体评估下来,可得知数据质量的现状为:
-
完整性
问题数170,占比48%。主要表现是数据项空值、数据项未启用、历史数据问题等。
-
一致性
问题数118,占比33%。主要表现是数据同步错误、数据录入错误、代码转换错误等。
-
准确性
问题数63,占比18%。主要表现是业务需求缺陷、指标定义不清晰等。
-
规范性
问题数3,占比1%。主要表现为数据信息不规范、数据操作 不规范等。
-
及时性
本次评估未发现及时性问题。但及时性问题尚未凸显,其实是因为基础性问题较为严重。
除了数据质量现状,还需要评估数据质量管理的现状。在此基础上,提出监管数据治理的“重+综”总体思路:
-
近期重点解决:重点解决对业务和管理影响较大的数据质量问题,以期快速见效;
-
中长期综合治理:基于远期蓝图,管理+技术同步推进、综合治理,确保稳步改善。
例如,对于技术设计缺陷造成的数据质量问题,在近期重点解决中可以多管齐下:
-
统一源头:一类数据以同一系统作为唯一入口,并由专门人员录入、维护相关信息;
-
杜绝人为错误:由影像管理平台扫描自动获取公司营业执照号,杜绝人为错误;
-
唯一标识:同时判断公司名称和营业执照号,保证客户唯一性;
-
统一维护:强势客户由业务经理依据模板填写资料,提交平台统一维护,避免录入错误和重复。
当然,数据质量是一个长期任务,需要总体规划、分步实施,通过制订数据质量管理远景蓝图,明确方向、确定路线、落地实施。