今年5月9日,银保监会针对工农中建交、邮储、中信、光大等银行的监管数据质量问题,开出总计1,770万元的巨额罚单,给金融机构数据治理工作敲响了警钟。

5月20日,银保监会发布了《关于开展监管数据质量专项数据治理工作的通知》,要求通过为期1年的数据治理,切实提升监管报送数据和相关源头数据的数据质量,以优质信息服务监管工作大局和行业高质量发展。

在我看来,银保监会的这一举措相当务实。

长期以来,尽管金融机构业务严重依赖IT、似乎是数字化时代的先锋行业,但其实很多金融机构(尤其是地方中小银行)业务传统、管理粗放,数据质量堪忧,数据资产和数据变现尚在未来蓝图中。

另一方面,很多金融机构虽然早就着手开展数据治理,但步入“深水区”之后,数据治理面临严重困境,并不像刚开始启动数据治理时那样充满希望。数据治理应该何去何从,CDO、数据主管和数据专业人员天天恨不能“哭爹喊娘”。

借监管东风、从监管报送数据切入来开展数据治理、提升数据质量不失为速赢之路。

组织开展组织治理,驱动力来自内外部多重因素:

  • 内部因素:战略决策、经营管理、客户服务、业务创新、风险管控等;

  • 外部因素:政府监管、市场竞争、供应商/客户、投资/审计等。

在中国国情下,来自政府监管的外部驱动更加有力,这是不争的事实。从专业角度讲,监管所要求的各项报送指标,往往比内部业务和决策管理所需的范围更广泛、更先进,扎实开展监管数据专项治理、提升监管数据质量,就能在相当程度上提高整个组织的数据质量。

我们从四、五年前开始,便开始帮助一些客户从监管数据出发,建立数据标准和数据治理体系、实施专项治理、提升数据质量。本文结合我的实战经验,简单聊聊监管数据质量评估及治理问题。

分析监管数据质量问题之前,我们先简单粗暴地定义一下:什么是好的数据质量?

  • 完整性:所需要的数据是否都已获得;

  • 一致性:从不同系统获得数据能否保持一致;

  • 有效性:数据是否易于理解,而不会被曲解;

  • 准确性:数据是否在任何时间都反应真实情况;

  • 相关性:有关联的数据之间的关系是否准确有效;

  • 及时性:从数据需求到数据可用是否足够及时。

为了更好地落地实操,我们把以上6个维度略加简化,把有效性和相关性合并为规范性,变成5个维度:

1

完整性

  1. 非空约束:数据无值,即NULL;

  2. 非法值约束:数据虽有值,但其值为无意义的空格或特殊字符;

  3. 记录缺失:目标表中的记录数少于源系统中的记录数;

  4. 数据保存周期:数据保存历史周期不满足要求,如员工的完整信息中,应包含婚姻状态。

2

一致性

  1. 数据引用约束:主外键参照完整性;

  2. 数据流转约束:在系统内或系统间流转时,同一个数据项的信息保持一致,如客户编号在客户信息中不存在;

  3. 数据属性约束:目标系统和源系统同一数据项要求应一致,如目标系统必填项,源系统为选填项。

3

准确性

  1. 数据值域约束:数据的取值应在其业务意义的值域范围内;

  2. 数据的规则约束:业务和技术上对不同数据项间的相互校验关系,可以是等值校验,也可以为不等值校验,如合同到期日应大于开始日期,交易金额=交易单价*交易数量;

  3. 主键唯一性约束:一个唯一标识只能属于一个个体;

  4. 代码取值约束:代码数据存在于代码列表。

4

规范性

  1. 数据长度要求:对数据字段长度的约束;

  2. 数据精度要求:对数据值精度的约束;

  3. 数据格式要求:对数据中取值格式的约束,如日期格式。

5

及时性

  1. 获取时间约束:数据获取的时间是否在指定时间窗口内;

  2. 获取频率约束:数据获取的频率是否在指定的频率范围内;

  3. 系统更新及时性约束:系统处理是否满足及时性要求,如某系统要求每月/每日计算一次。

以EAST为例,可以针对公共信息类、会计记账信息类、客户信息类、授权交易对手信息类、客户风险统计类、资金业务类等各类数据进行调研,并对引起质量问题的源系统进行调研,发现监管报送数据最严重的质量问题是不能自动取数,例如(只是示例,下同)

  • 贷款类

    • 系统数据与贷款台账数据不一致;

    • 系统无法依据现有信息准确提取满足报送要求的数据;

    • 系统可以实现的自动化取数,但业务尚无需求。

  • 同业类

    • 系统无法自动按照同业客户类型分类进行统计;

    • 系统无法按照投向行业分类对非债业务进行统计;

    • 系统无法自动汇总统计出一个客户的存放、拆借等金额;

    • 同业存放业务的客户名称与账户名称不符合监管要求。

  • 债券类

    • 系统无法自动按照债券种类、发行机构分别统计;

    • 系统按照期限分类计算债券余额不准确。

  • 其他类

    • 系统可以取数,但是业务尚未提出需求;

    • 业务目前无系统支持,如资本充足率、发债业务及衍生品业务;

    • 系统无法区分资产减值准备的冲销、转回、卖出资产;

    • 少量业务因缺乏有效沟通渠道,暂时只能手工填报。

经过业务和系统的综合分析,将数据质量问题的常见成因归纳为5类:

  1. 技术设计缺陷:源系统设计对后线系统业务分析需求考虑不足造成的数据质量问题。

    例如,在408委托贷款的委托贷款用途字段,存在技术设计缺陷,造成数据完整性问题。原因是,Portal前台页面贷款投向字段是必填项,但数据并没有记录在数据库中。

  2. 历史数据迁移:上线及迁移过程中造成数据质量问题。

    例如,在408委托贷款的手续费金额字段,存在历史数据迁移缺陷,造成数据完整性问题。原因是,委托贷款回单表未迁移历史数据。

  3. 系统同步机制:系统之间同步数据时考虑不周。

    例如,在204_个人活期存款分户账的开户柜员号字段,存在历史数数据迁移和系统同步机制的缺陷,造成数据一致性问题。原因是,HR系统上线前离职人员的数据缺失,且部分渠道系统使用了虚拟柜员。

  4. 业务需求缺陷:业务需求对后线分析需求考虑不周。

    例如,在214_个人信贷分户账的客户统一编号字段,存在业务需求缺陷,造成数据一致性问题。原因是,个人客户信息录入到对公客户里。

  5. 下游系统代码转换:下游系统在代码转换中考虑不周

    例如,在214_个人信贷分户账的贷款合同号,存在下游系统代码转换缺陷,造成数据一致性问题。原因是,CML与CMIS流转到MDS的个人贷款贷款状态不一致,CML 贷款状态正常,CMIS贷款状态却是注销。

总体评估下来,可得知数据质量的现状为:

  1. 完整性

    问题数170,占比48%。主要表现是数据项空值、数据项未启用、历史数据问题等。

  2. 一致性

    问题数118,占比33%。主要表现是数据同步错误、数据录入错误、代码转换错误等。

  3. 准确性

    问题数63,占比18%。主要表现是业务需求缺陷、指标定义不清晰等。

  4. 规范性

    问题数3,占比1%。主要表现为数据信息不规范、数据操作 不规范等。

  5. 及时性

    本次评估未发现及时性问题。但及时性问题尚未凸显,其实是因为基础性问题较为严重。

除了数据质量现状,还需要评估数据质量管理的现状。在此基础上,提出监管数据治理的“重+综”总体思路:

  • 近期重点解决:重点解决对业务和管理影响较大的数据质量问题,以期快速见效;

  • 中长期综合治理:基于远期蓝图,管理+技术同步推进、综合治理,确保稳步改善。

例如,对于技术设计缺陷造成的数据质量问题,在近期重点解决中可以多管齐下:

  • 统一源头:一类数据以同一系统作为唯一入口,并由专门人员录入、维护相关信息;

  • 杜绝人为错误:由影像管理平台扫描自动获取公司营业执照号,杜绝人为错误;

  • 唯一标识:同时判断公司名称和营业执照号,保证客户唯一性;

  • 统一维护:强势客户由业务经理依据模板填写资料,提交平台统一维护,避免录入错误和重复。

当然,数据质量是一个长期任务,需要总体规划、分步实施,通过制订数据质量管理远景蓝图,明确方向、确定路线、落地实施。