银行自建法规数据库哪些坑?

其实这个问题换一个问法就是，为什么银行自建法律法规库绝大多数会失败?

从笔者接触的10多家银行自建法律法规库的结果看，基本上是建立后非常低的使用率，几年后因为更新维护问题基本上限于停滞。

大部分银行也意识到自己的资源和精力有限，开始对外招投标建立合规管理系统，同时也会嵌入法律法规库的数据和功能，但是很遗憾笔者接触到国有大行、股份制、城商行、民营互联网银行，对外招投标必然陷入一个困境：

1、无法衡量法律法规数据的质量;

2、限于价格竞争，最终数据质量仅限于爬虫触及范围;

3、更新维护外包的数据质量更加难以评判;

4、行内的监管数据很难和外包商数据整合，包括行内收文、监管报送等;

一、如何衡量银行业金融机构法律法规库的数据量?

2019年和一家股份制银行接触过数据库建设问题，后来过了一年看到这家银行合规部同事朋友圈分享自建的法规库上线海报，重点突出数据量15万部法律法规。而我们对外统一口径是8万部法律法规(如果放低质量要求我们也可以说有200多万部法律法规文件)，我们做了8年，投入大几千万也就这个成果。

这里关键看统计口径，如果把非金融类的法律法规也纳入统计口径，很容易通过简单的爬虫程序积累数十万部监管文件。

也有招标过程中，部分银行要求填写具体每个颁布机构对应的法规数量，算是一大进步，直到通过这种方式排除不相关的法律法规，可以同一个口径对比不同供应商的数据。

但即便如此也无法衡量数据质量，因为同样银保监会发文，如果把部分行政批复混杂进去充数就可以达到10万法规数据(其中批复9万);同样是央行发文，如果把公开市场操作及各种公告混进去，也可以高达3万的数据(但是实际意义的法规就几千部)。

此外还有大量游离于规范性文件通知和监管动态之间的文件，比如今天开了个会，明天做了表态。

所以金融机构需要真正搞清楚怎么识别数据量，统一口径对比?

笔者建议通过合规部筛选10-20个关键词，正文内容及标题进行检索，对比不同供应商的命中解雇数量以及质量。因为一个关键词输入进去返回结果可能就10-50个，可以把这50个法规都点开看看，有没有混进去的非法律法规内容部分，也可以直观对比具体的数量和质量。

比如输入“员工行为”，法询智库的返回结果是413条记录，而且每条内容能够经受住考验。

二、如何识别法律法规库的文件质量?

看起来这个问题很傻，法律法规不就是一堆无聊的文字么?还有质量一说?

这也是很多外行得知我们是做法律法规数据的，就鄙夷地看着你：“原来就是编辑法规文件的”。

质量大概分为几个层次：

1、错别字和格式错乱，这个一般正规大型供应商不太会出现;但是小供应商如果只是简单用爬虫会比较常见。

2、法规附件是否完整，表格是否完整。大部分供应商做不到对数万个文件的附件做校验入库，表格进行规范。然后有很多文件表格才是正文的灵魂所在。

3、法规之间的关联关系，尤其是法规联想，目前没有人能做好。

但是相对而言，至少可以把明确的法规引用做好，法规联想需要大量专业人员，叠加NLP技术支持才能逐步完善的一项工作。

4、法规有效性识别。有效性识别实际是所有人服务商的通病，根源是监管机构只有动力发文，但废止失效往往严重滞后，所以导致大量法规实际已经失效，但仍然在数据库里面显示为有效，这种唯一解决方案就是人工专业识别，加备注方便金融机构从业人员自行判断。

三、处罚案例

处罚案例看起来似乎更容易，只要写个爬虫把官网公布的行政处罚拿下来就行了。但是至少我们一行两会一局6万多的处罚案例，做了3年，原因在于校验数据错误，建立和法规的关联关系，人工抓取金额，都需要消耗大量人工的工作。最终才能形成一个像样的产品。

比如光看数量，央行有18万处罚案例，但是绝大部分都是和金融没有半点关系，我们就需要做筛选，最终筛出来7000多和金融相关的处罚。

比如分类，我们需要根据非常有限的处罚案由，对银保监会2.4万处罚案例做分类处理，抽离出500多个分类标签。

四、关于查询

如果只是通用的做一个普通的开发，通常银行选择外包方或者自己行内提需求，也就是是法规名、文号、颁布机构、正文内容、颁布日期等字段查询。

但是现实情况是用户真要查的时候，很可能并不确定所查询的关键词对不对，这个时候对法规的标签、分词处理等长年累月的基础性工作至关重要，在这些基础上才能有联想和模糊查询。虽然我们目前也只是在法规联想匹配上做了很多工作，在模糊查询这一块做得也不够好，但是相信2021年底能够实现相对精准的模糊查询(通过自然语言学习，拆解关键词做查询结果模糊匹配)。

其他细节就不多说了，比如移动端兼容、查询响应速度要控制在0.5秒以内，基本要求如果是靠谱开发机构应该都能实现(但笔者也见过至少3家银行自建的系统这些基本要求都达不到)。

五、外规内化和法规条款梳理

合规建设年，很多金融机构又重提此前不断尝试但不断失败的“外规内化”，本质上是要将纷繁复杂的且动态变化的法规要求嵌入到内部流程中，这需要两项艰巨的任务：

1、能够梳理出所有监管要求(包括负面清单)，这个能涉及到上万部各种文件，数万个要点。梳理过程中也会遇到更新或者废止，同时不同条款之间的关联关系、钩稽关系也需要注意。单就这项工作尚未看到任何一家供应商或者金融机构能够完成，包括我们自己也只是尝试梳理了几千部法规文件和不到2万条监管要点而已。

2、内部流程的再造

本质上是需要根据业务流程和风险控制，在法规和风控所划出的域里面来给业务做规范。现有流程肯定需要重新规划，该合并的合并，该拆分的拆分，而且需要和法规条款进行重新mapping，确保流程控制对合规风险已经做了足够的控制，如果有剩余风险应该如何做应对措施。

但是首先第一步，需要判断这个流程到底可能触碰多少合规要点，后续万一更新了怎么办?

之前之所以失败，是因为从来没有一个外部供应商能够把外规的要点梳理清楚，内部不论是人力投入还是视野都远没有这个能力做这个事情。

六、能否通过AI实现法律合规基本问题的智能判断?

笔者接触过的银行保险机构至少有3家尝试过，而且是真刀真枪真资源投入，很遗憾结果也是非常失望。

包括招行和深圳当地的一家机构合作开发的智能合规机器人，选择了一个非常聚焦的细分领域，大幅度缩小范围(仅针对零售的销售环节)，确定对话场景，结果也只能说凑合着用(从官网看回答正确率92%)。

如果泛化到真正的业务合规判断及审核，复杂度不在一个量级，还是对正确率的要求也更高，还有大量法律法规未触碰到的灰色地带。

我们虽然也在应用NLP做法律法规的条款分析，梳理法规条款之间的关联关系，做一些系统的初级判断再人工识别，但我们深刻意识到至少在合规这个领域尚未不成熟，3-5年之后的时机或许更好，但即便如此未来3-5年我们并不会坐以待毙，而是需要在数据积累，条款分析以及基本的自然语言学习技术方面做好准备。

销售方案有4种：普通账户查询、全行覆盖免密查询、API接口、数据植入。

(1)账号密码方案：绑定微信账号注册，不可多处同时登录。是较为经济的标准化服务，普通账户仅售3500元。10个账户单价降到2000元以下。

(2)全行覆盖免密登录方案：支持辖内银行所有人同时登录使用。全网覆盖单价更低登录更方便，根据机构大小一般18-30万/年。支持金融机构个性化页面，如首页展示LOGO，个性化设置相关法规案例优先展示等。后续年度处罚案例深度分析报告。

(3)API接口方案，方便和行内已有系统嵌入，无需登录外网即可查询所有文件、案例等内容。可以更高灵活性做个性化定制。

(4)数据植入需要根据机构具体需要选择性植入我们的部分数据，价格较高，具体添加笔者微信咨询。

银行自建法规数据库哪些坑?

公司介绍