【背景介绍】中共中央、国务院出台的《关于构建更加完善的要素市场化配置体制机制的意见》明确数据为新型生产要素,标志着数据成为数字时代最重要的战略性资源。励讯集团旗下的律商联讯风险信息公司在释放政府数据价值,利用数据产品造福社会方面有着数十年经验积累,为了将这些宝贵的经验带到中国,助力大数据产业发展,律商联讯风险信息公司中国区董事总经理吕晓辉博士就数据应用和数据产品如何服务与造福社会进行了专题分享。
嘉宾简介:
吕晓辉,律商联讯风险信息公司(励讯集团旗下公司)中国区董事总经理 ,13年专注于开拓数据和分析在保险行业的应用。吕博士2006年加盟励讯集团(RELX ),并从2012年开始为集团保险业务拓展中国保险市场,助力中国保险行业客户提升工作流程效率、降低赔付和欺诈风险。吕博士是保险行业数据和分析产品专家,曾经为励讯集团主导开发车险消费者活跃度、保费支付历史共享平台等一系列成功的大数据产品,曾主管励讯集团美国保险分析业务,并为多个美国顶级保险商提供了定价策略咨询。吕晓辉从南京大学获得学士学位,从哈佛大学获得博士学位。
在有丰富的数据源支撑下,大数据产品能够释放巨大的社会价值
• 政府领域,防范企业和个人逃税漏税或者冒领退税;防范不法分子冒领政府福利;防范医保系统中的欺诈/滥用/浪费行为;协助警方追踪犯罪分子、查找被拐卖人口、利用预测性模型协助警方优化警力资源部署。
• 经济领域,帮助银行和保险公司识别和招徕高质量客户,履行在反洗钱、反贪污贿赂等方面的合规义务,评估企业和消费者信贷风险、识别欺诈风险、降低赔付风险,提升银行和保险公司债务追偿能力;向医生建议某一疾病的最佳医疗路径、帮助医院和医疗保险公司有效进行人口健康管理;有效地在众多行业场景认证消费者客户的身份、识别客户账户风险。
• 银行征信数据目前在中国尚未能够广泛应用到银行业之外的领域,而在美国,银行征信数据在各政府和经济领域的应用都是非常广泛的。
• 诸如政府公共数据的非银行征信数据在促进普惠金融、在线交易、风险评估和管理等多个领域有着非常大的应用价值。
• 数据治理是为了更好的数据应用。数据价值的释放不仅要有强大的数据治理算法还要对行业应用场景有深刻的认识,两者结合在一起之后才能为客户和社会创造实实在在的产品和价值。
• 在大数据时代,有着充分的技术能力和行业理解的大数据企业对于数据的渴求是“韩信用兵,多多益善”,因为每一点一滴的数据,都可以被应用到刀刃上,为客户和社会创造价值。
1 律商联讯从何时开始做大数据产品,有着怎样的历史渊源?
吕晓辉:律商联讯是40多年前随着美国社会和经济的数字化发展起来的公司,最开始是为其法律业务收集公共新闻、媒体报道,为律师和法官服务,并以此为起点开始广泛采集海量的数据。随着社会经济数字化程度的不断提高,律商联讯开始从政府公开数据来源采集和民生相关的数据,比如房地产交易信息、法院判决结果、消费者和企业破产信息、专业执照信息等等。这些信息开始被应用于法律行业之外的其他一些行业。特别是随着当时金融业逐步开始数字化,律商联讯也因此成立了金融事业部专门服务这一新兴市场。
2008年励讯集团收购了专门为美国保险行业提供数据和分析服务的公司ChoicePoint,并将律商联讯的金融事业部和新收购的保险业务板块合二为一,成立了律商联讯风险信息公司(LexisNexis Risk Solutions,下文中简称“律商风险”)。此后,律商风险开始了全球业务扩张,通过有机成长和并购的方式,迅速拓展现有的风险业务板块,并且从2014年开始,进一步与集团励德商务(Reed Business Information)业务合并,组建新的风险和商务分析(Risk & Business Analytics)业务板块,形成针对政府、银行、保险、医疗、航空、农业、能源和化工等行业的专业信息服务集团。通过强大的数据采集处理分析能力,服务于各行各业的客户。
早在90年代,律商联讯就面临了一个很独特的挑战,那就是我们采集的数据量太大了, 当时的IBM大型机和甲骨文数据库都撑不住了。为了解决这个挑战,励讯集团加大了在并行计算技术的投入,包括在2004年7.75亿美金收购了Seisint,在其独特技术的基础之上,开发了高性能并行计算系统HPCC以及包含了40多个专利的数据治理算法SALT。正是这些强大的计算工具,才使得律商联讯能够举重若轻的把海量数据提炼成能够为客户带来价值的insight(洞见)输送给客户。此后律商风险一直致力于增进大数据计算和分析方面的技术实力,开发了大规模的算法之上的处理超大规模关系网络的专用图计算编程语言KEL,以及基于图形界面的大数据可视化工具,从而使得我们以极高的效率开发出基于海量数据的数据和分析产品。强大的大数据治理、分析和应用能力,是我们的核心竞争力。
2 我们在美国市场上从多少个数据源去收集数据?如果归纳起来,可以分为哪几个渠道?
吕晓辉:单在美国市场我们就有20,000多个数据源,4个PB(Petabytes)非机器生成的数据。这点很重要,因为非机器生成的数据往往是信息价值含量非常高的“干货”。关于数据收集的渠道,主要有以下几个:第一,针对某个垂直行业,我们联合行业主体搭建行业数据共享平台。律商风险在过去的25年中,仅在保险行业就搭建了17个行业数据共享平台,在保险行业之外,我们还搭建了诸如巴西消费者银行征信平台、美国中小企业银行征信平台、美国跨州政府福利反滥用平台等数据共享平台。第二,通过商业手段采购大型数据集成商的数据。比如美国三大银行征信公司益百利、艾克飞和环联都是我们的数据供应商,类似的数据供应商还有很多。第三,采集来自各级政府机构的公共数据。美国的政府信息公开政策,使得任何人都有权利接触到很多政府来源的公共数据。由于这些数据都是非常零散的,尽管可以免费获取,但是采集这些数据,拼成可以覆盖全人口的数据库,则需要非常大的数据采集资源的投入。律商风险从创立开始,四十年如一日在做公共数据的采集这件事情。第四,采集来自于互联网的信息,在合法合规的前提下,作为前三类信息的补充。第五,积累实时查询轨迹数据。在通过上述努力形成大体量数据资源池的基础上,我们为多个行业创造了大量的应用。这些行业每个小时都会向律商风险发起约3千万次实时查询。实时查询的轨迹数据也是我们的重要数据信息来源。这五个信息渠道是律商风险主要的信息渠道。
3 请分享一下律商风险的产品在服务政府、风险分析、欺诈防范等方面为社会带来了哪些价值?
吕晓辉:作为一个随着美国经济的数字化进程成长起来的、广受消费者和监管方信任的信息科技公司,律商风险40多年专注于利用数据和分析服务于政府和经济。在政府领域,律商风险帮助政府防范企业和个人逃税漏税或者冒领退税;防范不法分子冒领贫困救助、失业救助等政府福利,从而使有限的救助资源可以给到真正需要的人手中;防范政府医疗计划中医疗机构的欺诈、滥用、浪费行为,打击上瘾药物非法贩卖团伙;协助警方办案人员既快又准地识别和追踪犯罪分子、查找被拐卖人口、利用预测性模型协助警方优化警力资源部署。
举一个很有趣的小例子:在美国的一个医院里面,一个初生婴儿被拐走了,通过当时在场人的回忆,只能得知车的颜色、品牌以及部分车牌号信息。警方在律商风险的帮助下,通过这些极有限的信息,迅速在整个弗罗里达州筛查出五辆符合条件的车辆,其中只有一辆是当地的车,锁定为高度怀疑对象,果然在警方发布追捕通告后,第二天就在隔壁镇上找到了这辆车。万幸的是,找到这辆车的时候孩子还安然无恙。在这个案例中,律商风险以覆盖全国车辆信息数据库为基础,依托自身提供强大的检索功能,只通过极为有限的车牌号、车辆颜色和品牌等信息,迅速检索出整个州范围内符合条件的车。其实这样的案例还有很多。由于律商风险能够把每个人在这个数字社会中留下的数据痕迹进行整合,串联成这个人一生的数据轨迹,所以在这样一个强大的数据基础面前,犯罪分子必然无所遁形。
在经济领域,律商风险帮助银行和保险公司识别和招徕高质量客户,履行在反洗钱、反贪污贿赂等方面的合规义务,帮助金融机构评估企业和消费者信贷风险,在保证客户体验的同时识别欺诈风险、降低赔付风险,提升银行和保险公司债务追偿能力。在医疗健康领域,律商风险依托海量的数据资源和强大的数据分析能力向医生建议某一疾病的最佳医疗路径、帮助医院和医疗保险公司有效进行人口健康管理;帮助其它商业和非商业机构有效地认证消费者客户的身份、识别客户账户风险。以上这些都是在经济领域的应用实例。律商风险在每一个自己所深入的“垂直市场”都提供成体系的数据和分析产品。当然,我们对于进入哪一个垂直市场非常谨慎。尽管大数据的可能应用范围广大,但是律商风险仅在深刻理解某一垂直市场的客户具体需求之后,才将自身优势资源组合投放于这一市场,为我们的目标客户带来最大的价值。
4 征信数据是否在风险评估中能够有更广泛的应用,律商风险在这方面是否在国际市场上已有相应的产品?
吕晓辉:首先,银行征信数据在非银行领域的应用是非常广泛的,而中国的银行征信数据尚未能够在非银行领域广泛应用。在美国,银行征信数据在各种领域的应用是非常广的。这边我想讲几个例子。在美国雇主在雇佣员工之前要对员工做背景调查,调查包括信用报告,犯罪记录等等。另外,房东在签合同把房子租给房客之前,征得房客同意之后,也会去征信局查房客的征信记录,看看房客信用评分是否足够高,从而判断是否可以放心地把房子租给他。这些都是很典型的银行信用数据在社会各行各业应用的体现。
5《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》明确提出了要推进政府数据的开放共享,在美国市场上律商风险是否有应用政府数据开发的服务于社会的风险分析产品?
吕晓辉:我想把您说的这些政府来源数据定义为政府来源的非银行数据,这样我们可以用“非银征信数据”这一名词来代指下文中政府数据。律商风险是美国市场非银征信数据最大的集成商,以及非银征信数据在各行各业应用的最成功的数据和分析解决方案供应商。举几个例子,一个人出生、死亡、婚姻、房地产记录、选民登记信息、犯罪记录、破产记录,以及各种各样的专业许可证书,都是公开信息,每个人都可以查到。除了这些公开信息之外,非银征信数据还包括非公开,但是在获得消费者许可的前提下就可以使用的信息,包括身份信息、驾照信息、破产信息、、联系方式等等。如上所述,律商风险通过五大信息渠道采集数据,这些数据能覆盖全美三亿多人口中的两亿多成年人口。未成年人保护法保护限制了对于未成年人的收集数据。采集覆盖两亿人口的数万个数据源的数据其实是一个非常庞大的工作,律商风险在做成这件事之后,一跃成为美国最大的非银数据的集成商,就连美国三大银行征信公司的个人征信报告里的公共记录部分的信息都是由律商风险提供的。
那么采集这些信息有什么用处呢?本质上来讲,掌握了一个人在其人生中的主要时点,比如出生、死亡、婚姻、教育、职业、搬家、买房买车信息之后,就可以形成对这个人的深刻理解。这些信息可以被用于很多用途:首先,在银行领域,即使在信用体系建设已经相对比较成熟完善的美国市场,也至少有12%左右的消费者没有足够的银行信用数据,对于这些人而言,由于获得好的信用评分,他们借不到钱,也申请不到信用卡。然而事实上这些人往往都是需要金融信贷帮助的贫困人口。律商风险通过非银行的信用数据帮助银行和其他信贷机构来了解这部分人的信用风险。通过数据分析我们发现其实这部分人中绝大多数都是信用很好的人,都是值得借钱并且会按期偿还的人。所以,我们把这部分消费者激活出来,成为金融行业新的客户群。第二,我们可以帮助各行各业解决身份验证、身份确认的难题。如今各行业在涉及到消费者客户的时候,都不可避免地碰到这样的情况,特别线上经济日益发达的今天,消费者都是通过网上交易,那么如何确认他的真实身份?这时候律商风险的产品就派上了用场,首先能够帮助商业公司识别消费者是否是他所说的真实身份。有一些身份信息本身就容易发生混淆,比如说在西方常见的,父子名字相同,这时候两个人身份容易混在一起。也有人专门利用身份信息来钻空子,也就是所谓身份欺诈,即在某个时刻针对目标欺诈对象去伪造一个身份,可以去盗窃真实存在的人的身份,也可以凭空捏造出一个身份。不管是哪种欺诈手段,在律商风险的数据体系下都是无可遁形的,因为律商风险能够描绘每个人的相对完整的数据轨迹。哪怕是最老到的欺诈分子,也不可能一直撒谎长期维持虚假身份而不暴露原形,所以律商风险的数据体系可以很快识别身份欺诈犯。身份欺诈是网络经济发达的今天所日趋严重的问题,为了解决这个难题,除了刚才介绍的识别欺诈分子的产品之外,律商风险还会为客户提供一系列的工具,帮助他们管理身份欺诈的风险。比如说我们会根据一个新上门消费者的情况,判断他有多大的可能性会进行欺诈。如果可能性比较高,我们会向商家提供身份确认工具,让商家去问消费者几个问题,这些问题只有真实身份的本人才能回答出来,比如你开的第一辆车是什么颜色的?你1980年住的地址的邮编是什么?这些问题对真实身份的人来说不是很难的问题,但是对伪装成那个人的欺诈分子来说是回答不出来的。通过这个办法,我们帮助商家更好的确认消费者的身份。另外,律商风险最近收购的一家叫ThreatMetrix的公司, 可以通过身份信息和移动设备绑定,从物理设备的维度提供进一步身份验证手段。(了解ThreatMetrix怎样帮助客户识别欺诈)如果你想要证明你就是本人,那好,我向和这个人绑定的设备发送验证码,你把这个验证码报出来。这在国内是常用的一个手段,但在防范移动设备被盗用的情况上仍然有提升空间。身份验证是非银行数据的一个主流应用。
当然,非银行征信数据在其他领域有非常广泛的应用。比如一个人在十年之内搬家的次数,与车险的赔付风险有很大的关联度。保险公司在有足够多的对于投保人的信息理解之后,就可以非常准确的了解投保人的风险情况。
6 将来自于庞杂数据源的数据治理成为有价值数据是释放公共数据价值的重要基础,在数据治理上律商风险是否有国际经验及专长可供分享?
吕晓辉:律商风险的核心能力就是将繁杂、海量的数据提炼成为有用的、可以支持客户决策的工具。这中间涉及到几个方面的技术。首先,数据量大了,就要有很强的计算能力,这也就是为什么律商风险用7.75亿美金买下Seisint这样一个并行计算公司,目的就是想有一套基于Linux操作系统的并行计算系统,帮助我们非常廉价的通用服务器,无需额外的软件就可以进行庞大的计算。其次,因为这些海量的数据在生成时的目的各不相同,并不是为了数据之间可以打通使用的,其本身充满各种各样的瑕疵,并且缺乏通用的关键字。想要把这些数据串在一起,就需要通过算法进行个体解析,换言之就是把与一个人相关的所有碎片化数据痕迹完整的、准确的整理到这个人身上去,形成这个人的数据轨迹;并且要对每一个人都做这样的事情,还要严格保证一一对应,不能把一个人的数据错误的放到另一个人身上去。在此过程中,不仅对每一个人要做个体解析,而且对每一个财物、,比如房子、车这样的实物,以及对每一个事件,比如说一笔贷款、一个交通事故的索赔案件,都要做个体解析,这样才能将收集自不同数据源的庞杂数据治理成为个体和个体之间的关系网络。一个人、一个车形成的所有权关系或者驾驶关系,两辆事故中的车辆形成的涉案双方的关系,案件相关的保险公司、保险公司内部的办案人员,车辆维修厂、拖车公司,事故发生人员伤亡之后的医疗机构,事故人打官司聘请的律师…这些个体之间的信息构成一个理赔案件的关系网络。对这些关系网络的分析,可以发现很多事情,比如识别有预谋的团伙欺诈、长期潜伏的保险公司内部蛀虫。就算团伙欺诈的主谋不直接出现在任何一个案件里,但总是会和每个案件的涉案方有其他的关联,律商风险在吃透了车险理赔环节的具体应用场景,以及合谋欺诈的一些典型欺诈模式之后做出的应用可以帮助保险公司及时发现团伙欺诈并拒绝赔偿,甚至可以联合警方去打击这个团伙。 总结起来,上述案例中律商风险所呈现出的大数据处理和算法的核心能力有两方面:一是个体解析能力,二是基于特定业务场景的关系网络的生成和分析能力。律商风险在把数据进行个体解析和关系网络生成之后,才能把数据投放到具体应用的垂直市场里。
再举个例子,在公共医疗计划里经常会有一些“瘾君子”需要违禁药物,这些药物很难拿到,而且价格比较贵。这时候“瘾君子”们就会去撺掇一些想要赚外快的医生,对他们说,你来帮我开这些药物吧,我有医保计划。但是他们其实没有合理的理由去获得这些药物,这时候医生为了赚这笔钱就会想办法,他们会去社会上找一些假病人,让他们来就诊,开了处方之后让这些假病人去药房拿了药交给瘾君子,或者交给中间商。律商风险通过我之前描述的关系网络,可以发现在这个场景下,往往这些药店都是距离那些假病人很远的私人药店,而正常情况下病人拿药都会去离自己比较近的药店。发现了关系网络中的异样特征之后,律商风险的产品就可以帮助美国社会医疗计划识别和打击这些灰色产业链。总而言之,数据不是为了治理而治理,是为了更好的数据应用而治理。挖掘数据价值的释放不仅要有强大的数据治理算法,还要对应用端的行业应用场景有深刻的认识,两者结合在一起之后才能为客户和社会创造形成实实在在的,为客户和社会创造产品和价值的产品。
7 律商联讯收集的所有数据,实际利用率如何?
吕晓辉:在律商风险,所有的数据都有用,而且一定都会被利用。举一个很有意思的例子。美国人经常会父子同名,老爸叫John Smith, 儿子也叫John Smith。儿子在刚刚进入社会,数据轨迹还比较薄弱的时候,能够采集到的公共记录数据和消费数据还没办法把这两个人区分开,这时候父子两个人在我们的数据库中是同一个身份。但是随着儿子开始步入社会:考到自己的驾照,拿到第一个专业证书,去大学里面租房签了第一份租房合同…这些数据就逐步开始把这个人勾勒出来了。这时候律商风险的大数据算法通过机器学习,自动把原来的一个身份裂变成为两个数据轨迹,把这两个人分开。举这个例子是想说明,人的信息只有在被积累到足够多之后,才能准确的描述一个人的身份,所以每一点一滴的数据都很重要,每一个新的数据加进来之后,都能够让我们对原来已有的数据进行更深的理解。所以在大数据时代,在我们强大的算法下,数据对我们来说是“韩信用兵,多多益善”。每一点一滴,我们都可以把它应用到刀刃上。
(来源:励讯集团)