李文哲:基于图数据库的大数据应用

编辑时间: 2016-07-06 10:25:42    关键字:大数据应用

 本文根据【2016 第七届中国数据库技术大会】现场演讲嘉宾李文哲老师分享内容整理而成。嘉宾介绍:

DTCC 李文哲:基于图数据库的大数据应用
▲惠普金融首席数据科学家 李文哲

  李文哲,普惠金融(puhuifinance.com)首席数据科学家,负责公司的人工智能、大数据技术以及创新产品的研发。在大数据、机器学习、深度学习、自然语言处理,图数据库等领域有丰富的研究和实践经验。在美期间,先后就职过亚马逊、高盛、Fiserv等多家公司。南开大学本科,美国 Texas AM 大学人工智能硕士,美国南加州大学机器学习博士,荷兰阿姆斯特丹大学访问学者,主要的研究方向为图模型、贝叶斯优化、深度学习、知识表示,先后发表数篇论文在 AAAI、KDD、AISTATS、CHI 等国际顶级会议和期刊上。

  正文:

  我来自普惠金融爱钱进,主要研究AI、机器学习、深度学习和自然语言处理。目前,主要负责大数据、互联网金融领域的大数据征信和风控。惠普金融是一家互联网金融公司(P2P),成立于2013年7月,2014年12月获得了5000万美金的A轮融资,现在已成长为国内P2P平台的TOP 10。

  图数据库

  数据驱动策略(DDS)是指解决方案的决策需要数据支持,而非仅通过数据知道问题或insight。金融行业的核心是风控,因为风险控制直接会影响到公司的盈利,而且大数据风控和传统风控有很大的不同,所以我们公司也在这方面投入了很多,近日公司也发布了很多图数据库。目前,我们使用的图数据库是Neo4j。

DTCC 李文哲:基于图数据库的大数据应用

  上图是图数据库的一个生态系统,很多公司的数据都是多元化的,这时就需要构建一个有关系特征的数据结构,将实体关系抽取出来从而得到一个知识图谱,然后任选一种图数据库进行存储就可以了。图数据库的本质仍然是一个数据库,只是它的存储方式发生了变化。既然是一个数据库,那么在做AI应用时就必须添加一些计算引擎,例如关系验证,消歧分析、异常分析、链接预测、特征抽取、聚类、关系搜索等等。这些技术点每一个都可能会衍生出一些应用场景,但是仅仅有这些技术是不够的,例如实体标签,除了这些技术可能还需要机器学习、深度学习这样的处理技术来支撑。

  我们可以先构建一个金融类的知识图谱。谷歌用的知识图谱是通用的知识图谱,因为他们的数据大部分是来自网上,数据多是文本、百度百科等等。但是我们的数据是非常有针对性的,知识图谱也是在某个领域内有针对性的知识图谱,我们称之为金融知识图谱。目前我们有10多种实体类型、50多种关系类型以及上亿个实体和关系。

  反欺诈

  反欺诈是风控非常重要的一环,一般从两个方面来判断一个人是否有欺诈行为,一个是还款意愿,另一个是还款能力。很多的欺诈都是基于规则的,下面我们来看一下基于图数据库怎么进行反欺诈。

  1.不一致性验证,例如两个申请人同时拥有同样的电话号码,这就是一种明显的不一致。另外申请人与其他申请人填写了同样的公司电话号,但却填写了不同的公司名等等,这些和正常逻辑不符的情况都属于不一致性。

DTCC 李文哲:基于图数据库的大数据应用

  2.三角关系,在几个亿的关系网络里把三个人的所有三角关系找出来,然后对每个三角关系做一个验证,假设三角关系里的某一个人被标记为坏人,那么我们就认为其它申请人也是有风险的。另外,还可以做复杂的推理三角关系验证,例如三个关系中有一个关系和其它两个关系不一致。

  3.其它风险,比如三个申请人明显拥有很多共同信息或者短时间内,图结构就发生了很大的变化。

  失联客户

  风控分为贷前、贷中、贷后三个部分,贷前是指放款之前做的风控,贷中是还款过程当中的风控,贷后是客户已经不还钱了,银行如何去降低风险。失联管理属于贷后风控,借款人借钱以后失联怎么办。如果借款人更换手机号以后失联,那么他在借款时填写的信息基本就不可用了。这时,我们应该怎么办呢?我们可以利用图数据库搜索跟这个人有关系的其它联系人,也就是挖掘更多的联系方式。比如说我有一个申请人失联了,他填写的其它联系人也失联了。那么我们就去图数据库做链接预测,寻找和借款人特征最相似的人。

  除了图数据库,我们还可以尝试采用其他方法去寻找,比如说可以去百度搜索借款人填写的手机号码,找到和这个手机号码相关的其它手机号码或者地址,然后根据搜索结果继续搜索,经过多次重复搜索,最后可能就会挖掘出有用信息。

  图数据库面临的挑战

  1.非结构化数据,互联网金融领域做图数据库涉及到的数据非常多样化。数据有非结构化的文本、百度和论坛上抓取到的信息,甚至还会有和客户沟通的音频以及客户上传的图像等等,如何将这些非结构化数据转成结构化数据是一个难点。

  2.消歧分析,有两个节点,它们看起来是类似的,如何判断这两个节点是否为同一个节点。

  3.链接预测,这在学术界也是一个开放性的问题。

  4.大数据小样本,这是金融行业普遍存在的问题,例如,银行的数据量很大,但是它的欺诈风险模型是非常少的。

  图数据库的好处

  1.更方便的整合和管理不同种类的数据源。之前数据都是散落在不同地方的,存在数据孤岛问题,但是我们通过图数据库的方法把公司所有数据源都整合在一起。

  2.方便地做关系的分析,无论是风险控制还是金融风控,最重要的是关联性的分析。关联分析可能会涉及到四五个表,用SQL做join可能需要运行一天,但是图数据库就会非常高效,因为数据已经是处理好的,所以只需运行几分钟就能得出结论,效率上有好几个数量级的提升。

  3.实时性服务,我们的业务需求不仅仅是要做一个线下离线分析,还要利用Spark开源工具来做实时性服务,并把这个服务提供给公司内部其它的核心团队,未来还有可能提供给第三方。目前我们采用的Neo4j图数据库提供了整个数据库必备的核心服务。

  以上就是我想和大家分享的内容,大家如果在AI、图数据库、知识图谱这方面有任何问题都可以来和我讨论。

推荐热图

合作推荐

2010-2018 可思数据版权所有 About SYKV | ICP备案:京ICP备14056871号