基于Logistic回归模型的P2P借款人信用违约风险评估模型研究

来源:期刊VIP网所属分类:综合论文发布时间:2019-12-09浏览:

  摘 要: 针对P2P网络信贷平台信用风险特点,以借款人违约情况为被解释变量,运用Logistic回归方法建立借款人信用违约风险评估模型。原始数据从人人贷网站抓取获得,选取的原始评估变量有24个,通过信息增益进行指标降维,得到19个解释变量,并以此建立了Logistic回歸模型。通过五步逐次回归得出,性别、逾期次数、逾期金额、身份认证和学历认证等5个因素作为评价个人信用风险的主要依据,并建立了Logistic回归模型。回归模型的判别准确率表明所构建的借款人信用风险评估模型预测效果较好。

  关键词: P2P网络借贷;信用违约风险; Logistic回归模型;信息增益

管理学家

  P2P网络借贷全称是“Online Peer to Peer Lending”,指的是个体与个体之间通过网络实现的直接借贷。出借方和借款方既可以是自然人,也可以是企业。2005年,世界上第一家网络贷款平台Zopa在英国成立,次年网络贷款平台Prosper在美国成立,随后,日本、西班牙、韩国等国家也纷纷成立了自己的网络贷款平台。2007年,中国最早的网络贷款平台——拍拍贷成立,此后,其他网络借款平台陆续出现。2010—2012年,我国的P2P网络借贷平台由10家增长到200家,网络借贷成交额由15亿元增至212亿元。随着社会经济的不断发展以及大众融资需求的增加,2012年后我国P2P网络借贷得到快速发展。2013年,我国网贷平台数达到800家,成交额达到1058亿元;2015年,网贷平台数达到2595家,成交额达到9823亿元。 2017年,我国网贷平台数量达到了6363家,全年网贷行业成交量达到了28048.49亿元,相比2016年全年网贷成交量(20638.72亿元)增长了35.9%;预计2018年上半年网贷行业成交规模将趋于稳定,下半年或迎来成交量新高,全年P2P网贷成交量大概率突破3万亿元。

  2018年上半年P2P行业成交额小幅下降,这一现状暴露了P2P网贷行业目前存在的各种问题。平台层面,包括平台跑路、平台关闭等;借款人层面以借款人的信用违约行为最为突出,信用违约不仅会给网贷平台造成运营风险,而且也会对整个网贷行业造成不良影响。目前,借款人违约行为频发的原因在于网络借贷信息的不对称和道德风险引发的借款人骗款行为。解决P2P网贷中借款人的违约风险问题、加强平台对借款人的风险评估对P2P行业健康稳定、可持续发展十分重要。因此,本文将实证分析借款人的信用违约行为,研究造成借款人信用违约的影响因素,为投资人、政府监管部门、网贷平台提供参考。

  本文将选用Logistic回归模型,定量研究P2P借款人信用违约风险的影响因素。

  1 数据预处理与备选指标选取

  1.1 数据来源

  本文通过八爪鱼软件从人人贷网站上抓取2017年3月至2017年7月的1189条“散标投资”及“债权转让”中真实借款标作为源数据。源数据包括876条正常数据和313条违约数据,相关研究经验表明,正常客户是违约客户的3~5倍时,评估模型更加有效。因此,按照通行的建立个人信用评估模型时的取样比例,再从876个正常数据中抽取履约客户414个、违约客户115个构成建模样本。初步收集到的客户信息有用户名、年龄、性别、受教育程度、婚姻状况、工作城市、公司行业、工作时间、岗位职位、平均月收入、房产、房贷、车产、车贷、借款用途、借款年利率、借款金额、还款期限、逾期次数、逾期金额、身份认证、学历认证、信用认证、收入认证和工作认证。

  1.2 数据预处理

  数据预处理包括数据清理和数据转换两个步骤。数据清理处理数据的不一致、不完整,删除对信用风险评估无意义的变量,提高运算效率。文中选取的“人人贷”散标投资数据对借款人信息审核比較严格,数据完整性较好,因此不需要填补某些空白值,只需删除用户名、注册时间等无关变量。

  数据转换是对于干净数据进行增强处理的过程,这种增强过程主要是对样本数据中的变量类型进行数据规范化、数据离散化、数据规约,以及创建新变量处理。

  1.3 解释变量分组

  经过数据清洗和数据转换,得到相对干净的建模样本,然后对年龄、性别等解释变量进行分组。分组时应在考虑经济含义的基础上,将定性指标定量化,便于后续的数据分析。具体指标分组见表1。

  分类表给出的是回归模型对履约(Y=0)和违约(Y=1)两类借款人的分类准确率,可以看出,回归方程对414个观测值为0(好客户)的正确预测407个,失败7个,预测准确率为98.3%;回归方程对115个观测值为1(好客户)的正确预测109个,失败6个,预测准确率为94.8%。综合以上分析,回归模型对建模数据的总回归判别准确率为97.5%。根据样本回归判别准确率,可以认为,所构建的借款人信用风险评估模型预测效果较好。

  3 结论与展望

  本文选取人人贷平台借款人信用风险相关信息为指标,利用Logistic回归模型,得到预测效果较好的信用风险评估模型,最后得到的回归模型中仅保留了性别、逾期次数、逾期金额、身份认证和学历认证5个指标。

  本文的研究结论具有较强的现实意义。在P2P网贷平台层面,必须健全借款人和投资人身份认证和信息审核机制;个人层面,在日常借贷行为中,一定要重视个人诚信和信誉,遵守网贷平台规范,在网贷平台中填写真实、有效的个人信息;政府层面,亟须建立健全个人征信系统和P2P网贷平台监管的法律法规,创造优良的投融资环境。

  本文还存在一定的不足。本文中样本数据仅局限于人人贷平台,未来可以选用拍拍贷等多个平台数据进一步研究算法的通用性。

  参考文献:

  [1] 网贷之家.2017P2P行业年报简报:问题平台持续降低[R].2018.

  [2] 陈霄,丁晓裕,王贝芬.民间借贷逾期行为研究——基于P2P网络借贷的实证分析[J].金融论坛,2013,18(11):65-72.

  [3] DINH T H T, KLEIMEIER S. A credit scoring model for Vietnam′s retail banking market[J]. International Review of Financial Analysis, 2007, 16(5):471-495.

  [4] BARASINSKA N. Does gender affect investors′ appetite for risk? Evidence from peer-to-peer lending[J]. Social Science Electronic Publishing, 2011:112-119.

  [5] WANG H, GREINER M, ARONSON J E. People-to-people lending: The emerging e-commerce transformation of a financial market[M]. Berlin: Springer, 2009:182-195.

  [6] BAKLOUTI S. Judging borrowers by the company they keep: Friendship networks and information asymmetry in online peer-to-peer lending[J]. Social Science Electronic Publishing, 2013, 59(1):17-35.

  [7] 李广明,诸唯君,周欢.P2P网络融资中贷款者欠款特征提取实证研究[J].商业时代,2011(1):41-42,58.

  [8] KUMAR S. Bank of One: Empirical Analysis of Peer-to-Peer Financial Marketplaces[C]// Reaching New Heights. Americas Conference on Information Systems, Amcis 2007, Keystone, Colorado, Usa, August. DBLP, 2007:305.

  推荐阅读:管理学家期刊评什么级别职称

期刊VIP网,您身边的高端学术顾问

文章名称: 基于Logistic回归模型的P2P借款人信用违约风险评估模型研究

文章地址: http://www.qikanvip.com/lunwen/zonghelunwen/2019/1209/49688.html