筛选:  论文数据分析模型 数据库系统数学模型论文 数据模型决策论文 论文数据分析怎么写 本科论文数据库 硕博士论文数据库 医学论文数据统计 博硕士论文文摘库 国外学位论文 博硕士论文全文数据库

【 论文】有关基于XGBoost的信用风险分析的研究(论文参考资料)

星级: ★★★★ 期刊: CN刊物作者:赵天傲 郑山红 李万龙 刘凯 浏览量:5598 论文级别:推荐本章主题:模型数据原创论文: 5156论文网更新时间:审核稿件编辑:Frank本文版权归属:www.5156chinese.cn 分享次数:1662 评论次数: 6209

导读:如何写好一篇模型数据方面的论文。希望本篇基于XGBoost的信用风险分析的研究的论文范文会对你的写作构思有所启发以助大学生们轻松完成写作任务。

摘要:在大数据时代如何利用数据挖掘处理海量数据从而对信用风险进行预测分析成为了当下非常重要的问题,本文运用XGBoost算法建立信用风险分析模型,运用栅格搜索等方法调优XGBoost参数,基于以AUC、准确率、ROC曲线等评价指标,与决策树、GBDT、支持向量机等模型进行对比分析,基于德国信用数据集验证了该模型的有效性及高效性.

关键词:信用风险分析;XGBoost;数据挖掘;栅格搜索

中图分类号:TP39文献标识码:A

1引言(Introduction)

银行信用风险的大小和质量决定着银行盈利水平的高低,对银行稳定、长远的发展有着至关重要的影响[1],银行使用数据挖掘方法建立目的明确、层次分明的信用风险分析模型有着重要价值.

早期的信用风险研究寻求数学解决方法,Z分数模型等都是比较具有代表性的方法[2,3].随着银行信贷的大规模增长及客户信用信息的迅速变化,形成了复杂的数据资源,信用风险的形式与日俱增.因此,HashemiandBlanc、GuilhermeBarretoFernandes、謝宇等分别采用神经网络和粗糙集成分集合[4]、logistic模型作为解释变量[5]、改进BP人工神经网络模型[6]对银行信用风险进行预测得到了较好改进.但以上的方法在预测精度和准确性上还有待提高.

本文引入XGBoost(eXtremeGradientBoosting)[7]算法建立信用风险分析优化模型,基于UCI上德国信用数据集与决策树、GBDT、支持向量机等模型进行对比分析,验证了XGBoost模型应用于信用风险分析具有更好的性能.

2XGBoost介绍(IntroductiontoXGBoost)

XGBoost由陈天奇博士提出的boosting型树类算法,能进行多线程并行计算,通过一次次迭代生成一代代新的树,实际上是把很多分类性能较低的弱学习器组合成一个准确率高的强学习器,每个决策树可能没有良好的分类效果,但是多个分类的结果肯定会得到更准确的预测.XGBoost加入正则项到目标函数寻求最优解,平衡目标函数的下降和模型的复杂度,避免出现过拟合现象,具有运行速度快、分类效果好、支持自定义损失函数等优点.我们希望建立K棵使树群的预测值尽量真实且泛化能力强的回归树.

基于XGBoost的信用风险分析的研究
模型数据论文纲要格式

XGBoost最根本就是由决策树集成而来,我们把树模型写成:

本篇有关基于XGBoost的信用风险分析的研究论文范文综合参考评定如下
有关论文范文主题研究:关于模型论文纲要格式大学生适用:课程毕业论文
相关参考文献下载数量:1131写作解决问题:怎样写论文纲要格式
毕业论文开题报告:写作论文目录职称论文适用:论文职称发表,中级职称
所属大学生专业类别:模型专业论文纲要格式论文题目推荐度:优质题目

式(1)中,,其中F对应所有回归树的集合,xi表示第i个特征向量,每个f是树空间F的一棵树,每一棵树fk对应一个独立的叶子权重w和树结构q.此时需要引入目标函数:

L部分为误差函数,表示模型拟合数据的程度,Ω表示正则项,是所有正则化项累加和,用来处理复杂模型,对复杂模型进行简单化处理.对于模型误差部分用additivetraining训练,通过对平方误差泰勒展开二次项,带入正则化项,得到最终目标函数为:

其中的和是XGBoost自定义的,显然、越大,表示希望获得更简单的树,这样处理能很清楚的理解这个目标,Obj分数越小表示生成的树的结构越好.至此树的类型已经能够确定,接下来需要进行树的分裂,采用贪心生长树的方法,遍历所有特征,从而找到最优的特征分裂,到达一定深度或不能再分裂时停止,基于目标函数值比较分裂前后的最小目标函数值,增益最大的点为最优点,对应特征为最优特征.

最新模型 论文写作技巧分享
播放次数:2904 评论人数:1131

3基于XGBoost的预测方法(Thepredictionmethod

basedonXGBoost)

3。1数据预处理

本文使用的数据来自UCI上公开的德国信用数据集,包括24个变量.获得该数据集后,首先标准化处理数据,清理数据集中的异常值,纠正错误数据,通过平滑噪声、数据规约等方式使得数据更加适用于本模型,同时添加ID属性,对每个属性添加属性名并做规范化.

3。2XGBoost的参数优化

本文对于XGBoost涉及优化的参数有:max_depth、min_child_weight、gamma、seed、objective.

max_depth表示树的最大深度,能够避免过拟合,限制树分裂的程度,值越大,模型越容易产生局部最优情况,典型值3-10;min_child_weight确定最小叶节点样本权重和,值较大能够避免局部特殊样本的学习,但是值过高会导致欠拟合.由于以上三种参数值都为整数值,且值的范围较小,所以运用栅格搜索法进行调整寻求最优参数值,栅格搜索法是一种穷举搜索方法,它指定参数值,排列每个参数的可能值,列出所有可能的组合,并生成“网格”,然后训练每个组合,进行交叉验证评估性能.

gamma指所需的最小损失函数下降值,满足该值节点才会分裂,值越大,算法越保守;seed是随机种子个数,用于调整参数、显示随机数据结果.因为两组参数的值为随机值或者连续值,所以随机选取几个合理的数值分别进行调整,选取最优的数值作为参数值.

objective定义需要最小化的损失函数,常用值有:二分类逻辑回归—binary:logistic;多分类器—multi:softmax.本文为二分类数据,根据经验值来确定参数.

3。3XGBoost模型描述

XGBoost最根本的就是希望建立K棵回归树,使得准确率高、泛化性好、预测误差尽量小,叶子节点尽量少的目标函数才能训练出更好的模型,利用贪心策略及二次最优化确定最优节点及最小的损失函数,以此为依据进行树分裂,得到小树苗,接下来按照上述方式继续分裂,并继续形成新树,根据之前的预测每次都会建立最优的树,当达到max_depth时停止迭代;此时我们得到了最基本的模型,之后使用栅格搜索等方法对几种参数进行优化,从而分析数据.优化后的XGBoost模型如下,模型图如图1所示:

(1)初始化回归树,损失函数集合,此时模型为常数值

(2)Whilekon1,2,3,。。。,Tdo

(3)do

(4)计算损失函数L的最小值m

(5)把m加到中

(6)Whileton1,2,3,。。。,T

(7)中选取m最小时t对应的开始建树

(8)采用贪心法寻找最优分裂节点迭代生成新的树

(9)Ifdeep>maxdeepbreak

(10)得到最终模型

(11)利用Rastersearch等方法调优参数

(12)优化模型分析数据

4实验分析(Experimentalanalysis)

本文所使用的德国信用数据集如表1所示.

使用python语言和Pycharm软件来实现模型,用到了pandas、itertools、numpy等包,分别使用决策树、GBDT、SVM及XGBoost进行分析比较,采用K折交叉验证的方式(5折、10折交叉验证)分別处理数据集,对比几种算法的精密度Precision(Precision=TP/(TP+FP))、召回率Recall(Recall=TP/(TP+FN))、准确度AUC值、F1值(F1Score=P*R/2(P+R)、Accuracy(Accuracy=(TP+TN)/(TP+FP+TN+FN))、真假阳性率FalsePositiveRate—TruePositiveRate折线图;P和R分别为Precisionl和Recal)等指标,其中TP为真阳性,FP为假阳性,TN为真阴性,FN为假阴性.

从表2和表3可以看出,XGBoost比决策树、GBDT、SVM在各项指标上的值均有不同程度的提高;同时,优化后的XGBoost在各项指标上都有所提升;优化后的XGBoost的平均Accuracy和AUC值比决策树、GBDT、支持向量机分别高出4。19%、3。3%、3。34%;优化后的XGBoost平均F1值比决策树、GBDT、支持向量机分别高出7。5%、3。5%、5%;相比较其他几种算法,准确性、召回率均有提高.

图2为XGBoost、决策树、GBDT、SVM的ROC曲线图(受试者工作特征曲线).曲线下方的面积即为AUC,当AUC越接近1时,分类器越完美;由图可知,XGBoost的ROC曲线最优,这说明XGBoost的分类效果最好.

5结论(Couclusion)

本文研究基于XGBoost算法对信用风险进行分析,以德国信用公开数据集作为数据源,采用K折交叉验证法,通过栅格搜索、经验值调参等方法对参数进行调整,基于AUC、准确率、ROC曲线等评价指标,与决策树、GBDT、支持向量机等模型进行对比分析.实验表明调优后的XGBoost算法应用于数据集上比调参前在各方面均有明显调整,同时XGBoost算法相对于常用的决策树、GBDT和支持向量机算法,无论是准确性还是分类效果等方向都有更加明显的优势,验证了XGBoost模型的有效性和精确度.

参考文献(References)

[1]Cheng-LungHuang,Mu-ChenChen,Chieh-JenWang。Creditscoringwithadataminingapproachbasedonsupportvectormachines[J]。ExpertSystemswithApplications,2007,33(4):847-856。

[2]EdwardIAltman,AnthonySaunders。Creditriskmeasurement:Developmentsoverthelast20years[J]。JournalofBankingandFinance,1997,21(11):1721-1742。

[3]MichelCrouhy,DanGalai,RobertMark。Acomparativeanalysisofcurrentcreditriskmodels[J]。JournalofBankingandFinance,2000,24(1):59-117。

[4]R。R。Hashemi,L。A。LeBlanc,C。T。Rucks,A。Rajaratnam。Ahybridintelligentsystemforpredictingbankholdingstructures[J]。EuropeanJournalofOperationalResearch,1998,109(2):390-402。

[5]GuilhermeBarretoFernandes,RinaldoArtes。Spatialdependenceincreditriskanditsimprovementincreditscoring[J]。EuropeanJournalofOperationalResearch,2016,249(2):517-524。

[6]谢宇。基于人工神经网络的商业银行信贷风险预警研究[D]。暨南大学,2010。

[7]ChenT,GuestrinC。XGBoost:AScalableTreeBoostingSystem[J]。KDD'16Proceedingsofthe22ndACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,2016:785-794。

[ 参考文献 ]

1、城镇化进程对城市环境的显著污染差异与U型排放趋势——基于STIRPAT模型面板数据的实证分析
文 张 涛 Zhang Tao 重庆工商大学长江上游经济研究中心 导读:城市是人类文明的集中体现,也是人类生产与生活的重要区域,城市环境问题是关系到人类发展的重要课题。选取2

2、构建国际贸易单一窗口的重要工具-WCO数据模型
(福建信息职业技术学院,福建 福州 350003)在介绍国际贸易单一窗口数据简化和标准化的四个步骤基础上,阐述世界海关组织数据模型的内容、特点和运用情况,并提出我国推广应用WCO数据模型的对策建

3、由GARCH模型深圳股市风险价值的应用——基于1997-2013样本数据实证分析
(南京大学商学院,南京 210093) 中国自改革开放经济快速成长,人们在追逐高额回报率的背后,高风险也伴随而来。近年来投资者对风险的意识逐渐抬头,如何采用适当模型与方法对风险进行预测,是当

硕博士论文数据库医学论文数据统计博硕士论文文摘库


本篇文章阅读概述:这篇模型数据论文归纳了怎么写毕业论文的开题报告范文和论文标准格式模版规范以及 模型论文轻松撰写技巧有助于学生们阅读参考提高写作水平。

本篇有关模型数据毕业论文范文免费供大学生阅读参考-点击更多235314篇模型数据相关论文开题报告格式范文模版供阅读下载
延伸阅读: 国外博士论文数据库免费学位论文数据库计量经济学论文模型外文学位论文数据库哪里找毕业论文国外学位论文数据库数据库论文摘要论文资料库硕士博士论文数据库数据统计论文
旅游发展论文 论文正文字号要求 得失论文 简评秦始皇论文 电力系统导论论文 爱你搜博硕论文库 磁铁矿化验论文 手机app软件论文 品德方面的论文 音乐系毕业论文题目