基于多数据集融合的个人信用评估分析

发布时间：2024-03-02 00:51

　　近年,个人征信体系不断完善,导致了在个人信用评估中,面临数据来源众多,数据结构复杂且量级大等问题。金融行业基于传统征信技术对个人信用评估难以克服当前面临的数据层面难题和评估模型层面技术的瓶颈。大数据的发展提高了风险控制在企业运作中的地位,在数据来源不同的情况下,个人信用的评估分析有助于银行降低不良贷款率等,成为银行精细化运营中风险评估的得力助手。本文针对现阶段个人信用评估中的多个训练集如何融合及传统评估技术是否适用这两个问题,通过分析传统信用评估模型的优缺点,提出了利用GBDT/XGBoost+LR模型、Stacking算法及TrAdaBoost算法进行信用评估,基于科赛网的前海征信企业赛题数据进行了实证分析,并将试验结果同传统的LR模型进行了对比。首先对数据存在的缺失值、异常值、和偏斜变量等问题进行预处理,采用SMOTE算法均衡数据集的正负样本,采用皮尔森相关系数和随机森林算法对数据进行降维,根据变量重要性排名筛选出了对中等额度信用贷款业务A、小额短期贷款业务B影响最大的前45个特征。利用Python3分别实现了LR模型、GBDT+LR模型、XGBoost+LR模型以及Stackin...

【文章页数】：56 页

【学位级别】：硕士

【部分图文】：

图1-1GBDT与LR融合结构

基于多数据集融合的个人信用评估分析17图1-1GBDT与LR融合结构同理，其它树模型如XGBoost和随机森林也可以和LR模型融合，由于XGBoost在其他分类任务的良好表现，本文选用了XGBoost进行特征构造并与GBDT进行对比，判定哪一种树模型与LR模型组合的效果更好。（二....

图2-2业务A数据集缺失值情况及排序通过对业务A数据集进行探索性分析发现部分特征存在异常值的情况，主要表

第二章信用评估数据的统计分析和特征提取22的缺失值估算方法，但最终还是使用固定值0或均值填充的方法效果最好29。为了防止数据变换出现无穷大的情况，本文将所有的缺失值采用固定值0替换。图2-2业务A数据集缺失值情况及排序通过对业务A数据集进行探索性分析发现部分特征存在异常值的情况，....

图2-3业务A数据集存在异常值变量另外，发现业务A数据集中的某些变量存在数据偏斜这一情况，通过对每个变

第二章信用评估数据的统计分析和特征提取22的缺失值估算方法，但最终还是使用固定值0或均值填充的方法效果最好29。为了防止数据变换出现无穷大的情况，本文将所有的缺失值采用固定值0替换。图2-2业务A数据集缺失值情况及排序通过对业务A数据集进行探索性分析发现部分特征存在异常值的情况，....

图2-4部分变量数据偏斜可视化

基于多数据集融合的个人信用评估分析23图2-4部分变量数据偏斜可视化对于存在数据偏斜的变量特征，严重的直接删除，偏斜较轻的采用log(x+1)进行数值转换达到缩小数值之间差距的目的，随机选取了部分偏斜变量处理后的效果见表2-2所示。经计算并对比原始数据及进行log(x+1)数值变....

本文编号：3916076

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/sizhenglunwen/3916076.html

上一篇：重大突发事件面前的媒体责任与担当——以徐报融报在抗击疫情战役中的实践为例
下一篇：探索与创新:社会诚信建设的中国特色