华策干货丨基于移动端用户行为的Smart评分建模全流程实践分享
传统的用户自填数据存在维度单一,数据造假及交叉验证难的问题。而在大数据下,Smart Decision华策对个人信用评估的数据维度会考虑如手机使用行为,理财行为,交易行为等移动端行为数据。
那么什么样的行为数据对于预测用户是否违约非常有帮助呢?此次的案例,小策将带领大家探讨基于移动端用户行为的信用评分模型建立的流程。
Smart Decision华策主要数据维度收集如下:
◆移动设备数据
◆地理位置
◆不同类别的APP统计
◆身份特征
◆手机归属人、网络标志核查
◆个人信息
◆工作信息
◆薪资评估
好坏客户定义:从最新资料的留存时点开始推算,并利用帐龄分析(vintage analysis) 观察目标客户的违约成熟期长度。设定观察点、观察期、表现点和表现期。
根据各期间申请客户信贷后逾期的情况,观察到那个逾期月份后该业务中大部分客户便不再还款,视该时期为违约。
如下例,90+ DPD (Day Past Due)后,逾期滚动到下一期比例维持稳定态势,可视逾期到90天为违约。违约的逾期天数是可以按照不同业务来设定的。
变量分析与整理:
变量衍生:原变量可能无法更好的解释与违约,但经过转换的变量则有机会与目标相关,如:
◆ 出生日期换成年龄
◆不同月份的其它信贷总额衍生成2、3、6和9个月的其它信贷总额变化(增加 / 减少)
◆信贷余额 / 信贷总额衍生成信贷余额比例
…
变量筛选:计算证据权重(WOE)、信息价值(IV)和母体稳定度指标(PSI)
变量相关性分析:利用变量聚类,如PCA和K-means等,或者是直接利用correlation 把相关性高的变量中只保留IV值高的一个,以减少模型中相似/相同的特征重复使权重过大。
交叉验证:把数据分成训练样本和测试样本,也抽取时间外样本作模型的交叉验证用。
模型算法:使用逻辑回归(Logistic Regression)算法配合前进法(Forward)、后退法(Backward)和逐步选取法(Stepwise)等等,计算出每个变量系数,利用ROC,K-S值和Gini 等指数检查模型效果,再以测试样本和时间外样本作交叉验证检查模型会否过度拟合。
把变量系数与WOE作评分模型风险校准,最后出来一张评分卡,按照评分卡上的分数给申请人打分,例子如下:
机器学习和深度学习:利用机器学习和深度学习的算法如 K-neighbours、Ada boost、Gradient boost、Random Forest、Neural network等算法,将结果放到一个分类器上如XG boost,作一个meta model,并把最终的meta model 得出的机率转换成风险评分。
通过基于移动端用户行为的信用评分模型全流程实践,小策发现对信用评分最具影响力的移动设备行为数据包括:
1信贷 / 理财 / 银行 / 财经相关的
◆APP数量
◆APP活跃度
◆APP开启天数
2. IP 稳定性match
3.使用的APP在不同主题上的分布
4. 使用的APP的DAU (Daily Active User)的分布。