Python數(shù)據(jù)建模及模型優(yōu)化實(shí)戰(zhàn)(金融版)
發(fā)布時(shí)間:2025-02-07 10:00:59
講師:傅一航 瀏覽次數(shù):28
課程描述INTRODUCTION
· 總經(jīng)理· 高層管理者· 中層領(lǐng)導(dǎo)



日程安排SCHEDULE
課程大綱Syllabus
Python數(shù)據(jù)建模課程
【課程目標(biāo)】
本課程專注于金融行業(yè)的數(shù)據(jù)建模,包括客戶行為預(yù)測模型,風(fēng)控識別與風(fēng)控預(yù)測模型,面向數(shù)據(jù)分析部等專門負(fù)責(zé)數(shù)據(jù)分析與建模的人士。
本課程的主要目的是,培養(yǎng)學(xué)員的大數(shù)據(jù)意識和大數(shù)據(jù)思維,掌握常用的數(shù)據(jù)分析方法和數(shù)據(jù)分析模型,并能夠用于對客戶行為作分析和預(yù)測,提升學(xué)員的數(shù)據(jù)分析綜合能力。
通過本課程的學(xué)習(xí),達(dá)到如下目的:
1、 掌握數(shù)據(jù)分析和數(shù)據(jù)建模的基本過程和步驟
2、 掌握數(shù)據(jù)分析框架的搭建,及常用分析方法
3、 掌握業(yè)務(wù)的影響因素分析常用的方法
4、 掌握常用客戶行為預(yù)測模型,包括邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)等等
5、 掌握模型優(yōu)化的思路及措施,包括特征優(yōu)化、超參優(yōu)化、集成優(yōu)化等
6、 掌握金融行業(yè)信用評分卡模型,構(gòu)建信用評分模型
本課程突出數(shù)據(jù)挖掘的實(shí)際應(yīng)用,結(jié)合行業(yè)的典型應(yīng)用特點(diǎn),從實(shí)際問題入手,引出相關(guān)知識,進(jìn)行大數(shù)據(jù)的收集與處理;探索數(shù)據(jù)之間的規(guī)律及關(guān)聯(lián)性,幫助學(xué)員掌握系統(tǒng)的數(shù)據(jù)預(yù)處理方法;介紹常用的模型,訓(xùn)練模型,并優(yōu)化模型,以達(dá)到最優(yōu)分析結(jié)果。
【授課對象】
風(fēng)險(xiǎn)控制部、金融科技部、IT系統(tǒng)部、數(shù)據(jù)分析部等對數(shù)據(jù)建模有較高要求的相關(guān)領(lǐng)域人員。
【課程大綱】
第一部分: 數(shù)據(jù)分析基礎(chǔ)—流程步驟篇
目的:掌握數(shù)據(jù)分析基本步驟和過程,學(xué)會如何構(gòu)造數(shù)據(jù)分析框架
1、 數(shù)據(jù)決策的三個(gè)關(guān)鍵環(huán)節(jié)
業(yè)務(wù)數(shù)據(jù)化:將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)問題
數(shù)據(jù)信息化:提取數(shù)據(jù)中的業(yè)務(wù)規(guī)律信息
信息策略化:基于規(guī)律形成業(yè)務(wù)應(yīng)對策略
2、 數(shù)據(jù)分析的六步曲
步驟1:明確目的--理清思路
步驟2:數(shù)據(jù)收集—理清思路
步驟3:數(shù)據(jù)預(yù)處理—尋找答案
步驟4:數(shù)據(jù)分析--尋找答案
步驟5:數(shù)據(jù)展示--觀點(diǎn)表達(dá)
步驟6:報(bào)表撰寫--觀點(diǎn)表達(dá)
第二部分: 數(shù)據(jù)分析框架—業(yè)務(wù)模型篇
1、 數(shù)據(jù)分析思路來源于業(yè)務(wù)模型
2、 分析框架來源于業(yè)務(wù)模型
商業(yè)目標(biāo)(粗粒度)
分析維度/關(guān)鍵步驟
業(yè)務(wù)問題(細(xì)粒度)
涉及數(shù)據(jù)/關(guān)鍵指標(biāo)
3、 常用的業(yè)務(wù)模型:PEST/5W2H/SWOT/PDCA/AARRR…
案例:搭建精準(zhǔn)營銷的分析框架(6R)
如何尋找目標(biāo)客戶群
如何匹配合適的產(chǎn)品
如何確定推薦的*時(shí)機(jī)
如何判斷合理的價(jià)格
案例:搭建用戶購買行為分析框架(5W2H)
第三部分: 探索性分析法—統(tǒng)計(jì)分析篇
問題:數(shù)據(jù)分析方法的種類?分析方法的不同應(yīng)用場景?
1、 業(yè)務(wù)分析的三個(gè)階段
現(xiàn)狀分析:通過企業(yè)運(yùn)營指標(biāo)來發(fā)現(xiàn)規(guī)律及短板
原因分析:查找數(shù)據(jù)相關(guān)性,探尋目標(biāo)影響因素
預(yù)測分析:合理配置資源,預(yù)判業(yè)務(wù)未來的趨勢
2、 常用的數(shù)據(jù)分析方法五大種類
3、 統(tǒng)計(jì)分析基礎(chǔ)(類別à指標(biāo))
4、 描述性分析法(現(xiàn)狀分析)
對比分析(查看數(shù)據(jù)差距,發(fā)現(xiàn)事物變化)
演練:分析理財(cái)產(chǎn)品受歡迎情況及貢獻(xiàn)大小
演練:用戶消費(fèi)水平差異分析,提取優(yōu)質(zhì)客戶特征
分布分析(查看數(shù)據(jù)分布,探索業(yè)務(wù)層次)
案例:銀行用戶的消費(fèi)層次/消費(fèi)檔次分析
演練:客戶年齡分布/收入分布分析
結(jié)構(gòu)分析(查看指標(biāo)構(gòu)成,評估結(jié)構(gòu)合理性)
案例:收入結(jié)構(gòu)分析/成本結(jié)構(gòu)分析
案例:動態(tài)結(jié)構(gòu)分析
趨勢分析(查看變化趨勢,了解季節(jié)周期性)
案例:營業(yè)廳客流量規(guī)律與排班
案例:用戶活躍時(shí)間規(guī)律/產(chǎn)品銷量的淡旺季分析
演練:產(chǎn)品訂單的季節(jié)周期性規(guī)律
5、 相關(guān)性分析(原因分析)
相關(guān)分析(衡量兩變量間的相關(guān)程度,三種相關(guān)系數(shù))
方差分析(判斷影響目標(biāo)變量的關(guān)鍵要素,適用場景)
卡方檢驗(yàn)(從多個(gè)維度的數(shù)據(jù)指標(biāo)分析)
演練:不同客戶的產(chǎn)品偏好分析
演練:銀行用戶違約的影響因素分析
第四部分: 用戶風(fēng)險(xiǎn)識別—異常數(shù)據(jù)篇
1、 反欺詐識別的重點(diǎn)內(nèi)容
如何識別異常數(shù)據(jù)
如何查找影響因素
如何提取欺詐用戶的特征
如何預(yù)測用戶的欺詐行為
2、 異常數(shù)據(jù)的定義
3、 異常數(shù)據(jù)的檢測方法
基于統(tǒng)計(jì)法:標(biāo)準(zhǔn)差法、四分位距法、離群點(diǎn)檢測算法
基于機(jī)器學(xué)習(xí):回歸、聚類等
4、 異常數(shù)據(jù)處理方法
演練:各種異常數(shù)據(jù)識別
第五部分: 影響因素分析—根因分析篇
問題:如何做原因分析?比如價(jià)格是否可用于產(chǎn)品銷量?影響用戶違約的關(guān)鍵因素是什么?
1、 數(shù)據(jù)預(yù)處理vs特征工程
2、 常用特征選擇方法
相關(guān)分析、方差分析、卡方檢驗(yàn)
3、 相關(guān)分析(衡量兩數(shù)據(jù)型變量的線性相關(guān)性)
相關(guān)分析簡介
相關(guān)分析的應(yīng)用場景
相關(guān)分析的種類
簡單相關(guān)分析
偏相關(guān)分析
距離相關(guān)分析
相關(guān)系數(shù)的三種計(jì)算公式
Pearson相關(guān)系數(shù)
Spearman相關(guān)系數(shù)
Kendall相關(guān)系數(shù)
相關(guān)分析的假設(shè)檢驗(yàn)
相關(guān)分析的四個(gè)基本步驟
演練:營銷費(fèi)用會影響銷售額嗎?影響程度如何量化?
演練:哪些因素與產(chǎn)品銷量有顯著的相關(guān)性
演練:影響用戶消費(fèi)水平的因素會有哪些
偏相關(guān)分析
偏相關(guān)原理:排除不可控因素后的兩變量的相關(guān)性
偏相關(guān)系數(shù)的計(jì)算公式
偏相關(guān)分析的適用場景
4、 方差分析(衡量類別變量與數(shù)值變量間的相關(guān)性)
方差分析的應(yīng)用場景
方差分析的三個(gè)種類
單因素方差分析
多因素方差分析
協(xié)方差分析
單因素方差分析的原理
方差分析的四個(gè)步驟
解讀方差分析結(jié)果的兩個(gè)要點(diǎn)
案例:擺放位置與銷量有關(guān)嗎
演練:客戶學(xué)歷對消費(fèi)水平的影響分析
多因素方差分析原理
多因素方差分析的作用
多因素方差結(jié)果的解讀
案例:廣告形式、地區(qū)對銷售額的影響因素分析
演練:銷售員的性別、技能級別對銷量有影響嗎
協(xié)方差分析原理
協(xié)方差分析的適用場景
演練:排除用戶收入,其余哪些因素對銷量有顯著影響?
5、 列聯(lián)分析/卡方檢驗(yàn)(兩類別變量的相關(guān)性分析)
交叉表與列聯(lián)表:計(jì)數(shù)值與期望值
卡方檢驗(yàn)的原理
卡方檢驗(yàn)的幾個(gè)計(jì)算公式
列聯(lián)表分析的適用場景
案例:產(chǎn)品類型對客戶流失的影響分析
案例:用戶學(xué)歷對產(chǎn)品類型偏好的影響分析
研討:行業(yè)/規(guī)模對風(fēng)控的影響分析
第六部分: 數(shù)據(jù)建模過程—建模步驟篇
1、 預(yù)測建模六步法
選擇模型:基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型
特征工程:選擇對目標(biāo)變量有顯著影響的屬性來建模
訓(xùn)練模型:采用合適的算法對模型進(jìn)行訓(xùn)練,尋找到最優(yōu)參數(shù)
評估模型:進(jìn)行評估模型的質(zhì)量,判斷模型是否可用
優(yōu)化模型:如果評估結(jié)果不理想,則需要對模型進(jìn)行優(yōu)化
應(yīng)用模型:如果評估結(jié)果滿足要求,則可應(yīng)用模型于業(yè)務(wù)場景
2、 數(shù)據(jù)挖掘常用的模型
定量預(yù)測模型:回歸預(yù)測、時(shí)序預(yù)測等
定性預(yù)測模型:邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等
市場細(xì)分:聚類、RFM、PCA等
產(chǎn)品推薦:關(guān)聯(lián)分析、協(xié)同過濾等
產(chǎn)品優(yōu)化:回歸、隨機(jī)效用等
產(chǎn)品定價(jià):定價(jià)策略/最優(yōu)定價(jià)等
3、 特征工程/特征選擇/變量降維
基于變量本身特征
基于相關(guān)性判斷
因子合并(PCA等)
IV值篩選(評分卡使用)
基于信息增益判斷(決策樹使用)
4、 模型評估
模型質(zhì)量評估指標(biāo):R^2、正確率/查全率/查準(zhǔn)率/特異性等
預(yù)測值評估指標(biāo):MAD、MSE/RMSE、MAPE、概率等
模型評估方法:留出法、K拆交叉驗(yàn)證、自助法等
其它評估:過擬合評估、殘差檢驗(yàn)
5、 模型優(yōu)化
優(yōu)化模型:選擇新模型/修改模型
優(yōu)化數(shù)據(jù):新增顯著自變量
優(yōu)化公式:采用新的計(jì)算公式
集成思想:Bagging/Boosting/Stacking
6、 常用預(yù)測模型介紹:回歸、時(shí)序、分類
第七部分: 客戶行為預(yù)測—分類模型篇
問題:如何評估客戶購買產(chǎn)品的可能性?如何預(yù)測客戶的購買行為?如何提取某類客戶的典型特征?如何向客戶精準(zhǔn)推薦產(chǎn)品或業(yè)務(wù)?
1、 分類模型概述及其應(yīng)用場景
2、 常見分類預(yù)測模型
3、 邏輯回歸(LR)
邏輯回歸的適用場景
邏輯回歸的模型原理
邏輯回歸分類的幾何意義
邏輯回歸的種類:二項(xiàng)、多項(xiàng)
如何解讀邏輯回歸方程
邏輯回歸算法的實(shí)現(xiàn)及優(yōu)化
迭代樣本的隨機(jī)選擇
變化的學(xué)習(xí)率
邏輯回歸+正則項(xiàng)
求解算法與懲罰項(xiàng)的互斥有關(guān)系
帶分類自變量的邏輯回歸分析
多項(xiàng)邏輯回歸/多分類邏輯回歸
ovo, ovr
案例:用sklearn庫實(shí)現(xiàn)銀行貸款違約預(yù)測
案例:訂閱者用戶的典型特征(二元邏輯回歸)
案例:通信套餐的用戶畫像(多元邏輯回歸)
4、 分類決策樹(DT)
問題:如何預(yù)測客戶行為?如何識別潛在客戶?
風(fēng)控:如何識別欠貸者的特征,以及預(yù)測欠貸概率?
客戶保有:如何識別流失客戶特征,以及預(yù)測客戶流失概率?
決策樹分類簡介
演練:識別銀行欠貨風(fēng)險(xiǎn),提取欠貸者的特征
決策樹分類的幾何意義
決策樹算法(三個(gè)關(guān)鍵問題)
如何選擇*屬性來構(gòu)建節(jié)點(diǎn):熵/基尼系數(shù)、信息增益
如何分裂變量:多元/二元劃分、最優(yōu)切割點(diǎn)
修剪決策樹:剪枝原則、預(yù)剪枝與后剪枝
決策樹的解讀
決策樹的超參優(yōu)化
案例:商場用戶的典型特征提取
案例:客戶流失預(yù)警與客戶挽留
案例:識別拖欠銀行貨款者的特征,避免不良貨款
多分類決策樹
案例:識別不同理財(cái)客戶的典型特征,實(shí)現(xiàn)精準(zhǔn)推薦
5、 人工神經(jīng)網(wǎng)絡(luò)(ANN)
神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
神經(jīng)網(wǎng)絡(luò)基本原理
加法器,激活函數(shù)
神經(jīng)網(wǎng)絡(luò)分類的幾何意義
神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
隱藏層數(shù)量
神經(jīng)元個(gè)數(shù)
神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)算法
案例:評估銀行用戶拖欠貨款的概率
6、 支持向量機(jī)(SVM)
SVM基本原理
線性可分問題:*邊界超平面
線性不可分問題:特征空間的轉(zhuǎn)換
維災(zāi)難與核函數(shù)
第八部分: 客戶行為預(yù)測—模型評估篇
1、 三個(gè)方面評估:指標(biāo)、方法、過擬合
2、 兩大矩陣
混淆矩陣
代價(jià)矩陣
3、 六大指標(biāo)
正確率Accuracy
查準(zhǔn)率Precision
查全率Recall
特異度Specify
F度量值(/)
提升指標(biāo)lift
4、 三條曲線
ROC曲線和AUC
PR曲線和BEP
KS曲線和KS值
5、 多分類模型評估指標(biāo)
宏指標(biāo):macro_P, macro_R
宏指標(biāo):micro_P, micro_R
6、 模型評估方法
原始評估法
留出法(Hold-Out)
交叉驗(yàn)證法(k-fold cross validation)
自助采樣法(Bootstrapping)
7、 其它評估
過擬合評估:學(xué)習(xí)曲線
模型差異性評估
殘差評估:白噪聲評估
第九部分: 預(yù)測模型優(yōu)化—超參優(yōu)化篇
1、 模型優(yōu)化的三大方向
超參優(yōu)化
特征工程
集成優(yōu)化
2、 超參優(yōu)化的方法比較
交叉驗(yàn)證類(RidgeCV/LassoCV/LogisticRegressionCV/…)
網(wǎng)格搜索GridSearchCV
隨機(jī)搜索RandomizedSearchCV
貝葉斯搜索BayesSearchCV
3、 超參調(diào)優(yōu)策略
第十部分: 預(yù)測模型優(yōu)化—特征工程篇
1、 數(shù)據(jù)清洗技巧
異常數(shù)據(jù)的處理方式
缺失值的填充方式
不同填充方式對模型效果的影響
2、 降維的兩大方式:特征選擇和因子合并
3、 特征選擇的模式
基于變量本身的重要性篩選
Filter式(特征選擇與模型分離)
Wrapper式(利用模型結(jié)果進(jìn)行特征選擇)
embedded式(模型自帶特征重要性評估)
確定特征選擇的變量個(gè)數(shù)
案例:客戶流失預(yù)測的特征選擇
4、 因子合并(將多數(shù)變量合并成少數(shù)幾個(gè)因子)
因子分析(FactorAnalysis):原理、適用場景、載荷矩陣
主成份分析PCA:原理、幾何含義、擴(kuò)展KernelCA/ICA/…
案例:汽車油效預(yù)測
5、 變量變換
為何需要變量變換
因變量變換對模型質(zhì)量的影響
特征標(biāo)準(zhǔn)化:作用、不同模型對標(biāo)準(zhǔn)化的要求、不同標(biāo)準(zhǔn)化對模型的影響
其它變換:正態(tài)化、正則化等
6、 變量派生:基于業(yè)務(wù)經(jīng)驗(yàn)的派生、多項(xiàng)式派生
7、 特征工程的管道實(shí)現(xiàn)
管道類Pipeline
列轉(zhuǎn)換類ColumnTransformer
特征合并類FeatureUnion
第十一部分: 預(yù)測模型優(yōu)化—集成優(yōu)化篇
1、 模型的優(yōu)化思路
2、 集成算法基本原理
單獨(dú)構(gòu)建多個(gè)弱分類器
多個(gè)弱分類器組合投票,決定預(yù)測結(jié)果
3、 集成方法的種類:Bagging、Boosting、Stacking
4、 Bagging集成:隨機(jī)森林RF
數(shù)據(jù)/屬性重抽樣
決策依據(jù):少數(shù)服從多數(shù)
5、 Boosting集成:AdaBoost模型
基于誤分?jǐn)?shù)據(jù)建模
樣本選擇權(quán)重更新公式
決策依據(jù):加權(quán)投票
6、 高級模型介紹與實(shí)現(xiàn)
GBDT梯度提升決策樹
XGBoost
LightGBM
第十二部分: XGBoost模型詳解及優(yōu)化
1、 基本參數(shù)配置
框架基本參數(shù): n_estimators, objective
性能相關(guān)參數(shù): learning_rate
模型復(fù)雜度參數(shù):max_depth,min_child_weight,gamma
生長策略參數(shù): grow_policy, tree_method, max_bin
隨機(jī)性參數(shù):subsample,colsample_bytree
正則項(xiàng)參數(shù):reg_alpha,reg_lambda
樣本不均衡參數(shù): scale_pos_weight
2、 早期停止與基類個(gè)數(shù)優(yōu)化(n_estimators、early_stopping_rounds)
3、 樣本不平衡處理
欠抽樣與過抽樣
scale_pos_weight= neg_num/pos_num
4、 XGBoost模型欠擬合優(yōu)化措施
增維,派生新特征
非線性檢驗(yàn)
相互作用檢驗(yàn)
降噪,剔除噪聲數(shù)據(jù)
剔除不顯著影響因素
剔除預(yù)測離群值(僅回歸)
多重共線性檢驗(yàn)(僅回歸)
變量變換
自變量標(biāo)準(zhǔn)化
殘差項(xiàng)檢驗(yàn)與因變量變換
增加樹的深度與復(fù)雜度
增大max_depth
減小min_child_weight, gamma等
禁止正則項(xiàng)生效
5、 特征重要性評估與自動特征選擇
6、 超參優(yōu)化策略:
分組調(diào)參:參數(shù)分組分別調(diào)優(yōu)
分層調(diào)參:先粗調(diào)再細(xì)調(diào)
7、 XGBoost模型過擬合優(yōu)化措施
降維,減少特征數(shù)量
限制樹的深度和復(fù)雜度
減小max_depth
增大min_child_weight,gamma等
采用dart模型來控制過擬合(引入dropout技術(shù))
啟用正則項(xiàng)懲罰:reg_alpha,reg_lambda等
啟用隨機(jī)采樣:subsample,colsample_bytree等
8、 Stacking模式:XGBoost+LR、XGBoost+RF等
9、 XGBoost的優(yōu)化模型:LightGBM
第十三部分: 銀行客戶信用卡模型
1、 信用評分卡模型簡介
2、 評分卡的關(guān)鍵問題
3、 信用評分卡建立過程
篩選重要屬性
數(shù)據(jù)集轉(zhuǎn)化
建立分類模型
計(jì)算屬性分值
確定審批閾值
4、 篩選重要屬性
屬性分段
基本概念:WOE、IV
屬性重要性評估
5、 數(shù)據(jù)集轉(zhuǎn)化
連續(xù)屬性最優(yōu)分段
計(jì)算屬性取值的WOE
6、 建立分類模型
訓(xùn)練邏輯回歸模型
評估模型
得到字段系數(shù)
7、 計(jì)算屬性分值
計(jì)算補(bǔ)償與刻度值
計(jì)算各字段得分
生成評分卡
8、 確定審批閾值
畫K-S曲線
計(jì)算K-S值
獲取最優(yōu)閾值
案例:構(gòu)建銀行小額貸款的用戶信用模型
第十四部分: 數(shù)據(jù)建模實(shí)戰(zhàn)篇
1、 電信業(yè)客戶流失預(yù)警和客戶挽留模型實(shí)戰(zhàn)
2、 銀行欠貸風(fēng)險(xiǎn)預(yù)測模型實(shí)戰(zhàn)
3、 銀行信用卡評分模型實(shí)戰(zhàn)
結(jié)束:課程總結(jié)與問題答疑。
Python數(shù)據(jù)建模課程
轉(zhuǎn)載:http://szsxbj.com/gkk_detail/317090.html
已開課時(shí)間Have start time
- 傅一航
[僅限會員]