課程描述INTRODUCTION
· IT人士· 高層管理者· 中層領(lǐng)導(dǎo)· 其他人員
日程安排SCHEDULE
課程大綱Syllabus
數(shù)據(jù)分析工具課程
【課程目標(biāo)】
Python已經(jīng)成為數(shù)據(jù)分析和數(shù)據(jù)挖掘的*語言,作為除了Java、C/C++/C#外*的語言。
本課程基于Python工具來實(shí)現(xiàn)大數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘項(xiàng)目?;跇I(yè)務(wù)問題,在數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程指導(dǎo)下,采用Python分析工具,實(shí)現(xiàn)數(shù)據(jù)挖掘項(xiàng)目的每一步操作,從數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、數(shù)據(jù)可視化,到最終數(shù)據(jù)挖掘結(jié)束,幫助學(xué)員掌握Python用于數(shù)據(jù)挖掘,提升學(xué)員的數(shù)據(jù)化運(yùn)營及數(shù)據(jù)挖掘的能力。
通過本課程的學(xué)習(xí),達(dá)到如下目的:
全面掌握Python語言以及其編程思想。
掌握常用擴(kuò)展庫的使用,特別是數(shù)據(jù)挖掘相關(guān)庫的使用。
學(xué)會使用Python完成數(shù)據(jù)挖掘項(xiàng)目整個(gè)過程。
掌握利用Python實(shí)現(xiàn)可視化呈現(xiàn)。掌握數(shù)據(jù)挖掘常見算法在Python中的實(shí)現(xiàn)。
【授課對象】
業(yè)務(wù)支持部、IT系統(tǒng)部、大數(shù)據(jù)系統(tǒng)開發(fā)部、大數(shù)據(jù)分析中心、網(wǎng)絡(luò)運(yùn)維部等相關(guān)技術(shù)人員。
【學(xué)員要求】
課程為實(shí)戰(zhàn)課程,要求:
每個(gè)學(xué)員自備一臺便攜機(jī)(必須)。
便攜機(jī)中事先安裝好Python 3.6版本及以上。
安裝好Numpy,Pandas,sklearn等常用庫。
注:講師現(xiàn)場提供開源的安裝程序、擴(kuò)展庫,以及現(xiàn)場分析的數(shù)據(jù)源。
【課程大綱】
數(shù)據(jù)對象基本操作
目的:掌握數(shù)據(jù)集結(jié)構(gòu)及基本處理方法,進(jìn)一步鞏固Python語言
數(shù)據(jù)挖掘常用擴(kuò)展庫介紹
Numpy數(shù)組處理支持
Scipy矩陣計(jì)算模塊
Matplotlib數(shù)據(jù)可視化工具庫
Pandas數(shù)據(jù)分析和探索工具
StatsModels統(tǒng)計(jì)建模庫
Scikit-Learn機(jī)器學(xué)習(xí)庫
Keras深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))庫
Gensim文本挖掘庫
數(shù)據(jù)集構(gòu)建
Index, Series, Dataframe對象
手工構(gòu)建(創(chuàng)建索引、序列、數(shù)據(jù)集)
讀取文件(CSV文件、Excel文件)
讀取數(shù)據(jù)庫
數(shù)據(jù)集保存(CSV、Excel)
數(shù)據(jù)集基本操作
基本屬性訪問
shape,ndim,index,columns,values,empty,size
數(shù)據(jù)類型處理:查看、修改、轉(zhuǎn)換
排序
排序依據(jù):標(biāo)題、索引、字段
排序順序:升序、降序
自定義排序:按標(biāo)題、索引、字段、有序類別變量排序
基本訪問
行訪問、列訪問、值訪問
訪問方式:標(biāo)簽、位置
訪問類型:單行列、多行列、連續(xù)行列
布爾數(shù)組訪問
字段管理、新增、刪除、修改、替換、移位
數(shù)據(jù)篩選:條件篩選、多值篩選、篩選空值/非空值
演練:用Python實(shí)現(xiàn)數(shù)據(jù)的基本訪問
大數(shù)據(jù)預(yù)處理
目的:掌握數(shù)據(jù)預(yù)處理的基本環(huán)節(jié),以及Python的實(shí)現(xiàn)。
預(yù)處理任務(wù)
數(shù)據(jù)清洗
數(shù)據(jù)集成
數(shù)據(jù)處理
變量處理
數(shù)據(jù)清洗
重復(fù)值處理
重復(fù)字段、重復(fù)標(biāo)題、重復(fù)索引
處理方式:查找、刪除、修改
錯(cuò)誤值處理
查找錯(cuò)誤值
置空/刪除
重新編碼/替換
離群值處理:
檢測標(biāo)題:3σ準(zhǔn)則,IQR準(zhǔn)則,K均值
處理方式:查找、置空、截尾、縮尾
基于K均值的離群值檢測
缺失值處理:
查找、刪除
插補(bǔ)(固定值/均值/向下填充/向上填充/插入法/拉格朗日)
數(shù)據(jù)集成
數(shù)據(jù)追加
變量合并(連接類型)
數(shù)據(jù)處理
數(shù)據(jù)篩選
數(shù)據(jù)抽樣
簡單抽樣(有放回、無放回)
分層抽樣
離散化/分箱
等寬
等頻
自定義間隔
K均值
變量處理
處理方式:變量變換、變量派生
規(guī)范化:min-max /mean-std/exp-max
啞變量化
案例:用Python實(shí)現(xiàn)數(shù)據(jù)預(yù)處理
數(shù)據(jù)可視化處理
目的:掌握作圖擴(kuò)展庫,實(shí)現(xiàn)數(shù)據(jù)可視化
統(tǒng)計(jì)基礎(chǔ)
數(shù)值變量:描述統(tǒng)計(jì)
類別變量:分類計(jì)數(shù)
分類統(tǒng)計(jì):分類匯總
常用的Python作圖庫
Matplotlib庫
Pygal庫
各種圖形的畫法
柱狀圖
直方圖
餅圖
折線圖
散點(diǎn)圖
演練:用Python庫作圖來實(shí)現(xiàn)產(chǎn)品銷量分析,并可視化
影響因素分析/特征選擇
目的:掌握判斷事物間相關(guān)性的常用方法,熟悉建模前如何進(jìn)行屬性篩選/特征選擇,以實(shí)現(xiàn)降維的目的。
影響因素分析常用方法
相關(guān)分析
相關(guān)分析原理
相關(guān)系數(shù)公式種類
Pearson相關(guān)系數(shù)
Spearman等級相關(guān)系數(shù)
Kendall等級相關(guān)系數(shù)
方差分析
方差分析原理
方差分析種類
單因素方差分析
多因素方差分析
協(xié)方差分析
列聯(lián)分析/卡方檢驗(yàn)
列聯(lián)分析原理
計(jì)數(shù)與期望值
卡方檢驗(yàn)公式
主成分分析:降維
PCA方法原理
回歸預(yù)測模型實(shí)戰(zhàn)
常用數(shù)值預(yù)測的模型
通用預(yù)測模型:回歸模型
季節(jié)性預(yù)測模型:相加、相乘模型
新產(chǎn)品預(yù)測模型:珀?duì)柷€與龔鉑茲曲線
回歸分析概念
常見回歸分析類別
回歸分析常見算法
普通最小二乘法OLS
嶺回歸(RR)
套索回歸Lasso
ElasticNet回歸
回歸模型的評估
判定系數(shù)R^2
平均誤差率MAPE
分類預(yù)測模型實(shí)戰(zhàn)
常見分類預(yù)測的模型與算法
如何評估分類預(yù)測模型的質(zhì)量
正確率、查準(zhǔn)率、召回率、F1
ROC曲線
邏輯回歸分析模型
邏輯回歸的原理
邏輯回歸建模的步驟
案例:用sklearn庫實(shí)現(xiàn)銀行貸款違約預(yù)測
決策樹模型
決策樹分類的原理
決策樹的三個(gè)關(guān)鍵問題
決策樹算法與實(shí)現(xiàn)
案例:電力竊漏用戶自動識別
決策樹算法
最優(yōu)屬性選擇算法:ID3、ID4.0、ID5.0
連續(xù)變量分割算法
樹剪枝:預(yù)剪枝、后剪枝
人工神經(jīng)網(wǎng)絡(luò)模型(ANN)
神經(jīng)網(wǎng)絡(luò)概述
神經(jīng)元工作原理
常見神經(jīng)網(wǎng)絡(luò)算法(BP、LM、RBF、FNN等)
案例:神經(jīng)網(wǎng)絡(luò)預(yù)測產(chǎn)品銷量
支持向量機(jī)(SVM)
SVM基本原理
維災(zāi)難與核心函數(shù)
案例:基于水質(zhì)圖像的水質(zhì)評價(jià)
貝葉斯分析
條件概率
常見貝葉斯網(wǎng)絡(luò)
聚類分析(客戶細(xì)分)實(shí)戰(zhàn)
客戶細(xì)分常用方法
聚類分析(Clustering)
聚類方法原理介紹及適用場景
常用聚類分析算法
聚類算法的評價(jià)
案例:使用SKLearn實(shí)現(xiàn)K均值聚類
案例:使用TSNE實(shí)現(xiàn)聚類可視化
RFM模型分析
RFM模型,更深入了解你的客戶價(jià)值
RFM模型與市場策略
案例:航空公司客戶價(jià)值分析
關(guān)聯(lián)規(guī)則分析實(shí)戰(zhàn)
關(guān)聯(lián)規(guī)則概述
常用關(guān)聯(lián)規(guī)則算法
Apriori算法
發(fā)現(xiàn)頻繁集
生成關(guān)聯(lián)規(guī)則
FP-Growth算法
構(gòu)建FP樹
提取規(guī)則
時(shí)間序列分析
案例:使用apriori庫實(shí)現(xiàn)關(guān)聯(lián)分析
案例:中醫(yī)證型關(guān)聯(lián)規(guī)則挖掘
案例實(shí)戰(zhàn)
客戶流失預(yù)測和客戶挽留模型
銀行欠貸風(fēng)險(xiǎn)預(yù)測模型
結(jié)束:課程總結(jié)與問題答疑。
數(shù)據(jù)分析工具課程
轉(zhuǎn)載:http://szsxbj.com/gkk_detail/273041.html
已開課時(shí)間Have start time
- 尹傳亮
大數(shù)據(jù)營銷內(nèi)訓(xùn)
- 《零售行業(yè)社群團(tuán)購運(yùn)營》 陳蕊
- 大數(shù)據(jù)行業(yè)的現(xiàn)狀與熱點(diǎn) 徐全
- 數(shù)字化轉(zhuǎn)型與新質(zhì)生產(chǎn)力 盧森煌
- 管理者數(shù)據(jù)能力晉級 宋致旸
- 大數(shù)據(jù)時(shí)代下服務(wù)營銷新思維 秦超
- 《企業(yè)數(shù)據(jù)管理與數(shù)據(jù)資產(chǎn)化 張光利
- 商業(yè)銀行數(shù)據(jù)治理體系建設(shè)實(shí) 馬慶
- 數(shù)字媒體和數(shù)字教學(xué) 鐘理勇
- 數(shù)字金融與智能金融下的智慧 盧森煌
- 企業(yè)區(qū)塊鏈技術(shù)的應(yīng)用場景與 李璐
- 數(shù)字經(jīng)濟(jì)基礎(chǔ)和企業(yè)數(shù)字化轉(zhuǎn) 盧森煌
- 《小紅書運(yùn)營策劃與執(zhí)行》 黃光偉