1.點(dian)擊下面按鈕復制微信號(hao)
點擊復制微信號
上海威才企業管(guan)理咨詢(xun)有限(xian)公(gong)司
本課程為建(jian)模課程,面(mian)向(xiang)數(shu)據分(fen)(fen)析部等專門負責數(shu)據分(fen)(fen)析與建(jian)模的人(ren)員。
本課(ke)程具(ju)體內容包(bao)括:
1、 數據建模流程,特征工(gong)程處理(li)
2、 回歸預測模(mo)型,時序預測模(mo)型
3、 分類預測模型,模型含義解讀
4、 模(mo)型基本(ben)原理(li),模(mo)型算法(fa)實現(xian)
5、 模(mo)型質量評估,模(mo)型優化(hua)措施
本系列課(ke)程從(cong)實(shi)際的(de)(de)業務(wu)需求出發,結合(he)行業的(de)(de)典型(xing)(xing)應(ying)用(yong)特(te)點,圍繞實(shi)際的(de)(de)商業問題,對數據(ju)預測建模(mo)的(de)(de)過程進行了全(quan)面的(de)(de)介紹(從(cong)模(mo)型(xing)(xing)選擇(ze),到特(te)征選擇(ze),再到訓練模(mo)型(xing)(xing),評估模(mo)型(xing)(xing),以(yi)及優化模(mo)型(xing)(xing)和模(mo)型(xing)(xing)解讀),通過大量的(de)(de)操作演練,幫助學員(yuan)掌握數據(ju)建模(mo)的(de)(de)思路、方法(fa)、技巧,以(yi)提升學員(yuan)的(de)(de)數據(ju)建模(mo)的(de)(de)能力,支撐運營決(jue)策的(de)(de)目的(de)(de)。
通過本課程的(de)學習,達到如下目的(de):
1、 掌握數據建模的基本過(guo)程和步(bu)驟
2、 掌(zhang)握數據建模前(qian)的特征選擇的系統方法,學(xue)會尋找影響業(ye)務的關(guan)鍵要(yao)素
3、 掌握回歸預測模型基本原理,學會解讀回歸方程的含義
4、 掌握常(chang)用(yong)的時序預測模型(xing),以及各模型(xing)的適用(yong)場景
5、 掌(zhang)握常用(yong)的分類(lei)預測模型,以及(ji)分類(lei)模型的優化(hua)
【學員要(yao)求】
1、 每(mei)個學員自(zi)備一臺便攜機(必(bi)須)。
2、 便攜機(ji)中事先安(an)裝好Office Excel 2013版本(ben)及以上。
3、 便攜機中事(shi)先(xian)安(an)裝好IBM SPSS Statistics v24版本(ben)以上軟件。
注:講師可以(yi)提供(gong)試用版本(ben)軟件及分(fen)析數據(ju)源。
【授課方式】
理論精講 + 案例演練 + 實際業務問題分析 + SPSS實際操作
本課程突出(chu)數據(ju)挖(wa)掘(jue)的(de)實際應(ying)用(yong)(yong),結合行(xing)業的(de)典型應(ying)用(yong)(yong)特點,從實際問題(ti)入手,引(yin)出(chu)相(xiang)關知識,進行(xing)大數據(ju)的(de)收集與處理;探索數據(ju)之間(jian)的(de)規律及關聯性,幫(bang)助學員(yuan)掌(zhang)握系統的(de)數據(ju)預(yu)處理方(fang)法;介紹常用(yong)(yong)的(de)模(mo)型,訓練模(mo)型,并優化模(mo)型,以達(da)到最優分析結果。
1、 預測建模(mo)六(liu)步法(fa)
‐ 選擇模(mo)型:基于業務選擇恰當的數(shu)據模(mo)型
‐ 特(te)征工程:選擇(ze)對目標變量有顯著影(ying)響的屬性來建模
‐ 訓練(lian)模型:采用合適的算法對模型進行訓練(lian),尋(xun)找到最優(you)參數
‐ 評(ping)估(gu)模型(xing):進行評(ping)估(gu)模型(xing)的質量,判斷(duan)模型(xing)是否(fou)可用
‐ 優化模(mo)型:如果(guo)評估結果(guo)不理想,則需要對(dui)模(mo)型進行優化
‐ 應(ying)用模(mo)型:如果評估結果滿(man)足(zu)要求(qiu),則(ze)可(ke)應(ying)用模(mo)型于業務場景
2、 數據挖掘(jue)常用(yong)的模(mo)型
‐ 定量預測(ce)模型(xing):回(hui)歸(gui)預測(ce)、時序預測(ce)等
‐ 定性預測模(mo)型:邏(luo)輯回歸、決策樹(shu)、神經網(wang)絡、支持(chi)向(xiang)量(liang)機等
‐ 市場細分:聚類、RFM、PCA等
‐ 產品推薦:關聯分(fen)析(xi)、協同過濾等
‐ 產(chan)品(pin)優化(hua):回歸、隨機(ji)效用等
‐ 產品定價:定價策略/最優定價等
3、 特征工程/特征選擇/變量降維
‐ 基(ji)于變量本身特征
‐ 基(ji)于相(xiang)關性(xing)判斷(duan)
‐ 因子合并(PCA等)
‐ IV值篩選(評分(fen)卡使用)
‐ 基(ji)于(yu)信息(xi)增(zeng)益判斷(決策樹(shu)使(shi)用)
4、 模型評(ping)估
‐ 模型質量評估指標:R^2、正確率/查全率/查準率/特異性等
‐ 預測值評估指標:MAD、MSE/RMSE、MAPE、概率等
‐ 模型評估方法:留出法、K拆交叉驗證、自助法等
‐ 其它評(ping)估:過擬合評(ping)估、殘差檢驗
5、 模型優化
‐ 優化模型:選擇新模型/修改模型
‐ 優(you)化(hua)數據:新增顯著自變(bian)量
‐ 優(you)化公(gong)式(shi):采用新的計算公(gong)式(shi)
‐ 集成思想:Bagging/Boosting/Stacking
6、 常(chang)用預測模型介紹
‐ 時序預測模型
‐ 回歸(gui)預測模型
‐ 分類預測模型
問題:如何選擇合適的屬性/特征來建模呢?選擇的依據是什么?比如價格是否可用于產品銷量預測?
1、 數據預處理vs特征工程
2、 特征工程處理內容(rong)
‐ 變量變換(huan)
‐ 變量(liang)派生
‐ 變量精簡(jian)(特征選(xuan)擇、因子(zi)合并)
‐ 類型轉換
3、 特(te)征選(xuan)擇(ze)常(chang)用方(fang)法
‐ 相關分析(xi)、方差分析(xi)、卡方檢(jian)驗
4、 相關分析(衡(heng)量兩(liang)數(shu)據型變量的線性相關性)
‐ 相關分(fen)析(xi)簡介
‐ 相關(guan)分析(xi)的應用場景
‐ 相關(guan)分(fen)析的(de)種類
◢ 簡(jian)單相關(guan)分析
◢ 偏相關分析
◢ 距(ju)離(li)相關分析
‐ 相關(guan)系數的三種計算公(gong)式
◢ Pearson相關系數
◢ Spearman相關(guan)系數(shu)
◢ Kendall相(xiang)關系數(shu)
‐ 相關(guan)分析的假(jia)設檢驗
‐ 相關分析的四個基本步驟(zou)
演練:營銷費用會(hui)影響銷售額嗎(ma)?影響程度如何量化?
演練:哪些因素與汽車銷量有相關性
演練:影響用戶消費水平(ping)的因素(su)會(hui)有哪些
‐ 偏(pian)相關分析(xi)
◢ 偏相關(guan)原理:排除不(bu)可控因素后的兩變量的相關(guan)性
◢ 偏(pian)相關(guan)系數(shu)的計算公式
◢ 偏相關分析(xi)的適用(yong)場(chang)景
‐ 距離相關(guan)分析
5、 方差分(fen)析(衡量類別變(bian)量與(yu)數值變(bian)量間的相(xiang)關性)
‐ 方差分析的應用場景
‐ 方差(cha)分析的三(san)個種類
◢ 單因(yin)素方差分析
◢ 多因素方差分析
◢ 協方差分析
‐ 單因素方差分(fen)析的原理
‐ 方差分析(xi)的(de)四個(ge)步驟
‐ 解(jie)讀(du)方差分析結果的(de)兩個要點
演練(lian):擺放位(wei)置與銷(xiao)量有關嗎(ma)
演練:客(ke)戶學歷對消費水平的影響分析
演練:廣告和價(jia)格是影(ying)響終端銷量的(de)關鍵因素嗎
演(yan)練:營業員的性別、技能(neng)級別對產品銷量有影響(xiang)嗎
演練(lian):尋(xun)找影響產品銷量的關(guan)鍵因素
‐ 多因(yin)素方差分析原理
‐ 多因素(su)方差分析的作用
‐ 多(duo)因素方差(cha)結(jie)果(guo)的解(jie)讀
演(yan)練:廣告形式、地區對(dui)銷量的影(ying)響(xiang)因素分(fen)析
‐ 協方差分析原(yuan)理
‐ 協方(fang)差分析(xi)的適用場景
演練:排除(chu)產品價格,收入對銷(xiao)量(liang)有影響嗎?
6、 列聯分析/卡方檢驗(兩類別變量的相關性分析)
‐ 交叉表與(yu)列聯(lian)表:計數(shu)值與(yu)期(qi)望值
‐ 卡方(fang)檢驗的原理
‐ 卡方檢驗的幾(ji)個計(ji)算公式
‐ 列聯表分析(xi)的(de)適用場景
案例(li):套餐類型對客戶流(liu)失的影響分析
案(an)例:學歷對(dui)業務套餐(can)偏好的(de)影響分析
案例:行業/規模對風控的影響分析
營銷問題:如何預測未來的產品銷量/銷售額?如果產品跟隨季節性變動,該如何預測?
1、 回(hui)歸分析簡介和原理
2、 回歸分析的種類
‐ 一元回歸/多元回歸
‐ 線性回歸/非線性回歸
3、 常用(yong)回歸(gui)分析方法
‐ 散點圖+趨勢線(一元)
‐ 線性(xing)回歸工具(ju)(多元線性(xing))
‐ 規劃求解工具(非線(xian)性(xing)回歸)
演練:散點圖找營銷(xiao)費用與銷(xiao)售額的關系(xi)
4、 線性(xing)回歸分析(xi)的五個步驟
演練(lian):營銷費(fei)用(yong)、辦公(gong)費(fei)用(yong)與銷售額的(de)關系(線性(xing)回(hui)歸)
5、 線(xian)性(xing)回歸方程的解讀技(ji)巧(qiao)
‐ 定性描述:正相關/負相關
‐ 定量描(miao)述:自(zi)變(bian)量變(bian)化(hua)導致因變(bian)量的變(bian)化(hua)程度
6、 回歸預測模型評估
‐ 質量評估指標:判定系數R^2
‐ 如何選(xuan)擇最(zui)佳回歸模型
演練:如何(he)選擇最佳的回歸(gui)預測模型(一(yi)元曲線回歸(gui))
7、 帶分類自變量(liang)的回歸預測
演(yan)練(lian):汽車季(ji)度銷量預測
演練:工齡、性別與終端銷量的關系
演練(lian):如何評估(gu)銷售目標與(yu)資源最佳配置
8、 自(zi)動(dong)篩選不顯著因素(自(zi)變(bian)量)
1、 回歸分析的基本原理(li)
‐ 三(san)個基本(ben)概念:總變差、回(hui)歸變差、剩余(yu)變差
‐ 方程(cheng)的顯著(zhu)性(xing)檢驗:方程(cheng)可用性(xing)
‐ 因素的(de)顯著性檢驗:因素可用(yong)性
‐ 方程(cheng)(cheng)擬(ni)合優度檢驗:質(zhi)量好壞程(cheng)(cheng)度
‐ 理解標(biao)準誤差含義:預(yu)測準確性?
2、 回(hui)歸(gui)(gui)模型優化措施:尋找最佳回(hui)歸(gui)(gui)擬(ni)合線(xian)
‐ 如(ru)何(he)處理預測離群值(剔除離群值)
‐ 如何剔(ti)除不(bu)顯著因素(剔(ti)除不(bu)顯著因素)
‐ 如何進行非線性(xing)(xing)關系檢驗(增加(jia)非線性(xing)(xing)自變量(liang))
‐ 如(ru)何進(jin)行相(xiang)(xiang)互作(zuo)用檢驗(增加相(xiang)(xiang)互作(zuo)用自變量)
‐ 如何進行多重共線性檢驗(剔除(chu)共線性自變量(liang))
演練(lian):模(mo)型(xing)優化演示(shi)
3、 好模型(xing)都(dou)是優化出來的
1、 回歸建模的本質
2、 規劃求解(jie)工具簡介(jie)
3、 自定義回(hui)歸模型
案例:如何對客流量進行建模預測及(ji)模型優化
4、 回歸季節預測模(mo)型(xing)模(mo)型(xing)
‐ 回歸季(ji)節模型的原理及應用場(chang)景(jing)
‐ 加(jia)法季節模型
‐ 乘法(fa)季(ji)節模型
‐ 模(mo)型解讀
案(an)例:美國航空(kong)旅客里(li)程的季節性趨勢分析
5、 新產品累計銷量的S曲線
‐ S曲(qu)線(xian)模型的應用場景(最大累計(ji)銷(xiao)量及銷(xiao)量增(zeng)長的拐點)
‐ 珀爾曲線
‐ 龔鉑茲曲線
案例:如何預測產品的(de)銷售(shou)增長(chang)拐點,以(yi)及銷量(liang)上限(xian)
演練:預測IPad產品的銷量
1、定量預測模型的評估
‐ 方程顯著性評估
‐ 因素顯(xian)著(zhu)性評估
‐ 擬合優度的評估
‐ 估(gu)計標準(zhun)誤差評估(gu)
‐ 預測值準(zhun)確(que)度評(ping)估
2、模型擬(ni)合度(du)評估
‐ 判定系數:
‐ 調整(zheng)判定系(xi)數:
3、預(yu)測值準確度評估
‐ 平均絕對誤差:MAE
‐ 根均方差:RMSE
‐ 平均誤差率:MAPE
4、其它評估:殘(can)差檢(jian)驗、過擬合檢(jian)驗
營銷問題:像利率/CPI/GDP等按時序變化的指標如(ru)何預(yu)測(ce)?當銷量隨(sui)季節周期(qi)變動時該如(ru)何預(yu)測(ce)?
1、 回歸預測vs時序預測
2、 因素分解(jie)思想
3、 時序預測常用模(mo)型(xing)
‐ 趨勢擬(ni)合
‐ 季節擬合
‐ 平均序列擬合
4、 評估預測值的準確度指標:MAD、RMSE、MAPE
5、 移動平均(MA)
‐ 應(ying)用場景及原理
‐ 移動(dong)平均種類
◢ 一(yi)次(ci)移(yi)動(dong)平均
◢ 二次(ci)移(yi)動(dong)平均
◢ 加權移(yi)動平均
◢ 移動平均比率法
‐ 移(yi)動平均關鍵問題
◢ 如何選取最優參數N
◢ 如(ru)何(he)確定最優(you)權重系數
演練(lian):平板電腦銷量預測及評(ping)估(gu)
演練:快銷產品季(ji)節銷量預測及評(ping)估
6、 指數平滑(ES)
‐ 應用場(chang)景及原理
‐ 最優平(ping)滑(hua)系數的(de)選取(qu)原則
‐ 指數平滑(hua)種(zhong)類
◢ 一次指數平滑
◢ 二次指數平滑(Brown線性、Holt線性、Holt指數、阻尼線性、阻尼指數)
◢ 三(san)次指數平滑(hua)
演練:煤炭產量預測(ce)
演練(lian):航空旅客(ke)量(liang)預(yu)測及評(ping)估
7、 溫特斯季節(jie)預(yu)測模型
‐ 適用場景(jing)及原理
‐ Holt-Winters加法(fa)模(mo)型
‐ Holt-Winters乘法模型
演(yan)練(lian):汽車(che)銷量預測及(ji)評(ping)估
‐ 序(xu)列的(de)平穩性(xing)檢驗
‐ 平穩序列的擬(ni)合模型(xing)
◢ AR(p)自回歸模型
◢ MA(q)移動模型
◢ ARMA(p,q)自回歸移動模型
‐ 模型的(de)識別與定階(jie)
◢ ACF圖/PACF圖
◢ 最(zui)小(xiao)信息準則
‐ 序(xu)列平(ping)穩(wen)化處理
◢ 變量(liang)變換
◢ k次差分(fen)
◢ d階差(cha)分
‐ ARIMA(p,d,q)模型
演練:上海證券交易所綜合指數收(shou)益(yi)率序列(lie)分析
演練:服(fu)裝銷(xiao)售數據季節(jie)性趨勢預測分(fen)析
‐ 平穩序列的建模流程
問題:如何評估客戶購買產品的可能性?如何預測客戶的購買行為?如何提取某類客戶的典型特征?如何向客戶精準推薦產品或業務?
1、 分類模型概(gai)述(shu)及其應(ying)用場(chang)景
2、 常(chang)見(jian)分類(lei)預(yu)測模型
3、 邏輯回歸(LR)
‐ 邏輯回歸的適用場景
‐ 邏輯(ji)回歸的模(mo)型原(yuan)理
‐ 邏輯回歸分(fen)類的(de)幾何意義(yi)
‐ 邏輯回歸的種(zhong)類
2 二項邏輯回(hui)歸
2 多(duo)項(xiang)邏輯回歸
‐ 如何解讀邏(luo)輯回歸方(fang)程(cheng)
‐ 多項邏輯(ji)回歸/多分(fen)類邏輯(ji)回歸
案例:如何評估用戶是否會購買某產品(二項邏輯回歸)
案例:多(duo)品(pin)牌選擇模(mo)型分析(多(duo)項邏輯回歸)
4、 分類決策樹(DT)
問題:如何預測客戶行為?如何識(shi)別潛在客戶?
風控:如何識別欠貸(dai)者的特(te)征,以及預(yu)測欠貸(dai)概率(lv)?
客(ke)戶(hu)(hu)保有:如何識(shi)別流失客(ke)戶(hu)(hu)特征(zheng),以(yi)及預(yu)測(ce)客(ke)戶(hu)(hu)流失概率?
‐ 決(jue)策樹分類簡介
案例:美國零售商(Target)如何預測少女懷孕
演練:識別銀(yin)行欠(qian)貨風險,提取欠(qian)貸者的特征
‐ 決策樹分類的幾何意義(yi)
‐ 構建決策樹的三(san)個關鍵問(wen)題
◢ 如何(he)選(xuan)擇最佳屬性來(lai)構(gou)建節點
◢ 如何(he)分(fen)裂變量
◢ 修(xiu)剪決策樹(shu)
‐ 選擇最優屬(shu)性生(sheng)長
◢ 熵、基尼索(suo)引(yin)、分(fen)類錯(cuo)誤
◢ 屬性劃分增益
‐ 如何分裂(lie)變量
◢ 多元劃分(fen)與二元劃分(fen)
◢ 連(lian)續變(bian)量離散化(最優分(fen)割點)
‐ 修剪決策樹
◢ 剪枝原(yuan)則
◢ 預剪(jian)(jian)枝(zhi)與(yu)后剪(jian)(jian)枝(zhi)
‐ 構(gou)建決(jue)策樹(shu)的(de)四個算法
◢ C5.0、CHAID、CART、QUEST
◢ 各種算(suan)法的比較(jiao)
‐ 如何(he)選擇最優分(fen)類(lei)模型?
案例:商場用(yong)戶的(de)典(dian)型特征提(ti)取
案例:客(ke)戶(hu)流(liu)失預警與(yu)客(ke)戶(hu)挽留
案例:識別(bie)拖欠銀(yin)行貨款者的特征,避免(mian)不(bu)良貨款
案例:識別電(dian)信(xin)詐(zha)騙者嘴(zui)臉(lian),讓通信(xin)更安全(quan)
‐ 多分類(lei)決策(ce)樹
案例(li):不同套餐用戶的(de)典(dian)型特征
‐ 決(jue)策樹模型(xing)的(de)保存(cun)與應用
5、 人工神經網絡(ANN)
‐ 神經(jing)網(wang)絡概(gai)述
‐ 神經網絡基本(ben)原理
‐ 神經網絡的結(jie)構
‐ 神經網絡分類的幾何意義
‐ 神(shen)經網絡的建立步(bu)驟
‐ 神(shen)經網絡(luo)的關鍵(jian)問題
‐ BP反向傳播網絡(MLP)
‐ 徑向基網絡(RBF)
案例:評估(gu)銀行用戶拖(tuo)欠貨(huo)款的概率
6、 判別分析(DA)
‐ 判別分(fen)析原理
‐ 判(pan)別分析種類
‐ Fisher線性判別分析
案例:MBA學生錄取判別分析
案例:上市公司類(lei)別評(ping)估
7、 最近鄰分類(KNN)
‐ KNN模型的基本原理
‐ KNN分(fen)類的幾(ji)何意(yi)義(yi)
‐ K近鄰的關鍵問題(ti)
8、 支持向量機(SVM)
‐ SVM基本原理
‐ 線性可(ke)分問(wen)題:最大邊界超平面
‐ 線(xian)性不(bu)可(ke)分問題:特征空間(jian)的轉換
‐ 維(wei)災難與核函數
9、 貝葉斯分類(NBN)
‐ 貝葉斯分(fen)類原(yuan)理
‐ 計算類別(bie)屬性的(de)條(tiao)件概率
‐ 估計連(lian)續屬性的條(tiao)件概率(lv)
‐ 預測分(fen)類(lei)概(gai)率(計算概(gai)率)
‐ 拉(la)普拉(la)斯修正
案(an)例:評估(gu)銀行(xing)用(yong)戶拖欠貨款的概率
1、模型的評估(gu)指(zhi)標
‐ 兩大矩(ju)(ju)陣:混(hun)淆(xiao)矩(ju)(ju)陣,代價矩(ju)(ju)陣
‐ 六大指標:Acc,P,R,Spec,F1,lift
‐ 三條曲線:
◢ ROC曲線和AUC
◢ PR曲線和BEP
◢ KS曲線和KS值
2、模(mo)型的評估(gu)方法
‐ 原始評(ping)估法
‐ 留出法(Hold-Out)
‐ 交叉驗證法(k-fold cross validation)
‐ 自助采樣法(Bootstrapping)
1、模型的(de)優化思路
2、集成算法(fa)基本原理
‐ 單獨構(gou)建(jian)多個弱分類(lei)器(qi)
‐ 多(duo)個弱分類器組合投(tou)票,決定預測(ce)結果
3、集成方法的種類
‐ Bagging
‐ Boosting
‐ Stacking
4、Bagging集(ji)成
‐ 數據/屬性重抽樣
‐ 決策依據(ju):少數服從多數
‐ 典型模型:隨機森林RF
5、Boosting集成(cheng)
‐ 基于誤分數據建模
‐ 樣本選(xuan)擇權重更新公式
‐ 決策依據:加權投票
‐ 典型模型:AdaBoost模型
6、其它高級集成算法:GBDT,XGBoost等
結(jie)束:課程總結(jie)與問題答疑。
聯系電話:4006-900-901
微信咨詢:威才客服
企業郵箱:
深耕中國制造業
助力企業轉型
2021年度咨詢客戶數
資深實戰導師
客戶滿意度
續單和轉介紹