原創(chuàng)|大數(shù)據(jù)新聞|編輯:鄭恭琳|2020-12-03 13:24:17.083|閱讀 385 次
概述:數(shù)據(jù)集為uci下載的,某家銀行電話營銷與是否購買定期存儲(chǔ)的數(shù)據(jù)。 模擬目標(biāo)為知道客戶數(shù)據(jù),預(yù)測購買理財(cái)產(chǎn)品概率。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
數(shù)據(jù)集是從uci下載的,某家銀行電話營銷與是否購買定期存儲(chǔ)的數(shù)據(jù)。
模擬目標(biāo)是知道客戶數(shù)據(jù),預(yù)測購買理財(cái)產(chǎn)品概率
我認(rèn)為將電話營銷的數(shù)據(jù)消除只保留基本屬性可以模擬實(shí)際銀行能夠獲取的數(shù)據(jù)。
電話營銷數(shù)據(jù)代表一些對(duì)用戶決定由影響但是獲取難度較大的數(shù)據(jù)。比如說,買房、買車、小孩上學(xué),這些數(shù)據(jù)銀行不能立刻獲得,或者獲取成本較高。這里不使用這些數(shù)據(jù)參與預(yù)測。雖然預(yù)測準(zhǔn)確度會(huì)降低,但是更符合實(shí)際情況。
然后定期存儲(chǔ)是一種產(chǎn)品,可以當(dāng)做一種理財(cái),如果能對(duì)一種進(jìn)行預(yù)測行進(jìn)實(shí)現(xiàn)和驗(yàn)證,那么可以擴(kuò)展到多種產(chǎn)品的預(yù)測
數(shù)據(jù)情況,見下表
Age |
年齡 |
Job |
工作 |
Marital |
婚姻情況 |
Education |
教育情況 |
Default |
違約情況 no無違約 yes 有違約 |
Balance |
賬戶余額 |
House |
是否買房子 no 無房產(chǎn) yes 有房子 |
Loan |
貸款 no 無貸款 yes 有貸款 |
數(shù)據(jù)清洗常規(guī)套路(空值檢查,去重,去異常值)
由于數(shù)據(jù)集較好,基本不需要處理,但實(shí)現(xiàn)數(shù)據(jù)很有可能需要清洗,比如說,年齡缺失不能簡單補(bǔ)0。
balance處理的嘗試
對(duì)數(shù)據(jù)one-hot encoding,對(duì)yes,no等2分類用0,1替換
處理之后數(shù)據(jù)為
使用lightgbm建模,參數(shù)如下
對(duì)測試集預(yù)測的結(jié)果左邊為客戶序號(hào),predict為預(yù)測購買的可能性(推薦度),real為真是購買情況(0為未購買,1為已購買)
評(píng)價(jià)模型的好壞,對(duì)于少部分人購買(大部分預(yù)測都低于百分之50),很難用accurate去評(píng)價(jià)
舉個(gè)例子,
真實(shí)情況是A類人購買率0.1,B類人購買率0.2,C類人購買率0.2。
即真實(shí)100個(gè)A, 100個(gè) B, 100個(gè) C 分別購買為10,20,20
2個(gè)模型經(jīng)過訓(xùn)練對(duì)A,B,C,3類人的購買可能性預(yù)測為0.3 ,0.2, 0.1;0.15, 0.2, 0.2模型認(rèn)為A,B,C三類人都不會(huì)購買。
accurate為預(yù)測正確人數(shù)/總?cè)藬?shù)
accurate(模型1)=accurate(模型2)=250(250沒買東西,模型預(yù)測所有人都不會(huì)購買)/300=83%
如果用accurate去評(píng)價(jià),模型1的性能是等于模型2的。
但是顯然模型2更符合真實(shí)情況,所以這里不再使用accurate來作為標(biāo)準(zhǔn)。
這里使用的方法是,對(duì)預(yù)測值進(jìn)行排序,如果預(yù)測準(zhǔn)確,那么可能性高的人一定會(huì)多買產(chǎn)品。通過下圖來衡量模型的好壞,紅色為隨機(jī)推薦,綠色為安概率排序后推薦。
如果綠線開始上升越快,說明模型效果越好。
這圖除了來衡量模型好壞,也是一個(gè)有用的結(jié)論:
對(duì)一個(gè)人群范圍,可以先通過模型排序,然后選取一定范圍進(jìn)行營銷活動(dòng),提高轉(zhuǎn)換率。
這里用1000的人來做標(biāo)準(zhǔn),之后的模型也使用這個(gè)數(shù)據(jù)來做判斷標(biāo)準(zhǔn)。排序前推薦1000人,購買率為104/1000=10.4%,排序后推薦1000人,購買率為270/1000=27%,差距最大點(diǎn)為1362。在推薦1362人是使用排序算法都購買人數(shù)和隨意推薦差距最大。
特征值的重要程度如下圖,可以看出賬戶余額和年齡是最重要的2個(gè)特征值
通過dnn和xgboost建模(具體見py代碼)
1000人時(shí),實(shí)際購買人數(shù)如下圖
3種取現(xiàn)
結(jié)論分析在目前的參數(shù)設(shè)置來說 效果為xgboost>lightgbm>dnn
對(duì)比試驗(yàn),之前的數(shù)據(jù)集是認(rèn)為只有客戶的基礎(chǔ)屬性,然后對(duì)客戶的購買可能性做出預(yù)測。
現(xiàn)在增加電話營銷的數(shù)據(jù),來模擬一些營銷數(shù)據(jù)(比如說發(fā)過幾封推薦郵件)。
新增3個(gè)參數(shù)為
使用lightgbm建模結(jié)果如下
特征值的重要程度如下圖,新增的特征值duration(持續(xù)通話時(shí)間)和campaign(聯(lián)系次數(shù))對(duì)預(yù)測有相當(dāng)重要的影響。
對(duì)比沒有這3個(gè)特征值時(shí)的預(yù)測(同樣使用lightgbm)
這個(gè)對(duì)比說明了,在有效的特征值越多的情況下,預(yù)測越準(zhǔn)確。
====== 推薦閱讀 ======
1、產(chǎn)品質(zhì)量分析報(bào)告,你真的懂嗎?
2、產(chǎn)品質(zhì)量分析,質(zhì)量預(yù)測,助力企業(yè)提高效益
3、領(lǐng)導(dǎo)常說的管理駕駛艙是什么?為何如此重要
4、汽車維權(quán)實(shí)踐頻發(fā),如何做好質(zhì)量管理
5、數(shù)字化轉(zhuǎn)型的本質(zhì)什么?
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@ke049m.cn