原創(chuàng)|使用教程|編輯:陳俊吉|2016-08-17 09:52:01.000|閱讀 941 次
概述:作為 IBM 分析與預(yù)測(cè)解決方案的重要組成部分,IBM SPSS Modeler 是一組數(shù)據(jù)挖掘工具,通過(guò)這些工具可以采用商業(yè)技術(shù)快速建立預(yù)測(cè)性模型,并將其應(yīng)用于商業(yè)活動(dòng),從而改進(jìn)決策過(guò)程。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
簡(jiǎn)介
作為 IBM 分析與預(yù)測(cè)解決方案的重要組成部分,IBM SPSS Modeler 是一組數(shù)據(jù)挖掘工具,通過(guò)這些工具可以采用商業(yè)技術(shù)快速建立預(yù)測(cè)性模型,并將其應(yīng)用于商業(yè)活動(dòng),從而改進(jìn)決策過(guò)程。隨著于 2010 年其新版本 14.1 的發(fā)布,名字也由 PASW Modeler 更名為現(xiàn)在的 。
提供了各種借助機(jī)器學(xué)習(xí)、人工智能和統(tǒng)計(jì)學(xué)的建模方法。通過(guò)建模選項(xiàng)板中的方法,您可以根據(jù)數(shù)據(jù)生成新的信息以及開發(fā)預(yù)測(cè)模型。每種方法各有所長(zhǎng),同時(shí)適用于解決特定類型的問(wèn)題。
初次上手
典型的 SPSS Modeler 界面如下:
圖 1. SPSS Modeler 界面
接下來(lái)將詳細(xì)介紹其基本概念及操作。
基本概念:節(jié)點(diǎn)
節(jié)點(diǎn)代表要對(duì)數(shù)據(jù)執(zhí)行的操作。
例如,假定您需要打開某個(gè)數(shù)據(jù)源、添加新字段、根據(jù)新字段中的值選擇記錄,然后在表中顯示結(jié)果。在這種情況下,您的數(shù)據(jù)流應(yīng)由以下四個(gè)節(jié)點(diǎn)組成:
表 1. 節(jié)點(diǎn)示例
![]() |
變量文件節(jié)點(diǎn),設(shè)置此節(jié)點(diǎn)后可以讀取數(shù)據(jù)源中的數(shù)據(jù)。 | |
![]() |
導(dǎo)出節(jié)點(diǎn),用于向數(shù)據(jù)集中添加計(jì)算的新字段。 | |
![]() |
選擇節(jié)點(diǎn),用于設(shè)置選擇標(biāo)準(zhǔn),以從數(shù)據(jù)流中排除某些記錄。 | |
![]() |
表節(jié)點(diǎn),用于在屏幕上顯示操作結(jié)果。 |
基本概念:數(shù)據(jù)流
進(jìn)行的數(shù)據(jù)挖掘重點(diǎn)關(guān)注通過(guò)一系列節(jié)點(diǎn)運(yùn)行數(shù)據(jù)的過(guò)程,我們將這一過(guò)程稱為數(shù)據(jù)流。也可以說(shuō) SPSS Modeler 是以數(shù)據(jù)流為驅(qū)動(dòng)的產(chǎn)品。這一系列節(jié)點(diǎn)代表要對(duì)數(shù)據(jù)執(zhí)行的操作,而節(jié)點(diǎn)之間的鏈接指示數(shù)據(jù)的流動(dòng)方向。如,上面提到的四個(gè)節(jié)點(diǎn)可以創(chuàng)建如下數(shù)據(jù)流:
圖 2. 數(shù)據(jù)流示例
通常,SPSS Modeler 將數(shù)據(jù)以一條條記錄的形式讀入,然后通過(guò)對(duì)數(shù)據(jù)進(jìn)行一系列操作,最后將其發(fā)送至某個(gè)地方(可以是模型,或某種格式的數(shù)據(jù)輸出)。使用 SPSS Modeler 處理數(shù)據(jù)的三個(gè)步驟:
在 SPSS Modeler 中,可以通過(guò)打開新的數(shù)據(jù)流來(lái)一次處理多個(gè)數(shù)據(jù)流。會(huì)話期間,可以在 SPSS Modeler 窗口右上角的流管理器中管理打開的多個(gè)數(shù)據(jù)流。
圖 3. 流管理器
節(jié)點(diǎn)選項(xiàng)板
節(jié)點(diǎn)選項(xiàng)板位于流工作區(qū)下方窗口的底部。
圖 4. 節(jié)點(diǎn)選項(xiàng)板
每個(gè)選項(xiàng)板選項(xiàng)卡均包含一組不同的流操作階段中使用的相關(guān)節(jié)點(diǎn),如:
隨著對(duì) 的熟悉,您可以在收藏夾自定義常用的選項(xiàng)板內(nèi)容。
使用節(jié)點(diǎn)和流
要將節(jié)點(diǎn)添加到工作區(qū),請(qǐng)?jiān)诠?jié)點(diǎn)選項(xiàng)板中雙擊圖標(biāo)或?qū)⑵渫戏诺焦ぷ鲄^(qū)。已添加到流工作區(qū)的節(jié)點(diǎn)在連接之前不會(huì)形成數(shù)據(jù)流,可以將各個(gè)圖標(biāo)連接以創(chuàng)建一個(gè)表示數(shù)據(jù)流動(dòng)的流,節(jié)點(diǎn)之間的連接指示數(shù)據(jù)從一項(xiàng)操作流向下一項(xiàng)操作的方向。
SPSS Modeler 中最常見的鼠標(biāo)用法如下所示:
創(chuàng)建了流以后,可以對(duì)流進(jìn)行保存、添加注解,將其添加到工程。從文件主菜單中,選擇流屬性還可以為流設(shè)置各種選項(xiàng),如優(yōu)化、日期和時(shí)間設(shè)置、參數(shù)和腳本。使用流屬性對(duì)話框中的消息選項(xiàng)卡,可以輕松查看有關(guān)運(yùn)行、優(yōu)化和模型構(gòu)建和評(píng)估所用時(shí)間等流操作有關(guān)的消息,流操作的錯(cuò)誤消息也將在這里報(bào)告。
SPSS Modeler 管理器
可以使用流選項(xiàng)卡打開、重命名、保存和刪除在會(huì)話中創(chuàng)建的多個(gè)流。
圖 5. 流管理器
輸出選項(xiàng)卡中包含由 SPSS Modeler 中的流操作生成的輸出或圖形文件。您可以顯示、保存、重命名和關(guān)閉此選項(xiàng)上列出的表格、圖形和報(bào)告。
圖 6. 輸出文件管理器
模型選項(xiàng)卡是管理器選項(xiàng)卡中功能最強(qiáng)大的選項(xiàng)卡。該選項(xiàng)卡中包含所有模型塊,如當(dāng)前會(huì)話中生成的模型,通過(guò) PMML 導(dǎo)入的模型等。這些模型可以直接從模型選項(xiàng)卡上瀏覽或?qū)⑵涮?加到工作區(qū)的流中進(jìn)行數(shù)據(jù)分析。
圖 7. 模型管理器
窗口右側(cè)底部是工程工具,用于創(chuàng)建和管理數(shù)據(jù)挖掘工程(與數(shù)據(jù)挖掘任務(wù)相關(guān)的文件組)。有兩種方式可查看您在 SPSS Modeler 中創(chuàng)建的工程 - 類視圖或 CRISP-DM 視圖。
依據(jù)跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn) CRISP-DM選項(xiàng)卡提供了一種組織工程的方式。不論是有經(jīng)驗(yàn)的數(shù)據(jù)挖掘人員還是新手,使用 CRISP-DM 工具都會(huì)使您事半功倍。
圖 8. 工程工具 -CRISP-DM 視圖
類選項(xiàng)卡提供了一種在 SPSS Modeler 中按類別(按照所創(chuàng)建對(duì)象的類別)組織您工作的方式。此視圖在獲取數(shù)據(jù)、流、模型的詳盡目錄時(shí)十分有用。
圖 9. 工程工具 - 類視圖
回頁(yè)首
建模簡(jiǎn)介
模型是一組規(guī)則、公式或方程式,可以用它們根據(jù)一組輸入或變量來(lái)預(yù)測(cè)輸出。例如,一家財(cái)務(wù)機(jī)構(gòu)可根據(jù)對(duì)過(guò)往申請(qǐng)人的已知信息,使用模型預(yù)測(cè)貸款申請(qǐng)人可能存在優(yōu)良還是不良風(fēng)險(xiǎn)。預(yù)測(cè)結(jié)果是預(yù)測(cè)性分析的中心目標(biāo),了解建模過(guò)程是使用 SPSS Modeler 的關(guān)鍵。
圖 10. 簡(jiǎn)單的決策樹模型
本示例使用 CHAID(卡方自動(dòng)交互效應(yīng)檢測(cè))模型,通過(guò)一系列決策規(guī)則對(duì)記錄進(jìn)行分類(并預(yù)測(cè)用戶響應(yīng)),例如:
如果收入 = 中等 并且卡 <5 則 ->“優(yōu)良” |
本示例旨在介紹使用 SPSS Modeler 進(jìn)行數(shù)據(jù)挖掘的基本流程,其中大部分概念可廣泛應(yīng)用于 SPSS Modeler 中的其他建模類型。
無(wú)論要了解哪種模型,均需要首先了解進(jìn)入該模型的數(shù)據(jù)。此示例中的數(shù)據(jù)包含有關(guān)銀行客戶的信息。其中使用了下列字段:
表 2. 數(shù)據(jù)字段
字段名 | 描述 |
---|---|
Credit_rating | 信用評(píng)價(jià):0= 不良,1= 優(yōu)良,9= 丟失值 |
年齡 | 客戶年齡 |
收入 | 收入水平:1= 低,2= 中,3= 高 |
Credit_cards | 持有的信用卡數(shù)量:1= 少于五張,2= 五張或更多 |
教育 | 教育程度:1= 高中,2= 大學(xué) |
Car_loans | 貸款的汽車數(shù)量:1= 沒有或一輛,2= 超過(guò)兩輛 |
銀行可維護(hù)銀行貸款客戶的歷史信息,包括客戶是正常還貸(信用評(píng)價(jià) = 優(yōu)良)還是在拖欠貸款(信用評(píng)價(jià) = 不良)。銀行希望使用現(xiàn)有的數(shù)據(jù)建立一個(gè)模型,允許他們預(yù)測(cè)未來(lái)貸款申請(qǐng)人拖欠貸款的可能性。使用決策樹模型,您可分析這兩組客戶的特征,并預(yù)測(cè)不良客戶拖欠貸款的可能性。
構(gòu)建流
本示例使用了名為 modelingintro.str的流,數(shù)據(jù)文件是 tree_credit.sav。(與示例一起使用的數(shù)據(jù)文件和樣本流安裝在產(chǎn)品安裝目錄下的 Demos 文件夾中。)
我們來(lái)看一下流:
圖 11. “打開”對(duì)話框
在本例中,我們使用 CHAID 建模節(jié)點(diǎn)。CHAID,或卡方自動(dòng)交互效應(yīng)檢測(cè),是一種通過(guò)使用稱作卡方統(tǒng)計(jì)量的特定統(tǒng)計(jì)類型識(shí)別決策樹中的最優(yōu)分割來(lái)構(gòu)建決策樹的分類方法。
要構(gòu)建流以創(chuàng)建模型,至少需要三個(gè)元素:
該流中還包含表節(jié)點(diǎn)和分析節(jié)點(diǎn),當(dāng)創(chuàng)建模型塊并將其添加到流以后,可使用這兩個(gè)節(jié)點(diǎn)查看評(píng)分結(jié)果以評(píng)估模型。
圖 12. 流 modelingintro.str
Statistics 文件源節(jié)點(diǎn)從 tree_credit.sav 數(shù)據(jù)文件讀取 SPSS Statistics 格式數(shù)據(jù),該文件安裝在 Demos 文件夾中。(名為 $CLEO_DEMOS 的特殊變量用于引用安裝目錄位于 Demos 目錄下的文件。這樣,無(wú)論當(dāng)前的安裝文件夾或版本是什么,均可以確保路徑有效。如在本例中可以寫作:$CLEO_DEMOS/tree_credit.sav,與圖中全路徑效果是一樣的。)
圖 13. 源節(jié)點(diǎn)
類型節(jié)點(diǎn)指定每個(gè)字段的測(cè)量級(jí)別。測(cè)量級(jí)別是一種指示字段中數(shù)據(jù)類型的類別。我們的源數(shù)據(jù)文件使用三種不同的測(cè)量級(jí)別:
連續(xù)字段(Continuous,例如年齡字段)包含連續(xù)的數(shù)字值,而名義字段(Nominal,例如信用評(píng)價(jià)字段)有兩個(gè)或多個(gè)不同值,如不良、優(yōu)良或無(wú)信用歷史。有序字段(Ordinal,例如收入水平字段)用于描述具有順序固定的不同值的數(shù)據(jù),在本例中為低、中和高。
對(duì)于每個(gè)字段,類型節(jié)點(diǎn)還指定角色,以指示每個(gè)字段在建模中扮演的部分。字段信用評(píng)價(jià)(Credit rating)指示指定的客戶是否拖欠貸款,這是要預(yù)測(cè)的目標(biāo)字段,將其角色設(shè)置為目標(biāo)。對(duì)于其他字段,將角色設(shè)置為輸入。輸入字段也稱為預(yù)測(cè)變量,即建模算法用來(lái)預(yù)測(cè)目標(biāo)字段值的字段。
CHAID建模節(jié)點(diǎn)生成模型。在建模節(jié)點(diǎn)的字段選項(xiàng)卡中,已選中使用預(yù)定義角色,這意味著將使用在類型節(jié)點(diǎn)中指定的目標(biāo)字段和輸入字段。可以在此處更改字段角色,但在本例中不做任何更改。
圖 14. CHAID 模型節(jié)點(diǎn) - 字段頁(yè)
單擊“構(gòu)建選項(xiàng)”選項(xiàng)卡。
圖 15. CHAID 模型節(jié)點(diǎn) - 構(gòu)建選項(xiàng)頁(yè) - 目標(biāo)項(xiàng)
此處包含的選項(xiàng)可以用于指定要構(gòu)建的模型類型。由于我們想要一個(gè)全新的模型,因此使用默認(rèn)選項(xiàng)構(gòu)建新模型。我們還要求它為單個(gè)標(biāo)準(zhǔn)決策樹模型,并且不使用任何增強(qiáng),因此保留默認(rèn)目標(biāo)選項(xiàng)構(gòu)建單個(gè)樹。還可以選擇啟動(dòng)交互會(huì)話對(duì)模型進(jìn)行手動(dòng)的微調(diào),本示例只使用默認(rèn)設(shè)置來(lái)生成模型。
對(duì)于此示例,我們希望保持樹的結(jié)構(gòu)簡(jiǎn)單,因此通過(guò)增加用于父節(jié)點(diǎn)和子節(jié)點(diǎn)的最小記錄數(shù)限制樹的增長(zhǎng)。
圖 16. CHAID 模型節(jié)點(diǎn) - 構(gòu)建選項(xiàng)頁(yè) - 停止規(guī)則項(xiàng)
我們可以使用所有其他默認(rèn)選項(xiàng),然后單擊運(yùn)行以創(chuàng)建模型。(或者,也可以右鍵單擊該節(jié)點(diǎn)然后選擇運(yùn)行,或選擇節(jié)點(diǎn)并從工具主菜單中選擇運(yùn)行。)
瀏覽模型
等一小段時(shí)間當(dāng)流執(zhí)行完成后,模型塊將被添加到應(yīng)用程序窗口右上角的模型選項(xiàng)板中,它還會(huì)被自動(dòng)連接在流工作區(qū)中,并帶有指向創(chuàng)建它的建模節(jié)點(diǎn)的鏈接。要查看模型的詳細(xì)信息,右鍵單擊模型塊并選擇瀏覽(在模型選項(xiàng)板上)或編輯(在工作區(qū)上)。
圖 17. 包含模型塊的流 modelingintro.str
對(duì)于 CHAID 模型塊,模型選項(xiàng)卡以規(guī)則集的形式顯示詳細(xì)信息,規(guī)則集實(shí)際上是可根據(jù)不同輸入字段的值將各個(gè)記錄分配給相應(yīng)子節(jié)點(diǎn)的一組規(guī)則。
圖 18. CHAID 模型塊 - 模型頁(yè)
對(duì)于每個(gè)決策樹終端節(jié)點(diǎn) -- 意味著那些樹節(jié)點(diǎn)沒有再進(jìn)一步拆分 -- 返回優(yōu)良或不良的預(yù)測(cè)值。對(duì)于落在該節(jié)點(diǎn)內(nèi)的記錄,所有個(gè)案中的預(yù)測(cè)均由模式或最常見的響應(yīng)決定。
在規(guī)則集的右側(cè),模型選項(xiàng)卡顯示預(yù)測(cè)變量重要性圖表,該圖表顯示評(píng)估模型時(shí)每個(gè)預(yù)測(cè)變量的相對(duì)重要性。通過(guò)這一點(diǎn),我們看到收入水平 (Income level)在此個(gè)案中最顯著,而其他唯一顯著的因子是信用卡數(shù)量(Number of credit cards)。
圖 19. CHAID 模型塊 - 變量重要性
模型塊中的查看器選項(xiàng)卡以樹的形式顯示相同的模型,每個(gè)決策點(diǎn)上都有一個(gè)節(jié)點(diǎn)。可使用工具欄上的縮放控件放大特定節(jié)點(diǎn),或縮小節(jié)點(diǎn)以查看更完整的樹。
圖 20. CHAID 模型塊 - 查看器頁(yè)
查看樹的上部分,第一個(gè)節(jié)點(diǎn)(節(jié)點(diǎn) 0)為我們提供數(shù)據(jù)集中所有記錄的摘要。數(shù)據(jù)集中超過(guò) 40% 的個(gè)案分類為不良風(fēng)險(xiǎn)。這是相當(dāng)高的比例,因此讓我們看看樹能否提示哪些因素起決定作用。我們可以看到第一個(gè)分割是根據(jù)收入水平產(chǎn)生的。收入水平位于低類別的記錄被指定到節(jié)點(diǎn) 2,可以看到此類別包含貸款拖欠的百分比最高 --82%。因此我們認(rèn)為此類別的客戶都具有高風(fēng)險(xiǎn)。但是要注意的是,此類別中有 16% 客戶實(shí)際上沒有拖欠,因此說(shuō)預(yù)測(cè)并非始終準(zhǔn)確。事實(shí)上沒有模型能夠精確預(yù)測(cè)所有的結(jié)果,但好的模型能夠根據(jù)可用數(shù)據(jù)預(yù)測(cè)出最接近的結(jié)果。
同樣,如果我們查看高收入客戶(節(jié)點(diǎn) 1),我們看到絕大部分 (89%) 是優(yōu)良風(fēng)險(xiǎn)。但是在這個(gè)類別中 10 位客戶也有 1 位會(huì)拖欠。還能繼續(xù)精煉貸款標(biāo)準(zhǔn)以便將此處的風(fēng)險(xiǎn)最小化嗎?我們繼續(xù)看,接下來(lái)模型根據(jù)客戶持有的信用卡數(shù)量,將這些客戶分成兩個(gè)子類別(節(jié)點(diǎn) 4 和節(jié)點(diǎn) 5)。對(duì)于高收入客戶,如果我們只向那些信用卡少于 5 張的客戶貸款,則可以將我們的成功率從 89% 提高到 97%-- 很明顯是一個(gè)更滿意的結(jié)果。
圖 21. CHAID 模型塊 - 高收入客戶
回過(guò)頭來(lái)看看中等收入類別(節(jié)點(diǎn) 3)中的那些客戶是什么情況呢?他們更加均勻地劃分為優(yōu)良和不良評(píng)價(jià)。子類別(節(jié)點(diǎn) 6 和 7)這次仍然能幫助我們。如果只向那些信用卡少于 5 張的中等收入客戶貸款,可將優(yōu)良評(píng)價(jià)的百分比從 58% 提高到 85%-- 顯著的改進(jìn)。
圖 22. CHAID 模型塊 - 中等收入客戶
至此,我們了解到輸入此模型的每項(xiàng)記錄都將被分配到一個(gè)特定節(jié)點(diǎn),并且根據(jù)該節(jié)點(diǎn)最常見的結(jié)果分配在優(yōu)良或不良中二選一的預(yù)測(cè)值。
為各個(gè)客戶記錄分配預(yù)測(cè)值的過(guò)程稱為評(píng)分 (Scoring)。因為我們已經(jīng)知道原始記錄中每個(gè)客戶的情況,通過(guò)對(duì)這些原始記錄進(jìn)行評(píng)分并與實(shí)際值相比較,可以評(píng)估該模型的準(zhǔn)確度。讓我們看看如何做到這一點(diǎn)。
評(píng)估模型
要評(píng)估模型的準(zhǔn)確度,需要對(duì)一些記錄(這里我們用原始記錄)進(jìn)行評(píng)分,并將模型預(yù)測(cè)的結(jié)果與實(shí)際結(jié)果進(jìn)行比較。
圖 23. 包含輸出的流 modelingintro.str
要查看分?jǐn)?shù)或預(yù)測(cè)值,請(qǐng)將表節(jié)點(diǎn)連接到模型塊,雙擊表節(jié)點(diǎn),然后單擊運(yùn)行。
可以從表中看到,模型創(chuàng)建了一個(gè)名為 $R-Credit rating 的字段,用來(lái)顯示預(yù)測(cè)值。我們可以將這些值與原始信用評(píng)價(jià)字段進(jìn)行比較。
圖 24. CHAID 模型輸出表格
在 SPSS Modeler 中,在評(píng)分過(guò)程中生成的字段的名稱基于目標(biāo)字段,再加上標(biāo)準(zhǔn)前綴,例如 $R- 表示預(yù)測(cè)值,$RC- 表示置信度值。不同的模型類型使用不同的前綴集。置信度值(confidence value)是模型自己做的評(píng)估,尺度從 0.0 到 1.0,表示每個(gè)預(yù)測(cè)值的精確程度。
與預(yù)期的一樣,預(yù)測(cè)值與大多數(shù)(并非全部)記錄的實(shí)際值相匹配。原因是每個(gè) CHAID 終端節(jié)點(diǎn)均包含混合值,而預(yù)期值與大部分結(jié)果相匹配,對(duì)于該節(jié)點(diǎn)中的其他結(jié)果,該預(yù)期值是錯(cuò)誤的。(還記得節(jié)點(diǎn) 2 中 16% 的少部分低收入客戶其實(shí)是沒有拖欠的嗎?)若要避免出現(xiàn)此情況,可繼續(xù)將樹分割為更小的分支,直到每個(gè)節(jié)點(diǎn)都不含混合值 (100%) 為止—即全部為優(yōu)良或不良。但是,這樣的模型會(huì)非常復(fù)雜,并且不易推廣到其他數(shù)據(jù)集。
要查看具體有多少預(yù)測(cè)值正確,我們可通讀表格,并數(shù)一數(shù)預(yù)測(cè)字段 $R-Credit rating的值匹配信用評(píng)價(jià)的值的記錄數(shù)量。幸運(yùn)的是,我們有更簡(jiǎn)單的方式 -- 使用分析節(jié)點(diǎn),它將幫助我們自動(dòng)進(jìn)行此項(xiàng)操作:將模型塊連接到分析節(jié)點(diǎn),雙擊分析節(jié)點(diǎn),然后單擊運(yùn)行。
分析表明,2464 個(gè)記錄中有 1960 個(gè)記錄(約 80%)的模型預(yù)測(cè)值與實(shí)際值相匹配。
圖 25. CHAID 模型分析結(jié)果
注意我們用來(lái)評(píng)分的記錄和評(píng)估模型的記錄是同一批數(shù)據(jù)。在真實(shí)情況中,可使用分區(qū)(partition)節(jié)點(diǎn)將數(shù)據(jù)分割為兩個(gè)樣本分別用于培訓(xùn)模型和評(píng)估模型。通過(guò)使用一個(gè)樣本生成模型并使用另一個(gè)樣本對(duì)模型進(jìn)行檢驗(yàn),您可更有意義地評(píng)估將模型推廣到其他數(shù)據(jù)集的情況。
這一階段我們通過(guò)分析節(jié)點(diǎn)可以針對(duì)已知道其實(shí)際結(jié)果的記錄來(lái)檢驗(yàn)?zāi)P汀O乱浑A段將介紹如何使用模型對(duì)我們不知道結(jié)果的記錄進(jìn)行評(píng)分。例如,當(dāng)前不是銀行客戶但是可做為促銷對(duì)象的人群。
對(duì)記錄評(píng)分
現(xiàn)在,我們要查看如何對(duì)不同的記錄集進(jìn)行評(píng)分。這是進(jìn)行建模的目標(biāo):研究已知道結(jié)果的記錄,以找出模式可以讓您預(yù)測(cè)未知結(jié)果記錄的結(jié)果。
圖 26. 包含評(píng)分?jǐn)?shù)據(jù)的流 modelingintro.str
我們可以更新 Statistics 文件源節(jié)點(diǎn)使它指向其他數(shù)據(jù)文件,也可以添加一個(gè)新的源節(jié)點(diǎn),用它讀取要評(píng)分的數(shù)據(jù)。無(wú)論采用哪種方式,新數(shù)據(jù)集必須包含建模所使用的所有輸入字段(年齡、收入水平、教育等),但不包含目標(biāo)字段信用評(píng)價(jià)。運(yùn)行表節(jié)點(diǎn)即可得到結(jié)果,我們就不在這里執(zhí)行了。
另外,也可以將模型塊添加到包含輸入字段的任何流中。無(wú)論數(shù)據(jù)源是文件還是數(shù)據(jù)庫(kù),只要字段名和類型與模型使用的相匹配,源類型都無(wú)關(guān)緊要。還可以將模型塊保存為單獨(dú)的文件、或?qū)⒛P蛯?dǎo)出為 PMML 格式以用于其他支持此格式的應(yīng)用程序,或?qū)⒛P痛鎯?chǔ)到 IBM SPSS Collaboration and Deployment Services 存儲(chǔ)庫(kù)中,這樣可以在企業(yè)范圍對(duì)模型進(jìn)行部署、評(píng)分和管理。無(wú)論使用何種基礎(chǔ)結(jié)構(gòu),模型自身都按相同的方式工作。
摘要
本示例演示創(chuàng)建、評(píng)估模型以及對(duì)模型評(píng)分的基本步驟。
自動(dòng)建模
對(duì)客戶響應(yīng)建模(自動(dòng)分類器)
通過(guò)自動(dòng)分類器(Auto Classifier node )節(jié)點(diǎn),您可以為標(biāo)志字段(例如某個(gè)客戶是否很可能拖欠貸款或者是否會(huì)對(duì)特定的報(bào)價(jià)做出響應(yīng))或名義(集合)字段目標(biāo)自動(dòng)創(chuàng)建和比較多個(gè)不同模型。在本例中,我們將使用標(biāo)志(是或否)字段。在一個(gè)相對(duì)簡(jiǎn)單的流中,節(jié)點(diǎn)生成一組候選模型并對(duì)它們進(jìn)行排序,選擇最有效的模型然后將它們合并為一個(gè)匯總(整體)模型。此方法將自動(dòng)化操作的方便性與組合多個(gè)模型的優(yōu)勢(shì)融為一體,通常能產(chǎn)生單一模型所不能帶來(lái)的更為準(zhǔn)確的預(yù)測(cè)。
本示例以某虛構(gòu)的公司為例,該公司希望通過(guò)為每個(gè)客戶提供最合適的報(bào)價(jià)以獲取更豐厚的收益。此方法突出了自動(dòng)操作的優(yōu)勢(shì)。我們使用安裝在 streams 目錄下 Demo 文件夾中的流 pm_binaryclassifier.str,所使用的數(shù)據(jù)文件為 pm_customer_train1.sav。
圖 27. 流 pm_binaryclassifier.str
歷史數(shù)據(jù)
文件 pm_customer_train1.sav的歷史數(shù)據(jù)包含過(guò)去的營(yíng)銷活動(dòng)中為特定客戶提供的報(bào)價(jià),由 campaign字段的值表示,其中值為 Premium account的記錄數(shù)最多。campaign 字段的值在數(shù)據(jù)中實(shí)際編碼為整數(shù)(例如 2 = Premium account)。稍后,您可為這些值定義標(biāo)簽以產(chǎn)生更有意義的輸出。
圖 28. 數(shù)據(jù)樣本
此外,其中還有字段表示每位客戶的相關(guān)人口統(tǒng)計(jì)和財(cái)務(wù)信息。這些字段可用于構(gòu)建或訓(xùn)練一個(gè)模型,通過(guò)基于收入、年齡或每月交易次數(shù)等特征來(lái)預(yù)測(cè)單個(gè)用戶或用戶群的響應(yīng)概率。
構(gòu)建流
添加使用 pm_customer_train1.sav的 Statistics 文件源節(jié)點(diǎn),該文件位于 SPSS Modeler 安裝程序的 Demos 文件夾中。(您可以在文件路徑中指定 $CLEO_DEMOS/ 作為引用此文件夾的快捷方式。請(qǐng)注意,路徑中必須使用正斜線而非反斜線,如圖所示。)
圖 29. 源節(jié)點(diǎn)
添加類型節(jié)點(diǎn),然后選擇響應(yīng)(response)作為目標(biāo)字段(設(shè)置其角色為目標(biāo))。將此字段的測(cè)量設(shè)置為標(biāo)志。
對(duì)于以下字段,將角色設(shè)置為無(wú):customer_id、campaign、response_date、purchase、purchase_date、product_id、Rowid和 X_random。因?yàn)檫@些字段(如用戶 ID)對(duì)于構(gòu)建模型其實(shí)是無(wú)意義的,把角色設(shè)置為無(wú)以后,構(gòu)建模型時(shí)將自動(dòng)忽略這些字段。
單擊類型節(jié)點(diǎn)的讀取值按鈕以確保值獲得實(shí)例化。
常見問(wèn)題:當(dāng)您在運(yùn)行流的時(shí)候出現(xiàn)以下錯(cuò)誤時(shí),可以在類型節(jié)點(diǎn)中(流中沒有類型節(jié)點(diǎn)時(shí)請(qǐng)先手動(dòng)添加一個(gè))單擊讀取值然后再運(yùn)行流:
我們的源數(shù)據(jù)包含四項(xiàng)不同活動(dòng)的信息,每個(gè)活動(dòng)針對(duì)不同類型的客戶。這些活動(dòng)在數(shù)據(jù)中編碼為整數(shù),為了方便記住每個(gè)整數(shù)所代表的帳戶類型,讓我們?yōu)槊總€(gè)整數(shù)都定義一個(gè)標(biāo)簽。
在活動(dòng)(campaign)字段的行上,單擊值列中的條目。從下拉列表選擇指定。
圖 30. 類型節(jié)點(diǎn)
在標(biāo)簽列中,鍵入活動(dòng)字段四個(gè)值中每個(gè)值將顯示的標(biāo)簽。單擊確定。
圖 31. 類型節(jié)點(diǎn) - 指定標(biāo)簽
現(xiàn)在我們可在輸出窗口中顯示標(biāo)簽而非僅僅是整數(shù)了。
圖 32. 輸出標(biāo)簽的表格
盡管數(shù)據(jù)包含有關(guān)四項(xiàng)不同活動(dòng)的信息,但每一次的分析應(yīng)集中關(guān)注其中一項(xiàng)活動(dòng)。由于 Premium account 活動(dòng)(在數(shù)據(jù)中編碼為 campaign=2)中的記錄數(shù)最多,因此可以使用選擇節(jié)點(diǎn)實(shí)現(xiàn)僅在流中包含這些記錄。
圖 33. 選擇節(jié)點(diǎn)
生成和比較模型
附加一個(gè)自動(dòng)分類器節(jié)點(diǎn),然后選擇總體精確性作為對(duì)模型進(jìn)行排序的度量。
將要使用的模型數(shù)設(shè)置為 3。這意味著在執(zhí)行節(jié)點(diǎn)時(shí)將只選擇三個(gè)最佳模型。
圖 34. 自動(dòng)分類器節(jié)點(diǎn) - 模型頁(yè)
在專家選項(xiàng)卡上,可從最多 11 種不同模型算法中進(jìn)行選擇。
取消選擇判別式和 SVM模型類型。(這些模型需要花費(fèi)更多時(shí)間培訓(xùn)這些數(shù)據(jù),因此取消選中它們將可以加快示例的執(zhí)行速度。如果您不介意稍等一下,也可以保留它們的選中狀態(tài)。)由于在模型選項(xiàng)卡上將要使用的模型數(shù)設(shè)置為 3,因此節(jié)點(diǎn)將計(jì)算所選擇九個(gè)算法的準(zhǔn)確性,然后選擇三個(gè)最準(zhǔn)確的算法來(lái)構(gòu)建一個(gè)模型塊。
圖 35. 自動(dòng)分類器節(jié)點(diǎn) - 專家頁(yè)
在設(shè)置選項(xiàng)卡上,選擇整體方法為置信度加權(quán)投票。此選項(xiàng)將確定如何為每條記錄生成一個(gè)評(píng)分。
使用簡(jiǎn)單投票方式時(shí),若三個(gè)模型中有兩個(gè)模型均預(yù)測(cè)是,則是將以 2 比 1 的投票結(jié)果取勝。在使用置信度加權(quán)投票方式時(shí),將基于各預(yù)測(cè)的置信度值進(jìn)行加權(quán)投票。因此,如果一個(gè)預(yù)測(cè)否的模型的置信度比兩個(gè)預(yù)測(cè)是的模型合在一起的置信度還高的話,則否取勝。
圖 36. 自動(dòng)分類器節(jié)點(diǎn) - 設(shè)置頁(yè)
單擊運(yùn)行。
幾分鐘后(實(shí)際情況中,由于大型數(shù)據(jù)集往往需要?jiǎng)?chuàng)建數(shù)百個(gè)模型,這可能會(huì)花費(fèi)數(shù)小時(shí)或更長(zhǎng)的時(shí)間),構(gòu)建生成的模型塊將放到工作區(qū)和窗口右上角的模型選項(xiàng)板中。您可瀏覽模型塊,或以多種其他方式將其保存或部署。
我們從工作區(qū)打開模型塊,它將列出在運(yùn)行期間所創(chuàng)建的每個(gè)模型的詳細(xì)信息。如果需要進(jìn)一步探索任何單獨(dú)的模型,可在模型列中雙擊此模型塊圖標(biāo),以瀏覽單獨(dú)模型結(jié)果,甚至可以用它們生成建模節(jié)點(diǎn)、模型塊或評(píng)估圖表。在圖形列中,可以雙擊縮略圖生成標(biāo)準(zhǔn)大小的圖形進(jìn)行直觀的顯示。
圖 37. 自動(dòng)分類器模型塊 - 模型頁(yè)
默認(rèn)情況下,模型會(huì)基于總體精確性排序,這是我們?cè)谧詣?dòng)分類器節(jié)點(diǎn)模型選項(xiàng)卡中選擇的度量。根據(jù)這一度量,C51 模型的精確性最高,但 C&R 樹和 CHAID 模型的精確性與之相差不大。您可以通過(guò)單擊其他列的標(biāo)題對(duì)該列進(jìn)行排序,或者也可以從工具欄的排序方式下拉列表中選擇所需的度量。
基于這些結(jié)果,我們決定使用所有三個(gè)最準(zhǔn)確的模型。通過(guò)結(jié)合多個(gè)模型的預(yù)測(cè),可以避免單個(gè)模型的局限性,從而使整體準(zhǔn)確性更高。在是否使用列中,選擇 C51, C&R 樹和 CHAID 模型。
在模型塊后附加一個(gè)分析節(jié)點(diǎn)(位于下方輸出選項(xiàng)板)。右鍵單擊分析節(jié)點(diǎn),然后選擇運(yùn)行以運(yùn)行流。
由整體模型生成的匯總得分將顯示在名為 $XF-response 的字段中。當(dāng)根據(jù)訓(xùn)練數(shù)據(jù)評(píng)分時(shí),預(yù)測(cè)值與實(shí)際響應(yīng)(如原始響應(yīng)字段中的記錄所示)匹配的總體精確性為 92.82%。盡管這不如本例中三個(gè)模型的最高精確性高(C51 為 92.86%),但它們之間的差距小得可以忽略不計(jì)。一般來(lái)說(shuō),整體模型應(yīng)用到訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)集時(shí),通常比單個(gè)模型效果更好。
圖 38. 自動(dòng)分類器模型塊的分析結(jié)果
摘要
綜上所述,我們使用自動(dòng)分類器節(jié)點(diǎn)比較了多種不同的模型,然后使用三個(gè)最準(zhǔn)確的模型并將它們作為一個(gè)整體自動(dòng)分類器模型塊添加到流中。
小結(jié)
本文從 IBM SPSS Modeler 基本概念開始詳細(xì)介紹其基本操作,通過(guò)典型的數(shù)據(jù)挖掘算法介紹使用 SPSS Modeler 進(jìn)行數(shù)據(jù)挖掘的基本流程,以及 SPSS Modeler 強(qiáng)大的自動(dòng)建模功能。
本文所展示的只是 SPSS Modeler 很基礎(chǔ)的一小部分使用。隨著用戶使用的加深,將會(huì)了解到 SPSS Modeler 更為強(qiáng)大的功能,如 ADP(自動(dòng)數(shù)據(jù)準(zhǔn)備)、數(shù)據(jù)庫(kù)建模等等。
spss modeler:
spss statistics:
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@ke049m.cn