轉(zhuǎn)帖|行業(yè)資訊|編輯:陳俊吉|2016-07-04 10:41:46.000|閱讀 206 次
概述:社交網(wǎng)絡(luò)分析(Social Network Analysis) 是指基于信息學(xué)、數(shù)學(xué)、社會學(xué)、管理學(xué)、心理學(xué)等多學(xué)科的融合理論和方法,為理解人類各種社交關(guān)系的形成、行為特點分析以及信息傳播的規(guī)律提供的一種可計算的分析方法。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
背景知識:社交網(wǎng)絡(luò)分析、數(shù)據(jù)挖掘、
社交網(wǎng)絡(luò)分析(Social Network Analysis) 是指基于信息學(xué)、數(shù)學(xué)、社會學(xué)、管理學(xué)、心理學(xué)等多學(xué)科的融合理論和方法,為理解人類各種社交關(guān)系的形成、行為特點分析以及信息傳播的規(guī)律提供的一種可計算的分析方法。
圖 1 是社交網(wǎng)絡(luò)的一個示意圖,其中的節(jié)點可以是組織、個人、網(wǎng)絡(luò)ID 等不同含義的實體或虛擬個體;連線表示節(jié)點之間的關(guān)系或信息流動。信息流動的方式有很多,比如郵件,電話,短信,博客,等等。假設(shè) A 經(jīng)常與 B 和 C 通電話,通過分析 A 的電話 ID 記錄,可以構(gòu)筑出圖 1 中的簡單社交網(wǎng)絡(luò)。從此圖中我們可以看出 A, B, C, 三人中,A 具有較強的影響力。如果 A 獲得了正面或者負(fù)面的消息,這消息會很快傳遞給 B 和 C。而 B 與 C 之間的影響力是間接的,只能通過 A 來傳播。
圖 1. 社交網(wǎng)絡(luò)示意圖
隨著節(jié)點和連線的增加,社交網(wǎng)絡(luò)的復(fù)雜程度迅速提升。圖 2 展示了一個較為典型的社交網(wǎng)絡(luò)。大型和超大型的社交網(wǎng)絡(luò)的處理是手工分析方式無法完成的。在過去的二十年中,社交網(wǎng)絡(luò)分析領(lǐng)域的快速發(fā)展,很大程度得益于計算機計算能力的提升和各種數(shù)據(jù)挖掘方法的發(fā)展。
圖 2. 一個典型的社交網(wǎng)絡(luò)
數(shù)據(jù)挖掘 (Data Mining) 是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。從商業(yè)角度去定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
圖 3. 數(shù)據(jù)挖掘
被譽為第一數(shù)據(jù)挖掘工具的( 原名 Clementine) 是 IBM SPSS 的核心挖掘產(chǎn)品,它擁有直觀的操作界面,自動化的數(shù)據(jù)準(zhǔn)備,和成熟的預(yù)測分析模型。使用它,企業(yè)可以將數(shù)據(jù)分析和建模技術(shù)與特定的商業(yè)問題結(jié)合起來,找出其他傳統(tǒng)數(shù)據(jù)挖掘工具可能找不出的答案。
圖 4. 的操作界面
IBM 兩種社交網(wǎng)絡(luò)分析的算法原理
社交網(wǎng)絡(luò)分析(SNA)是IBM SPSS Modeler 的常用功能,目前有兩種算法支持這個功能,分別稱作 GA 和 DA。GA 全稱 Group Analysis, 是一種基于群體的分析方法。DA 全稱 Diffusion Analysis,著眼于計算一些人的行為對網(wǎng)絡(luò)中其他人的沖擊強度。在 Modeler 中這兩個算法以兩個源節(jié)點的形式出現(xiàn),如圖 5 所示。
1. 根據(jù)共有鄰接節(jié)點的數(shù)量,量化各個節(jié)點(也就是張三、李四、王五。。。)之間聯(lián)系的強度;
圖 5. GA 和 DA 在 Modeler 15 中以兩個源節(jié)點的形式出現(xiàn)
下面我們簡單介紹一下兩者的算法原理。假設(shè)我們有過去半年里某地區(qū)的電話清單,數(shù)據(jù)量在百萬到千萬條左右。數(shù)據(jù)記錄了打電話的人和接收的人,如圖 6 所示。
圖 6. GA 和 DA 的輸入數(shù)據(jù) -- 電話清單舉例
GA 收到這些數(shù)據(jù)后,會進行如下的分析:
2. 保留高強度的聯(lián)系,去除低強度的聯(lián)系。進行此步驟后,社交網(wǎng)絡(luò)會退化成幾個內(nèi)部聯(lián)系多、外部聯(lián)系少的次網(wǎng)絡(luò),以及很多孤立的節(jié)點。每個次網(wǎng)絡(luò)對應(yīng)一個群體(group),稱為這個群體的核 (kernel);
3. 把那些孤立的節(jié)點連到距離他們最近的群體去。上一步里暫時去除的低強度的聯(lián)系,在這一步發(fā)揮了主要作用;
4. 對各個群體以及群體里的個體進行分析畫像,例如評估群體內(nèi)每個個體的地位,找出“領(lǐng)袖”,計算群體密度,等等。這些特性將用于后繼應(yīng)用中,下一節(jié)的實例中會進一步展示。
相比之下,DA 的算法原理要更簡單一些。DA 不會將網(wǎng)絡(luò)分成群體,而是在原網(wǎng)絡(luò)上進行計算。DA 著眼于計算一些人的行為對網(wǎng)絡(luò)中其他人的沖擊強度。
收到如圖 6 的數(shù)據(jù)后,DA 會構(gòu)筑一個有向加權(quán)網(wǎng)絡(luò),如圖 7 所示。網(wǎng)絡(luò)中的節(jié)點代表人、組織、計算機或者其他信息或知識處理實體;連線表示節(jié)點之間的關(guān)系或信息流動;連線的方向表示了關(guān)系的主動被動方,或者信息流動的方向(通常為雙向,圖 7 省略了此內(nèi)容)。
DA 還需要有行為發(fā)生的人的名單。這里的行為可以是從公司辭職,更換手機服務(wù)商,試用了某種產(chǎn)品,等等。這些人被稱作“初始擴散點”(Initial diffusing seeds),由圖 7 中的紅色節(jié)點表示。接下來,設(shè)定初始擴散點的沖擊強度,然后采用衰敗擴散過程就可以估計出其他節(jié)點所受到的沖擊大小。
圖 7. DA 算法解析
社交網(wǎng)絡(luò)分析實例:客戶流失預(yù)警和病毒式營銷
1.客戶流失預(yù)警
最近二十年中,移動通信成為占主導(dǎo)地位的通信介質(zhì)。在許多國家,特別是發(fā)達國家,市場規(guī)模已達到飽和的程度,新客戶的獲得主要靠從競爭對手那里贏得。同時,公共法規(guī)和移動通信的標(biāo)準(zhǔn)化,讓客戶可以輕松地從一個運營商換到另一個,令市場極不穩(wěn)定。由于贏得一個新客戶的成本遠(yuǎn)遠(yuǎn)高于維護一個現(xiàn)有客戶的成本,移動運營商更加重視客戶保留的問題。因此,客戶流失預(yù)警已成為一個關(guān)鍵的移動商務(wù)智能(BI)應(yīng)用程序。
傳統(tǒng)的客戶流失預(yù)警解決方案直接采用數(shù)據(jù)挖掘技術(shù),根據(jù)客戶的呼叫模式(通常由數(shù)百個變量描述)構(gòu)建客戶檔案,然后基于某些代表性屬性預(yù)測客戶的流失概率??捎糜诮5臄?shù)據(jù)源有很多,包括使用歷史,結(jié)算,付款,客戶服務(wù),應(yīng)用程序,和信用卡資料。
社會網(wǎng)絡(luò)分析可以補充和加強傳統(tǒng)的解決方案,使運營商能更根據(jù)“早期預(yù)警”,更有效地找出潛在的流失客戶,提高保留率。例如,一個客戶的親密朋友流失,社會網(wǎng)絡(luò)分析會及時推斷出這個客戶很可能是潛在的流失目標(biāo)。而傳統(tǒng)的解決方案尋找潛在流失目標(biāo)時,需要等到這個客戶有顯著的變化(例如減少支出,預(yù)付費卡,不充電等)- 這種時候,她的流失很可能已經(jīng)無法挽回了。
(1)使用 GA 進行客戶流失預(yù)警實例分析
圖 8 至圖 10 演示了一個用 GA 進行客戶流失預(yù)警的實例。在圖 8 中,GA 源節(jié)點接收到一個如圖 6 所示的 CDR 源文件。為方便起見,我們將 GA 源節(jié)點的名字直接顯示為 CDR 源文件的名稱 Demo_CDR. GA 源節(jié)點使用 GA 算法進行群體的劃分,并計算出基于群體的各種特性值。完成對源文件的分析計算后,計算結(jié)果以數(shù)據(jù)文件的形式被保留在 Demo_GA_KPI。
圖 8. Modeler 流:用 GA 源節(jié)點生成特性數(shù)據(jù)
圖 9 展示了圖 8 中 GA 源節(jié)點對其接收到的 CDR 源文件的分析結(jié)果。圖的左側(cè)是關(guān)于群體和個體特征的簡單統(tǒng)計信息,而右圖給出了對應(yīng)特征更加詳細(xì)的統(tǒng)計描述。用戶可以據(jù)此了解群體分析的結(jié)果,從而修改相關(guān)參數(shù)以實現(xiàn)最理想的群體劃分和畫像。
圖 9. 用 GA 源節(jié)點生成的特性數(shù)據(jù)
在圖 10 中,我們將利用 GA 分析結(jié)果進行建模,用于預(yù)測每個客戶所在群體的流失風(fēng)險。我們用之前由 GA 源節(jié)點所產(chǎn)生的數(shù)據(jù)文件 Demo_GA_KPI 作為源節(jié)點。另外,我們還需要一份已流失客戶名單Demo_GA_churner。如果一個組里已流失客戶占總客戶的比例達到一定程度,我們就認(rèn)為這個群體為流失高危群體,否則為低危群體。圖 10 中左下側(cè)的模型以流失高 / 低危群體作為目標(biāo)變量,用 Demo_GA_KPI 里所包含的群體特征值,以及通過對個體特征值的處理得到的輔助群體特征為預(yù)測變量,采用 CHAID 算法進行建模。
圖 10. 流:用 GA 源節(jié)點生成特性數(shù)據(jù)和已流失客戶名單建模,量化預(yù)測各個群體的流失風(fēng)險
群體的流失風(fēng)險對于群體中個體的流失與否是一個非常重要的參考因素。另外,個體在群體里的角色,地位,等等因素也在一定程度上影響著個體的流失風(fēng)險。鑒于此,我們將所有這些因素作為預(yù)測個體流失的變量,從而得到預(yù)測個體流失的模型,如圖 10 右側(cè)的流所示。
需要注意的是,在上述建模過程中我們僅僅使用了用戶通話記錄和客戶流失記錄就可以預(yù)測群體以及個體的流失風(fēng)險。然而通常情況下,我們可以有更多的關(guān)于用戶人口統(tǒng)計學(xué)和消費行為的數(shù)據(jù),而這些數(shù)據(jù)將極大的提升客戶流失預(yù)測的精度。
(2)使用DA進行客戶流失預(yù)警實例分析
與 GA 不同,DA 源節(jié)點不僅需要一個如圖 6 所示的 CDR 源文件,還需要一個“初始擴散點”(Initial diffusing seeds) 的文件,也就是流失客戶的名單。
DA 源節(jié)點使用 DA 算法進行擴散分析,從而計算出網(wǎng)絡(luò)中個體受到初始擴散點的沖擊強度。沖擊強度的大小將直接影響著個體的流失風(fēng)險。DA 輸出的特征以數(shù)據(jù)文件的形式保存下來,并可在隨后應(yīng)用于生成圖表或建立模型。圖 12 集中展示了使用 DA 源節(jié)點產(chǎn)生的特性文件生成分析圖表的一個典型數(shù)據(jù)流。
圖 11. Modeler 流:用 DA 源節(jié)點生成的特性數(shù)據(jù)量化預(yù)測客戶流失風(fēng)險
2.病毒式營銷
病毒營銷是營銷技術(shù)的一種。它利用社交網(wǎng)絡(luò)提升品牌知名度或?qū)崿F(xiàn)其他目標(biāo)(如產(chǎn)品銷售)。具體的方式是發(fā)起人給一些用戶發(fā)出產(chǎn)品的最初信息,再依靠用戶自發(fā)的口碑宣傳,“讓大家告訴大家”,使其廣泛傳播。因為它的傳輸策略是利用快速復(fù)制的方式將信息傳向數(shù)以千計、數(shù)以百萬計的受眾,類似于自然病毒和電腦病毒,所以被經(jīng)濟學(xué)家稱為病毒營銷。
采用群體分析和擴散分析技術(shù),我們可以設(shè)計出一個更為精致的病毒性營銷策略。我們會識別出群體中的“領(lǐng)袖人物”:那些對周圍人影響力大的人,將產(chǎn)品信息發(fā)布給他們。借助這些人的影響力,產(chǎn)品的信息可以更為有效的在社交網(wǎng)絡(luò)中傳播。我們還可以通過擴散分析技術(shù)去量化評估信息傳播的效果。比如,takingtaking 推出新產(chǎn)品,我們可以做如下的工作:
1. 通過 GA 進行網(wǎng)絡(luò)分析,發(fā)現(xiàn)領(lǐng)袖人物。
2. 針對網(wǎng)絡(luò)中的領(lǐng)袖人物發(fā)布產(chǎn)品信息,促使他們支持和推薦新產(chǎn)品。
3. 選擇網(wǎng)絡(luò)中的領(lǐng)袖人物作為初始傳播種子,通過 DA 進行擴散分析,估算網(wǎng)絡(luò)中其他個體購買新產(chǎn)品的可能性。
4. 針對擴散分析預(yù)測出的最有可能購買新產(chǎn)品的客戶,營銷人員進行進一步的推銷工作,使得新產(chǎn)品市場導(dǎo)入成功率明顯改善。
總結(jié)
本文介紹了 Modeler中兩種 SNA 模塊 GA 和 DA 的算法原理 , 并講解了它們在客戶流失預(yù)警和病毒式營銷兩種典型應(yīng)用。
應(yīng)用于客戶流失預(yù)警時,GA 以海量的通話記錄為輸入,構(gòu)建出社交網(wǎng),然后將其分解為群體,計算出包括群體領(lǐng)袖在內(nèi)的一系列特征值,用于后續(xù)建模。DA 則根據(jù)海量通話記錄和流失客戶名單直接在社交網(wǎng)絡(luò)上對其他客戶所收沖擊進行分析。
GA 和 DA 可以結(jié)合起來應(yīng)用于病毒式營銷的籌劃和分析。其中 GA 用于發(fā)現(xiàn)社交網(wǎng)絡(luò)中具有強大影響力的個體,而 DA 用于評估出最有可能購買新產(chǎn)品的客戶。
值得一提的是,GA 和 DA 提供的一系列特征可以和傳統(tǒng)的特征無縫鏈接。新特征的引入有助于提高基于傳統(tǒng)特征的模型的性能。這一點在我們做過的很多試點項目中得到驗證。另外,我們也期待隨著社交網(wǎng)絡(luò)這一新興事物的發(fā)展,GA 和 DA 能夠在更多的領(lǐng)域得到應(yīng)用。
試用版下載地址:
via:華南IBM大數(shù)據(jù)支持團隊
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn