国产ts视频在线,国产高清自拍视频,日韩精品视频免费

使用文本挖掘技術(shù)分析Twitter用戶對電影的評價(jià)

轉(zhuǎn)帖|使用教程|編輯：我只采一朵|2017-05-23 14:34:42.000|閱讀 272 次

概述：在社交媒體日益發(fā)達(dá)的現(xiàn)在，人們時(shí)常會在Twitter，F(xiàn)acebook等網(wǎng)站上發(fā)表自己的意見和建議。社交媒體已然是衡量電影觀眾情緒的潛在工具了。

引言

使用一些建模分析手段來評價(jià)電影的成功已經(jīng)屢見不鮮，這類預(yù)測模型常常使用注入電影制作成本，類型，主演，出品方等結(jié)構(gòu)化數(shù)據(jù)作為輸入。然而，在社交媒體日益發(fā)達(dá)的現(xiàn)在，人們時(shí)常會在Twitter，F(xiàn)acebook等網(wǎng)站上發(fā)表自己的意見和建議。社交媒體已然是衡量電影觀眾情緒的潛在工具了。

本文將以2017年的寶萊塢電影“Rangoon”為例子，用R語言來分析Twitter用戶對他的情感評價(jià)。

1. 文本挖掘?qū)д?/strong>

在進(jìn)入正題之前，我們不妨問這樣一個(gè)問題：什么是文本挖掘？

簡而言之，文本挖掘就是把非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為有意義的觀點(diǎn)的過程。轉(zhuǎn)化后的觀點(diǎn)可以針對用戶建議，產(chǎn)品評價(jià)，情感分析和消費(fèi)者反饋等

與傳統(tǒng)方法依靠的結(jié)構(gòu)化數(shù)據(jù)不同，文本挖掘的對象是結(jié)構(gòu)松散有諸多語法和拼寫錯(cuò)誤的文本，而且還時(shí)常包含多種語言。這使得整個(gè)挖掘過程變得更有趣且富有挑戰(zhàn)性。

在文本挖掘領(lǐng)域有兩大常用方法：情感分析和詞包挖掘（Bag of Words，a.k.a bow model）。

情感分析關(guān)心單詞的結(jié)構(gòu)和語法，詞包挖掘則是把文本（句子，微博，文檔）視作單詞的集合（包）。

2. 分析目標(biāo)

每個(gè)分析項(xiàng)目都應(yīng)該有個(gè)明確的目標(biāo)，本文的目標(biāo)就是對Twitter數(shù)據(jù)使用文本挖掘技術(shù)來獲取用戶對電影“Rangoon”的情感評價(jià)。

3. 數(shù)據(jù)

分析的第一步就是要獲取數(shù)據(jù)，如今獲取Twitter數(shù)據(jù)只需要通過網(wǎng)頁爬蟲或者API就可以實(shí)現(xiàn)。本文則使用R語言中的“twitterR”包收集了10000條關(guān)于“Rangoon”的推文

我使用了“twitterR”采集了10000條關(guān)于“Rangoon”的推特和回復(fù)，這部電影與2017年2月24日上映，我采集了2月25日的推特并把它們存在csv文件里，再用“readr”包讀入R里。從推特采集數(shù)據(jù)的過程超出了本文的范疇，暫且不表。

# 加載數(shù)據(jù) library(readr) rangoon = read_csv("rangoontweets.csv")

4. 用“tm”包進(jìn)行分析

“tm”包是在R內(nèi)進(jìn)行文本挖掘的框架，它會基于廣泛使用的“Bag of Words”原則進(jìn)行分析。這一方法非常簡單易用，它會統(tǒng)計(jì)文本中每個(gè)詞的頻率，然后把詞頻作為變量。這一看似簡單的方法其實(shí)非常有效，并且現(xiàn)在已經(jīng)成了自然語言處理領(lǐng)域的基準(zhǔn)。

主要步驟如下：

Step 1: 加載相應(yīng)的包并且提出數(shù)據(jù)

# 加載包 library('stringr') library('readr') library('wordcloud') library('tm') library('SnowballC') library('RWeka') library('RSentiment') library(DT) # 提出相關(guān)數(shù)據(jù) r1 = as.character(rangoon$text)

Step 2: 數(shù)據(jù)預(yù)處理

對文本進(jìn)行預(yù)處理可以顯著提升Bag of Words方法（其他方法也是）的效果。

預(yù)處理的第一步是構(gòu)建語料庫，簡單地說就是一本詞典。語料庫一旦建立好了，預(yù)處理也就完成了大半。

首先，讓我們移除標(biāo)點(diǎn)，基礎(chǔ)方法就是把不是數(shù)字和字母的對象移除。當(dāng)然，有時(shí)標(biāo)點(diǎn)符號也很有用，像web地址中標(biāo)點(diǎn)就有提示符的作用。所以，移除標(biāo)點(diǎn)要具體問題具體分析，本文中則不需要它們。

之后，我們把單詞都變成小寫防止統(tǒng)計(jì)錯(cuò)誤。

預(yù)處理的另一個(gè)任務(wù)是把沒有用的詞組去掉，很多詞被頻繁使用但只在句子里才有意義。這些詞被稱為“stop words”（停詞）。舉個(gè)例子，像the，is這些詞就是停詞，它們對之后的情感分析無甚作用，所以就把它們?nèi)サ魜斫o數(shù)據(jù)瘦身。

另一個(gè)重要環(huán)節(jié)是stemming（詞干提取），他能把不同結(jié)尾的詞轉(zhuǎn)換成原始形式。比如，love，loved，loving這些詞之間的差異很小，可以用一個(gè)詞干也就是lov來代表它們，這個(gè)降維過程就叫詞干提取。

一旦我們把數(shù)據(jù)預(yù)處理好了，我們就可以開始統(tǒng)計(jì)詞頻來為未來建模做準(zhǔn)備了。tm包提供了一個(gè)叫“DocumentTermMatrix”的來完成相應(yīng)功能，它會返回一個(gè)矩陣，矩陣的每一行代表文檔（本例中是一條推特），列就代表了推特中的單詞。具體的數(shù)據(jù)就代表了每條對特相應(yīng)單詞的出現(xiàn)頻率。

我們生成這個(gè)舉證并把它命名為“dtm_up”。

# 數(shù)據(jù)預(yù)處理 set.seed(100) sample = sample(r1, (length(r1))) corpus = Corpus(VectorSource(list(sample))) corpus = tm_map(corpus, removePunctuation) corpus = tm_map(corpus, content_transformer(tolower)) corpus = tm_map(corpus, removeNumbers) corpus = tm_map(corpus, stripWhitespace) corpus = tm_map(corpus, removeWords, stopwords('english')) corpus = tm_map(corpus, stemDocument) dtm_up = DocumentTermMatrix(VCorpus(VectorSource(corpus[[1]]$content))) freq_up <- colSums(as.matrix(dtm_up))

Step 3: 計(jì)量情感

現(xiàn)在是時(shí)候來進(jìn)行情感打分了。R中的“calculate_sentiment”函數(shù)可以完成這一工作，它會讀入文本并計(jì)量每個(gè)句子的情感得分。這一函數(shù)會把文本作為輸入，輸出一個(gè)包含每個(gè)句子情感得分的向量。

讓我們來實(shí)現(xiàn)這一功能。

# 計(jì)量情感 sentiments_up = calculate_sentiment(names(freq_up)) sentiments_up = cbind(sentiments_up, as.data.frame(freq_up)) sent_pos_up = sentiments_up[sentiments_up$sentiment == 'Positive',] sent_neg_up = sentiments_up[sentiments_up$sentiment == 'Negative',] cat("We have far lower negative Sentiments: ",sum(sent_neg_up$freq_up)," than positive: ",sum(sent_pos_up$freq_up))

我們發(fā)現(xiàn)褒義詞和貶義詞的比例是5780/3238 = 1.8，乍一看電影還是受到觀眾的好評的

讓我們分別深入挖掘好拼和差評來獲取更深的理解。

– 褒義詞

下方的表格展示了被分類為好拼的文本的詞頻，我們通過datatable函數(shù)實(shí)現(xiàn)這個(gè)功能。

“love”，“best”和“brilliant”是好評中的三大高頻詞。

DT::datatable(sent_pos_up)

textsentimentfreq_upaccomplishaccomplishPositive1adaptadaptPositive2appealappealPositive4astonishastonishPositive3awardawardPositive85aweawePositive11awestruckawestruckPositive5benefitbenefitPositive1bestbestPositive580betterbetterPositive186

我們可以把這個(gè)結(jié)果用詞云進(jìn)行可視化，詞云中單詞個(gè)頭越大代表它出現(xiàn)頻率越高。

– 褒義詞詞云

layout(matrix(c(1, 2), nrow=2), heights=c(1, 4)) par(mar=rep(0, 4)) plot.new() set.seed(100) wordcloud(sent_pos_up$text,sent_pos_up$freq,min.freq=10,colors=brewer.pal(6,"Dark2"))

詞云也顯示了love是好評中頻率最高的單詞。

– 貶義詞

重復(fù)之前的步驟，貶義詞中“miss”，“dismal”和“hell”是top3，讓我們也用詞云來可視化。

DT::datatable(sent_neg_up)

textsentimentfreq_upabruptabruptNegative3addictaddictNegative1annoyannoyNegative3arduousarduousNegative1attackattackNegative2awkwardawkwardNegative2badbadNegative64badbadNegative64baselessbaselessNegative1bashbashNegative5beatbeatNegative22

貶義詞詞云

plot.new() set.seed(100) wordcloud(sent_neg_up$text,sent_neg_up$freq, min.freq=10,colors=brewer.pal(6, "Dark2")

注意：在文本分析時(shí)，最好對分析的對象有一定了解。比如“bloody”或者“hell”這樣的貶義詞可能是從電影的插曲“bloody hell”中被統(tǒng)計(jì)出來的。相似的，“miss”也可能來自于Ragoon中的女性人物“Miss Julia”，這樣把它作為貶義詞處理可能就不合適了。

考慮到這些異象，我們要對分析結(jié)果做進(jìn)一步處理。之前統(tǒng)計(jì)的褒貶詞的比例是1.8，現(xiàn)在3238個(gè)貶義詞中的144個(gè)“hell”先不考慮，這樣這個(gè)比例會上升到1.87。

這是得到觀眾對Rangoon平價(jià)的第一步，看起來好評居多，我們需要用更細(xì)致的方法省查這一結(jié)論。

5. 用 “syuzhet” 包進(jìn)行分析

“syuzhet”包會使用3個(gè)情感詞典來進(jìn)行情感分析。與上述方法不同，它能分析更廣范圍的情感。當(dāng)然，第一步還是要對數(shù)據(jù)進(jìn)行預(yù)處理，包括對html鏈接進(jìn)行清洗。

# 方法2 - 使用syuzhet包 text = as.character(rangoon$text) ## 去掉回復(fù) some_txt<-gsub("(RT|via)((?:\\b\\w*@\\w+)+)","",text) ## 清洗html鏈接 some_txt<-gsub("http[^[:blank:]]+","",some_txt) ## 去掉人名 some_txt<-gsub("@\\w+","",some_txt) ## 去掉標(biāo)點(diǎn) some_txt<-gsub("[[:punct:]]"," ",some_txt) ## 去掉數(shù)字 some_txt<-gsub("[^[:alnum:]]"," ",some_txt)

在預(yù)處理之后，可以用“get_nrc_sentiment”函數(shù)來提取情感。這個(gè)函數(shù)會調(diào)用NRC情感詞典來計(jì)量不同的情感的程度和相關(guān)比例。

這個(gè)函數(shù)會輸出一個(gè)數(shù)據(jù)框，每一行代表原始文件的一個(gè)句子，每一列代表一種情感類型和正負(fù)情感配比。一共有十列，代表“anger”, “anticipation”, “disgust”, “fear”, “joy”, “sadness”, “surprise”, “trust”, “negative”, “positive”。

讓我們把這個(gè)結(jié)果也可視化

# 可視化 library(ggplot2) library(syuzhet) mysentiment<-get_nrc_sentiment((some_txt))

# 得到每種情感的得分 mysentiment.positive =sum(mysentiment$positive) mysentiment.anger =sum(mysentiment$anger) mysentiment.anticipation =sum(mysentiment$anticipation) mysentiment.disgust =sum(mysentiment$disgust) mysentiment.fear =sum(mysentiment$fear) mysentiment.joy =sum(mysentiment$joy) mysentiment.sadness =sum(mysentiment$sadness) mysentiment.surprise =sum(mysentiment$surprise) mysentiment.trust =sum(mysentiment$trust) mysentiment.negative =sum(mysentiment$negative)

# 繪制柱狀圖 yAxis <- c(mysentiment.positive, + mysentiment.anger, + mysentiment.anticipation, + mysentiment.disgust, + mysentiment.fear, + mysentiment.joy, + mysentiment.sadness, + mysentiment.surprise, + mysentiment.trust, + mysentiment.negative)

xAxis <- c("Positive","Anger","Anticipation","Disgust","Fear","Joy","Sadness","Surprise","Trust","Negative") colors <- c("green","red","blue","orange","red","green","orange","blue","green","red") yRange <- range(0,yAxis) + 1000 barplot(yAxis, names.arg = xAxis, xlab = "Emotional valence", ylab = "Score", main = "Twitter sentiment for Movie Rangoon 2017", sub = "Feb 2017", col = colors, border = "black", ylim = yRange, xpd = F, axisnames = T, cex.axis = 0.8, cex.sub = 0.8, col.sub = "blue") colSums(mysentiment)

看看這個(gè)柱狀圖和每種情感的總和，積極情感（“positive”，“joy”，“trust”）比消極情感（“negative”，“disgust”，“anger”）得分高很多。這或許暗示了觀眾對電影評價(jià)比較正面。

6. 結(jié)論

兩個(gè)方法都表名電影“Rangoon”得到了觀眾的肯定。

7. 對電影表現(xiàn)構(gòu)建一個(gè)預(yù)測模型

本文專注于對電影“Rangoon”相關(guān)推特進(jìn)行情感分析，然而對于預(yù)測票房而言這可能不是很有作用。眾所周知，很多電影叫好不叫座，一些腦殘片卻能賺得盆滿缽滿。

這可咋整？

解決方案就是分析同類型電影的PT/NT比（好評差評比例）轉(zhuǎn)換為票房的歷史數(shù)據(jù)，并構(gòu)建一個(gè)擬合與預(yù)測兼優(yōu)的模型。這個(gè)模型可以用來預(yù)測電影是否會獲得商業(yè)上的成功，在Rangoon這個(gè)例子里，1.87會被作為輸入的值。

由于這個(gè)問題超過了本文的范疇，我們不會展開討論。但需要注意的是文本分析也能用來預(yù)測電影票房。

結(jié)語

本文使用電影相關(guān)推特來進(jìn)行情感分析，需要注意的是采集的推特的發(fā)表時(shí)間可能很重要。在電影上映前后的推特可能在情感上有很大分歧，不同的預(yù)處理方式也會影響到結(jié)果。

本文的目的不在分析電影Rangoon的好壞，而是提出了情感分析的具體步驟。在這一領(lǐng)域還有很多先進(jìn)的方法，本文介紹的兩個(gè)方法是最簡單直觀的。

轉(zhuǎn)載自：36大數(shù)據(jù)

標(biāo)簽：

本站文章除注明轉(zhuǎn)載外，均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載，但請務(wù)必注明出處、不得修改原文相關(guān)鏈接，如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn

上一篇：parasoft Jtest 使用教程：防止特定應(yīng)用錯(cuò)誤的再次發(fā)生下一篇：干貨！24頁P(yáng)PT讀懂基礎(chǔ)機(jī)器學(xué)習(xí)算法

為你推薦

推薦視頻

推薦活動(dòng)

推薦產(chǎn)品

推薦文章

慧都慧問

Cogent DataHub使用教程：如何通過 DMZ 連接 MQTT

滲透測試工具Burp Suite加入3個(gè)革新AI 擴(kuò)展

BarTender使用教程視頻：激活軟件

國產(chǎn)化文檔處理組件Spire.Doc視頻教程：Word文檔添加重復(fù)水印

國產(chǎn)化文檔處理組件Spire.Doc視頻教程：為Word文檔添加頁眉頁腳

國產(chǎn)化文檔處理組件Spire.Doc視頻教程：改變Word文檔的字體

DevExpress Universal Subscription
優(yōu)秀的界面控件開發(fā)包，幫助企業(yè)構(gòu)建卓越應(yīng)用！

# 非開源 # # 控件 #

DevExpress DXperience Subscription
高性價(jià)比的企業(yè)級.NET用戶界面套包，助力企業(yè)創(chuàng)建卓越應(yīng)用！

# 非開源 # # 控件 #

DevExpress WinForms Subscription
為Windows Forms平臺創(chuàng)建具有影響力的業(yè)務(wù)解決方案，高性價(jià)比WinForms界面控件套包。

# 非開源 # # 控件 #

Evget OMES生產(chǎn)管理系統(tǒng)
慧都Evget OMES生產(chǎn)管理系統(tǒng)，全程追溯質(zhì)量信息，打造數(shù)字化工廠

# 非開源 # # 軟件 #

Cogent DataHub V11如何與早期版本進(jìn)行兼容？
注意： Cogent DataHub 軟件 v11 包含一些新功能，您的目標(biāo)操作系統(tǒng)可能不支持這些功能。

# 使用教程 # 2025-10-15 15:58:46.200 11次

DevExpress WinForms中文教程：Data Grid - 數(shù)據(jù)排序基礎(chǔ)知識
本教程主要為大家介紹如何使用DevExpress WinForms數(shù)據(jù)網(wǎng)格控件進(jìn)行數(shù)據(jù)排序的基礎(chǔ)知識，歡迎下載最新版組件體驗(yàn)！

# 使用教程 # 2025-10-15 14:28:34.300 15次

自動(dòng)化測試工具Parasoft如何發(fā)現(xiàn)資源泄露問題
在使用Parasoft C/C++test執(zhí)行BugDetective數(shù)據(jù)流分析時(shí)，可能會遇到用戶自定義的資源API，那在這種情況下，若要判斷是否存在資源問題，如資源泄露等，則需要手動(dòng)配置測試配置。

# 使用教程 # 2025-10-14 11:46:02.607 25次

TestComplete實(shí)現(xiàn)SaaS系統(tǒng)自動(dòng)化測試的8個(gè)技巧
大型SaaS系統(tǒng)的自動(dòng)化測試常常受制于界面變化快、結(jié)構(gòu)復(fù)雜、加載機(jī)制多變等因素。從元素識別到腳本管理，SmartBear TestComplete幫助Salesforce建了可靠的自動(dòng)化測試體系。

# 使用教程 # 2025-10-13 16:35:30.080 24次

半島外圍網(wǎng)上直營相關(guān)的文章 MORE

Cogent DataHub V11如何與早期版本進(jìn)行兼容？

DevExpress WinForms中文教程：Data Grid - 數(shù)據(jù)排序基礎(chǔ)知識

自動(dòng)化測試工具Parasoft如何發(fā)現(xiàn)資源泄露問題

TestComplete實(shí)現(xiàn)SaaS系統(tǒng)自動(dòng)化測試的8個(gè)技巧

BarTender：支持所有條形碼與符號體系的智能標(biāo)簽解決方案

超碰91资源站-超碰97豆花-超碰97人妻-超碰97人人干-超碰97人人香蕉-超碰97天天操-超碰97在线资源站-超碰97资源站共享-超碰97资源站总站-超碰aa在线91-超碰av操-超碰爱爱

半岛外围网上直营

在線采購

中文文檔庫

試用/Demo下載

開發(fā)社群

使用文本挖掘技術(shù)分析Twitter用戶對電影的評價(jià)

引言

目錄

1. 文本挖掘?qū)д?/strong>

2. 分析目標(biāo)

3. 數(shù)據(jù)

4. 用“tm”包進(jìn)行分析

5. 用 “syuzhet” 包進(jìn)行分析

6. 結(jié)論

7. 對電影表現(xiàn)構(gòu)建一個(gè)預(yù)測模型

結(jié)語

用科技創(chuàng)就卓越

Create excellence with technology