原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2017-04-20 11:59:24.000|閱讀 238 次
概述:說到可視化,就不得不說一下大數(shù)據(jù),畢竟可視化是解決大數(shù)據(jù)的一種高效的手段,而如今人人都在談?wù)摯髷?shù)據(jù),大數(shù)據(jù) ≠ 有數(shù)據(jù) ≠ 數(shù)據(jù)量大, 離譜的是,如今就連賣早點的覺得自己能統(tǒng)計每天賣出的種類,都敢說自己是搞大數(shù)據(jù)。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
說到可視化,就不得不說一下,畢竟可視化是解決大數(shù)據(jù)的一種高效的手段,而如今人人都在談?wù)摚髷?shù)據(jù) ≠ 有數(shù)據(jù) ≠ 數(shù)據(jù)量大, 離譜的是,如今就連賣早點的覺得自己能統(tǒng)計每天賣出的種類,都敢說自己是搞大數(shù)據(jù)。
時間推移到 2009 年,“大數(shù)據(jù)” 開始才成為互聯(lián)網(wǎng)技術(shù)行業(yè)中的熱門詞匯。對“大數(shù)據(jù)”進(jìn)行收集和分析的設(shè)想,起初來自于世界著名的管理咨詢公司麥肯錫公司;麥肯錫公司看到了各種網(wǎng)絡(luò)平臺記錄的個人海量信息具備潛在的商業(yè)價值,于是投入大量人力物力進(jìn)行調(diào)研,在 2011 年 6 月發(fā)布了關(guān)于“大數(shù)據(jù)”的報告,該報告對“大數(shù)據(jù)”的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行了詳盡的分析。麥肯錫的報告得到了金融界的高度重視,而后逐漸受到了各行各業(yè)關(guān)注。
數(shù)據(jù)可視化的目的其實就是直觀地展現(xiàn)數(shù)據(jù),例如讓花費數(shù)小時甚至更久才能歸納的數(shù)據(jù)量,轉(zhuǎn)化成一眼就能讀懂的指標(biāo);通過加減乘除、各類公式權(quán)衡計算得到的兩組數(shù)據(jù)差異,在圖中顏色敏感、長短大小即能形成對比;數(shù)據(jù)可視化是一個溝通復(fù)雜信息的強大武器。通過可視化信息,我們的大腦能夠更好地抓取和保存有效信息,增加信息的印象。但如果數(shù)據(jù)可視化做的較弱,反而會帶來負(fù)面效果;錯誤的表達(dá)往往會損害數(shù)據(jù)的傳播,完全曲解和誤導(dǎo)用戶,所以更需要我們多維的展現(xiàn)數(shù)據(jù),就不僅僅是單一層面。
我們可以想一想,在大數(shù)據(jù)沒有出現(xiàn)之前,已經(jīng)有很多對數(shù)據(jù)加以可視化的經(jīng)典應(yīng)用,比如股市里的 K 線了,其試圖以可視化的目的來發(fā)現(xiàn)某些規(guī)律,信息可以用多種方法來進(jìn)行可視化,每種可視化的方法都有著不同的著重點,特別是在大數(shù)據(jù)時代,當(dāng)你打算處理數(shù)據(jù)時。首先要明確并理解的一點是:你打算通過數(shù)據(jù)向你的用戶講述怎樣的故事,數(shù)據(jù)可視化之后又在表達(dá)著什么?
通過這些數(shù)據(jù),能為你后續(xù)的工作做哪一些指導(dǎo)性工作,是否能幫觀者正確的抓住重點,了解行業(yè)動態(tài)?了解這一點之后,你便能選擇合理的數(shù)據(jù)可視化方法,高效傳達(dá)數(shù)據(jù)。
當(dāng)我們能夠充分理解數(shù)據(jù),并能夠輕易向他人解釋數(shù)據(jù)時,數(shù)據(jù)才有所價值;我們的讀者可以通過可視化互動或其他數(shù)據(jù)使用方式來探尋一個故事的背后發(fā)生了什么,因此,數(shù)據(jù)可視化至關(guān)重要。
數(shù)據(jù)可視化,先要理解數(shù)據(jù),再去掌握可視化的方法,這樣才能實現(xiàn)高效的數(shù)據(jù)可視化,下面是常見的數(shù)據(jù)類型,在設(shè)計時,你可能會遇到以下集中數(shù)據(jù)類型:
可視化的意義是幫助人更好的分析數(shù)據(jù),也就是說他是一種高效的手段,并不是數(shù)據(jù)分析的必要條件;如果我們采用了可視化方案,意味著機(jī)器并不能精確的分析。當(dāng)然,也要明確可視化不能直接帶來結(jié)果,它需要人來介入來分析結(jié)論。
在大數(shù)據(jù)時代,可視化圖表工具不可能“單獨作戰(zhàn)”,而我們都知道大數(shù)據(jù)的價值在于數(shù)據(jù)挖掘,一般數(shù)據(jù)可視化都是和數(shù)據(jù)分析功能組合,數(shù)據(jù)分析又需要數(shù)據(jù)接入整合、數(shù)據(jù)處理、ETL等數(shù)據(jù)功能,發(fā)展成為一站式的大數(shù)據(jù)分析平臺。
R 經(jīng)常被稱為是“統(tǒng)計人員為統(tǒng)計人員開發(fā)的一種語言”。如果你需要深奧的統(tǒng)計模型用于計算,可能會在 CRAN 上找到它――你知道,CRAN 叫綜合R檔案網(wǎng)絡(luò)(Comprehensive R Archive Network)并非無緣無故。說到用于分析和標(biāo)繪,沒有什么比得過 ggplot2。而如果你想利用比你機(jī)器提供的功能還強大的功能,那可以使用 SparkR 綁定,在 R 上運行 Spark。
Scala 是最輕松的語言,因為大家都欣賞其類型系統(tǒng)。Scala在JVM上運行,基本上成功地結(jié)合了函數(shù)范式和面向?qū)ο蠓妒剑壳八诮鹑诮绾托枰幚砗A繑?shù)據(jù)的公司企業(yè)中取得了巨大進(jìn)展,常常采用一種大規(guī)模分布式方式來處理(比如Twitter和LinkedIn)。它還是驅(qū)動Spark和Kafka的一種語言。
Python 在學(xué)術(shù)界當(dāng)中一直很流行,尤其是在自然語言處理(NLP)等領(lǐng)域。因而,如果你有一個需要 NLP 處理的項目,就會面臨數(shù)量多得讓人眼花繚亂的選擇,包括經(jīng)典的 NTLK、使用 GenSim 的主題建模,或者超快、準(zhǔn)確的 spaCy。同樣,說到神經(jīng)網(wǎng)絡(luò),Python 同樣游刃有余,有 Theano 和 Tensorflow;隨后還有面向機(jī)器學(xué)習(xí)的 scikit-learn,以及面向數(shù)據(jù)分析的 NumPy 和 Pandas。
Java 可能很適合你的大數(shù)據(jù)項目。想一想 Hadoop MapReduce,它用 Java 編寫。HDFS 呢?也用 Java 來編寫。連 Storm、Kafka 和 Spark 都可以在 JVM 上運行(使用 Clojure 和 Scala),這意味著 Java 是這些項目中的“一等公民”。另外還有像 Google Cloud Dataflow(現(xiàn)在是 Apache Beam)這些新技術(shù),直到最近它們還只支持 Java。
我將可視化圖表分為以下幾類:
每個可視化圖表的類型以一個合理圖表的呈現(xiàn)的形式來舉例說明,(該部分總結(jié)自 Antv)。
比較類顯示值與值之間的不同和相似之處。 使用圖形的長度、寬度、位置、面積、角度和顏色來比較數(shù)值的大小, 通常用于展示不同分類間的數(shù)值對比,不同時間點的數(shù)據(jù)對比。
柱狀圖有別于直方圖,柱狀圖無法顯示數(shù)據(jù)在一個區(qū)間內(nèi)的連續(xù)變化趨勢。柱狀圖描述的是分類數(shù)據(jù),回答的是每一個分類中“有多少?”這個問題。 需要注意的是,當(dāng)柱狀圖顯示的分類很多時會導(dǎo)致分類名層疊等顯示問題。
分布類顯示頻率,數(shù)據(jù)分散在一個區(qū)間或分組。 使用圖形的位置、大小、顏色的漸變程度來表現(xiàn)數(shù)據(jù)的分布, 通常用于展示連續(xù)數(shù)據(jù)上數(shù)值的分布情況。
散點圖也叫 X-Y 圖,它將所有的數(shù)據(jù)以點的形式展現(xiàn)在直角坐標(biāo)系上,以顯示變量之間的相互影響程度,點的位置由變量的數(shù)值決定。
通過觀察散點圖上數(shù)據(jù)點的分布情況,我們可以推斷出變量間的相關(guān)性。如果變量之間不存在相互關(guān)系,那么在散點圖上就會表現(xiàn)為隨機(jī)分布的離散的點,如果存在某種相關(guān)性,那么大部分的數(shù)據(jù)點就會相對密集并以某種趨勢呈現(xiàn)。數(shù)據(jù)的相關(guān)關(guān)系主要分為:正相關(guān)(兩個變量值同時增長)、負(fù)相關(guān)(一個變量值增加另一個變量值下降)、不相關(guān)、線性相關(guān)、指數(shù)相關(guān)等,表現(xiàn)在散點圖上的大致分布如下圖所示。那些離點集群較遠(yuǎn)的點我們稱為離群點或者異常點。
流程類顯示流程流轉(zhuǎn)和流程流量。 一般流程都會呈現(xiàn)出多個環(huán)節(jié),每個環(huán)節(jié)之間會有相應(yīng)的流量關(guān)系,這類圖形可以很好的表示這些關(guān)系。
漏斗圖適用于業(yè)務(wù)流程比較規(guī)范、周期長、環(huán)節(jié)多的單流程單向分析,通過漏斗各環(huán)節(jié)業(yè)務(wù)數(shù)據(jù)的比較能夠直觀地發(fā)現(xiàn)和說明問題所在的環(huán)節(jié),進(jìn)而做出決策。漏斗圖用梯形面積表示某個環(huán)節(jié)業(yè)務(wù)量與上一個環(huán)節(jié)之間的差異。漏斗圖從上到下,有邏輯上的順序關(guān)系,表現(xiàn)了隨著業(yè)務(wù)流程的推進(jìn)業(yè)務(wù)目標(biāo)完成的情況。
漏斗圖總是開始于一個100%的數(shù)量,結(jié)束于一個較小的數(shù)量。在開始和結(jié)束之間由N個流程環(huán)節(jié)組成。每個環(huán)節(jié)用一個梯形來表示,梯形的上底寬度表示當(dāng)前環(huán)節(jié)的輸入情況,梯形的下底寬度表示當(dāng)前環(huán)節(jié)的輸出情況,上底與下底之間的差值形象的表現(xiàn)了在當(dāng)前環(huán)節(jié)業(yè)務(wù)量的減小量,當(dāng)前梯形邊的斜率表現(xiàn)了當(dāng)前環(huán)節(jié)的減小率。 通過給不同的環(huán)節(jié)標(biāo)以不同的顏色,可以幫助用戶更好的區(qū)分各個環(huán)節(jié)之間的差異。漏斗圖的所有環(huán)節(jié)的流量都應(yīng)該使用同一個度量。
占比類顯示同一維度上占比關(guān)系。
餅圖廣泛得應(yīng)用在各個領(lǐng)域,用于表示不同分類的占比情況,通過弧度大小來對比各種分類。餅圖通過將一個圓餅按照分類的占比劃分成多個區(qū)塊,整個圓餅代表數(shù)據(jù)的總量,每個區(qū)塊(圓弧)表示該分類占總體的比例大小,所有區(qū)塊(圓弧)的加和等于 100%。
區(qū)間類顯示同一維度上值的上限和下限之間的差異。 使用圖形的大小和位置表示數(shù)值的上限和下限,通常用于表示數(shù)據(jù)在某一個分類(時間點)上的最大值和最小值。
儀表盤(Gauge)是一種擬物化的圖表,刻度表示度量,指針表示維度,指針角度表示數(shù)值。儀表盤圖表就像汽車的速度表一樣,有一個圓形的表盤及相應(yīng)的刻度,有一個指針指向當(dāng)前數(shù)值。目前很多的管理報表或報告上都是用這種圖表,以直觀的表現(xiàn)出某個指標(biāo)的進(jìn)度或?qū)嶋H情況。
儀表盤的好處在于它能跟人們的常識結(jié)合,使大家馬上能理解看什么、怎么看。擬物化的方式使圖標(biāo)變得更友好更人性化,正確使用可以提升用戶體驗。
關(guān)聯(lián)類顯示數(shù)據(jù)之間相互關(guān)系。 使用圖形的嵌套和位置表示數(shù)據(jù)之間的關(guān)系,通常用于表示數(shù)據(jù)之間的前后順序、父子關(guān)系以及相關(guān)性。
矩形樹圖由馬里蘭大學(xué)教授 Ben Shneiderman 于上個世紀(jì)90年代提出,起初是為了找到一種有效了解磁盤空間使用情況的方法。 矩形樹圖適合展現(xiàn)具有層級關(guān)系的數(shù)據(jù),能夠直觀體現(xiàn)同級之間的比較。一個Tree狀結(jié)構(gòu)轉(zhuǎn)化為平面空間矩形的狀態(tài),就像一張地圖,指引我們發(fā)現(xiàn)探索數(shù)據(jù)背后的故事。
趨勢類分析數(shù)據(jù)的變化趨勢。 使用圖形的位置表現(xiàn)出數(shù)據(jù)在連續(xù)區(qū)域上的分布,通常展示數(shù)據(jù)在連續(xù)區(qū)域上的大小變化的規(guī)律。
折線圖用于顯示數(shù)據(jù)在一個連續(xù)的時間間隔或者時間跨度上的變化,它的特點是反映事物隨時間或有序類別而變化的趨勢。
時間類顯示以時間為特定維度的數(shù)據(jù)。 使用圖形的位置表現(xiàn)出數(shù)據(jù)在時間上的分布,通常用于表現(xiàn)數(shù)據(jù)在時間維度上的趨勢和變化。
面積圖又叫區(qū)域圖。 它是在折線圖的基礎(chǔ)之上形成的, 它將折線圖中折線與自變量坐標(biāo)軸之間的區(qū)域使用顏色或者紋理填充,這樣一個填充區(qū)域我們叫做面積,顏色的填充可以更好的突出趨勢信息,需要注意的是顏色要帶有一定的透明度,透明度可以很好的幫助使用者觀察不同序列之間的重疊關(guān)系,沒有透明度的面積會導(dǎo)致不同序列之間相互遮蓋減少可以被觀察到的信息。
地圖類顯示地理區(qū)域上的數(shù)據(jù)。 使用地圖作為背景,通過圖形的位置來表現(xiàn)數(shù)據(jù)的地理位置, 通常來展示數(shù)據(jù)在不同地理區(qū)域上的分布情況。
帶氣泡的地圖,其實就是氣泡圖和地圖的結(jié)合,我們以地圖為背景,在上面繪制氣泡。我們將圓(這里我們叫它氣泡)展示在一個指定的地理區(qū)域內(nèi),氣泡的面積代表了這個數(shù)據(jù)的大小。
合格的數(shù)據(jù)可視化是有新聞價值的。也就是說,它要能幫助目標(biāo)觀眾更好地理解數(shù)據(jù)。有些數(shù)據(jù)可視化,只讓我們看到酷炫狂拽的圖形,或者密密麻麻的數(shù)據(jù)。這些就是過于看重藝術(shù)性和科學(xué)性,而忽略根本目的了。用信息研究的理論來說,數(shù)據(jù)看上去過于混亂和密集,用戶就會不由自主地「切斷數(shù)據(jù)的傳輸」。
人類對于顏色感知的方式通常包括三個問題:是什么顏色?深淺如何?明暗如何?在HSV色彩空間中,H 指色相 (Hue),S 指飽和度(Saturation),V 指明度(Value),在 HSL 色彩空間中,L 表示亮度(Lightness)。它們比 RGB 色彩空間更加直觀且符合人類對顏色的語言描述。在 1979 年的 ACM SIGGRAPH(美國計算機(jī)協(xié)會計算機(jī)圖形學(xué)專業(yè)組)年度會議上,計算機(jī)圖形學(xué)標(biāo)準(zhǔn)委員會推薦將HSL色彩空間用于顏色設(shè)計。
人群中存在一部分人具有視覺缺陷,包括色盲、色弱等。為了幫助他們識別圖表,可能需要采取一些特殊方法。
一個好的可視化工程師,必定也是一個好的 UX(用戶體驗),所以不光要以易讀性為目標(biāo)努力,用戶們也要問問自己:這份可視化是給我看的嗎?我看的方式是否正確?
在數(shù)據(jù)可視化的工程中,你在分析中所采取的具體步驟會隨著數(shù)據(jù)集和項目的不同而不同,但在探索數(shù)據(jù)可視化和數(shù)據(jù)挖掘時,總體而言應(yīng)考慮以下四點:
而去年我和我們廠的兩個同事聯(lián)合開發(fā)了可視化分析工具,還給業(yè)務(wù)人員舉行了一場比賽,順便在產(chǎn)品新版本發(fā)布前讓他(她)們幫我們測一下易用性,然而在比賽評比當(dāng)晚,我有幸成為了評委,可惜參賽選手們解釋自己的作品時,有的云里霧里、有的激昂慷慨,很多都沒有說到點子上,甚至沒有充分利用到各個圖表類型的優(yōu)勢,在這個滿世界談用戶體驗的時代,這場數(shù)據(jù)的“解說”顯然是糟糕的。
那么什么是優(yōu)秀的可視化作品。我一直認(rèn)為最好的用戶體驗是深入淺出,所以,優(yōu)秀的可視化作品 = 信息 + 故事 + 目標(biāo) + 視覺形式,因此,一件可視化作品是從數(shù)據(jù) -> 交互 -> 視覺 -> 開發(fā)的一個過程。
所以優(yōu)秀的數(shù)據(jù)可視化依賴優(yōu)異的設(shè)計,并非僅僅選擇正確的圖表模板那么簡單。全在于以一種更加有助于理解和引導(dǎo)的方式去表達(dá)信息,盡可能減輕用戶獲 取信息的成本。當(dāng)然并非所有的圖表制作者都精于此道。所以我們看到的圖表表達(dá)中,各種讓人啼笑皆非的錯誤都有。
定義合適的可視化圖形,可以說是最為關(guān)鍵的。一般情況來看,線柱餅等基本圖形可以完成我們大部分的需求,這也是分析人員最常用的展現(xiàn)形式;但對于大數(shù)據(jù)場景或具體業(yè)務(wù)場景下就需要更加特殊的可視化。
歸納起來一名數(shù)據(jù)可視化工程師需要具備三個方面的能力,數(shù)據(jù)分析能力、交互視覺能力、研發(fā)能力。
不管你用什么工具,別忘了你的目的是理解數(shù)據(jù),這可是數(shù)據(jù)可視化工程師和軟件工程師的最大區(qū)別。
編輯推薦:
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn