原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-07-15 09:57:03.000|閱讀 480 次
概述:一款功能豐富、使用簡(jiǎn)單的數(shù)據(jù)處理工具無(wú)疑可以帶來(lái)極大的幫助,可以為業(yè)務(wù)人員、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家節(jié)省大量的時(shí)間和精力。BigSheets就是這樣一款設(shè)計(jì)用來(lái)處理海量數(shù)據(jù)的圖形化工具。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷(xiāo)售中 >>
相關(guān)鏈接:
的魅力在于提供了廉價(jià)的分布式數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理框架,讓我們以極低的成本保存和處理海量數(shù)據(jù)。然而純開(kāi)源的Hadoop對(duì)使用者的技能仍然有較高要求:熟悉Java、Mapreduce接口才能編寫(xiě)數(shù)據(jù)處理程序;熟悉Hive sql或者Pig等才能使用各種工具語(yǔ)言編寫(xiě)數(shù)據(jù)處理邏輯。
對(duì)于大部分?jǐn)?shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來(lái)說(shuō),學(xué)習(xí)這些技能并不難,然而學(xué)習(xí)、使用這些底層的技能會(huì)消耗大量寶貴的時(shí)間,因此一款功能豐富、使用簡(jiǎn)單的數(shù)據(jù)處理工具無(wú)疑可以帶來(lái)極大的幫助,可以為業(yè)務(wù)人員、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家節(jié)省大量的時(shí)間和精力。BigSheets就是這樣一款設(shè)計(jì)用來(lái)處理海量數(shù)據(jù)的圖形化工具。
是對(duì)大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理、數(shù)據(jù)分析的電子表格工具,內(nèi)置支持多種數(shù)據(jù)源,提供數(shù)據(jù)過(guò)濾、內(nèi)容補(bǔ)全等多種實(shí)用的數(shù)據(jù)處理功能,可以合并和處理不同表格中的數(shù)據(jù),也可以通過(guò)圖表的形式對(duì)數(shù)據(jù)進(jìn)行可視化展現(xiàn),并提供了豐富的數(shù)據(jù)導(dǎo)入導(dǎo)出接口。
在用戶和之間建立了一整套數(shù)據(jù)處理框架:用戶在瀏覽器界面創(chuàng)建工作簿, 根據(jù)需要定義數(shù)據(jù)過(guò)濾、數(shù)據(jù)轉(zhuǎn)換的處理流程;BigSheets引擎將前端輸入的處理流程轉(zhuǎn)換為可執(zhí)行的作業(yè)(Pig);BigSheets在樣本數(shù)據(jù)上運(yùn)行數(shù)據(jù)處理流程,將結(jié)果展現(xiàn)給用戶進(jìn)行預(yù)覽,等待確認(rèn);用戶確認(rèn)后,BigSheets將運(yùn)算邏輯運(yùn)行在全量數(shù)據(jù)上,并得到最終的處理結(jié)果。BigSheets的架構(gòu)如下圖所示:
本示例中展示了如何使用BigSheets對(duì)海量訂單數(shù)據(jù)進(jìn)行處理,演示了基本的數(shù)據(jù)處理,包括:數(shù)據(jù)解析、過(guò)濾、排序、合并和結(jié)果處理。需要處理的訂單數(shù)據(jù)已提前上傳至HDFS目錄中。
步驟1, 登錄BigSheets界面:
提供基于瀏覽器的管理界面和用戶交互界面,除了最基本的Hadoop組件HDFS/Yarn/Mapreduce外,BigSheets還依賴BigInsightsHome和Knox服務(wù):BigInsightsHome服務(wù)提供了IBM增值組件(BigSheets/BigSQL/TextAnalytics)的統(tǒng)一訪問(wèn)界面;Knox為外部訪問(wèn)者提供了安全、統(tǒng)一的訪問(wèn)入口。
在瀏覽器地址欄輸入地址: //<管理節(jié)點(diǎn)
IP>:8443/gateway/default/BigInsightsWeb/index.html 訪問(wèn),可使用默認(rèn)用戶guest/guest-password登陸:
步驟2, 將數(shù)據(jù)導(dǎo)入HDFS,并新建工作簿(Workbook):
可以從本地文件/目錄或者HDFS文件/目錄創(chuàng)建BigSheets工作簿。BigSheets內(nèi)置了多種數(shù)據(jù)解析器,包括:基本的網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù),字符分割數(shù)據(jù),CSV格式文本數(shù)據(jù),Hive數(shù)據(jù)解析器,JSON數(shù)據(jù)解析器 和TSV數(shù)據(jù)等。下圖展現(xiàn)了從HDFS中的CSV文件中創(chuàng)建Workbook數(shù)據(jù)源:
步驟3, 在生成的工作簿副本中定義數(shù)據(jù)處理邏輯:
從HDFS文件創(chuàng)建的初始工作簿是只讀的,需要復(fù)制為新的工作簿后再增加數(shù)據(jù)處理邏輯。下圖展示了對(duì)訂單數(shù)據(jù)按照時(shí)間條件進(jìn)行過(guò)濾,提取出需要處理的數(shù)據(jù)子集后,再根據(jù)時(shí)間條件進(jìn)行排序。
通常進(jìn)行數(shù)據(jù)分析的數(shù)據(jù)源可能來(lái)自于多個(gè)數(shù)據(jù)源,需要根據(jù)實(shí)際情況對(duì)數(shù)據(jù)進(jìn)行處理然后合并,下圖中展示了將不同數(shù)據(jù)源的多余數(shù)據(jù)列刪除,再通過(guò)Union操作將多個(gè)數(shù)據(jù)源的訂單數(shù)據(jù)進(jìn)行合并。
提供了大量現(xiàn)成的處理工具,包括:
Filter:過(guò)濾不滿足條件的數(shù)據(jù),如用戶名為空等;
Function: 添加數(shù)據(jù)處理函數(shù)(內(nèi)置96種函數(shù)),如對(duì)輸入值進(jìn)行求和;
Load: 從其他工作簿中導(dǎo)入數(shù)據(jù),如合并不同表格中的數(shù)據(jù);
Jion: 關(guān)聯(lián)多個(gè)表格中的數(shù)據(jù),類(lèi)似于SQL語(yǔ)句中的Join;
Group: 數(shù)據(jù)分組:對(duì)數(shù)據(jù)進(jìn)行分組并對(duì)每組數(shù)據(jù)進(jìn)行相應(yīng)的運(yùn)算;
Union: 數(shù)據(jù)合并,將多個(gè)表格中的數(shù)據(jù)合并為一個(gè);
Intersection: 數(shù)據(jù)交集,按指定列獲取兩個(gè)或多個(gè)表格中的重合數(shù)據(jù),要求數(shù)據(jù)模式相同;
Complement: 數(shù)據(jù)取余,按指定列對(duì)數(shù)據(jù)進(jìn)行取余,要求數(shù)據(jù)模式相同;
Limit: 限制數(shù)據(jù)中處理行數(shù),按照Top(N)等順序?qū)μ幚淼臄?shù)據(jù)量進(jìn)行處理;
Distinct: 除去表格中的重復(fù)值,每組重復(fù)的至只保留一個(gè);
Copy: 從其他電子表中復(fù)制數(shù)據(jù);
Formula: 添加數(shù)據(jù)處理公式。
定義好數(shù)據(jù)處理流程之后,可以從管理界面通過(guò)數(shù)據(jù)流圖的方式,查看數(shù)據(jù)處理過(guò)程,如下圖所示:
步驟4, 對(duì)全量數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,并保存結(jié)果:
在編輯數(shù)據(jù)處理過(guò)程中,在中看到的顯示結(jié)果,都是對(duì)數(shù)據(jù)集里的前2000行數(shù)據(jù)進(jìn)行模擬處理后,顯示最前面的50行數(shù)據(jù)。確認(rèn)數(shù)據(jù)處理邏輯正確之后,點(diǎn)擊“Run”按鈕運(yùn)行全量數(shù)據(jù)的處理。
BigSheets會(huì)在后臺(tái)通過(guò)Pig啟動(dòng)MapReduce作業(yè),并在前臺(tái)通過(guò)進(jìn)度條顯示進(jìn)度。待任務(wù)完成之后,便可以使用數(shù)據(jù)處理結(jié)果了。
常見(jiàn)的三種使用場(chǎng)景如下:在BigSheets中使用數(shù)據(jù),包括通過(guò)電子表格查看和畫(huà)圖等;為數(shù)據(jù)集創(chuàng)建BigSQL/HIVE數(shù)據(jù)表,再通過(guò)SQL/HIVE SQL訪問(wèn)數(shù)據(jù);將電子表格的數(shù)據(jù)導(dǎo)出到HDFS,供外部使用。下圖展現(xiàn)了如何在BigSheets中導(dǎo)出文件和創(chuàng)建數(shù)據(jù)表:
還可以根據(jù)需要直接畫(huà)圖,通過(guò)可視化圖表的方式來(lái)展現(xiàn)數(shù)據(jù)。BigSheets支持各種常見(jiàn)的圖表,包括餅圖、柱狀圖、折線圖、地理圖等,下圖展現(xiàn)了按照區(qū)域顯示銷(xiāo)售額的餅圖:
大數(shù)據(jù)分析中處理的數(shù)據(jù)量少則TB大到PB,數(shù)據(jù)處理是花費(fèi)數(shù)據(jù)分析團(tuán)隊(duì)最多時(shí)間和精力的工作。BigSheets的數(shù)據(jù)處理能力,可以有效減少數(shù)據(jù)處理過(guò)程的開(kāi)發(fā)和維護(hù)時(shí)間,是大數(shù)據(jù)分析團(tuán)隊(duì)不可多得的數(shù)據(jù)處理工具之一。
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@ke049m.cn