原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-07-26 09:33:31.000|閱讀 445 次
概述: 作為企業(yè)級(jí)大數(shù)據(jù)平臺(tái),各廠商在集成開(kāi)源技術(shù)的同時(shí),也會(huì)在其基礎(chǔ)之上發(fā)展各種針對(duì)性的技術(shù),滿足企業(yè)各方面的需求。下面我們就簡(jiǎn)要給大家介紹IBM在BigInsights大數(shù)據(jù)平臺(tái)中,針對(duì)企業(yè)的備份恢復(fù)、多租戶等需求所進(jìn)行的一系列擴(kuò)展。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
作為企業(yè)級(jí)大數(shù)據(jù)平臺(tái),各廠商在集成開(kāi)源技術(shù)的同時(shí),也會(huì)在其基礎(chǔ)之上發(fā)展各種針對(duì)性的技術(shù),滿足企業(yè)各方面的需求。下面我們就簡(jiǎn)要給大家介紹IBM在大數(shù)據(jù)平臺(tái)中,針對(duì)企業(yè)的備份恢復(fù)、多租戶等需求所進(jìn)行的一系列擴(kuò)展。
說(shuō)到文件系統(tǒng)的擴(kuò)展,肯定很對(duì)人會(huì)有這樣的疑問(wèn):“什么?Hadoop的基礎(chǔ)之一就是HDFS,企業(yè)級(jí)大數(shù)據(jù)平臺(tái)會(huì)把這個(gè)基礎(chǔ)也改了嗎?”。自然HDFS作為Hadoop中的基礎(chǔ)模塊,其重要性不言自明。然而作為開(kāi)源的組件,在企業(yè)級(jí)應(yīng)用中很難達(dá)到企業(yè)及應(yīng)用的要求,例如數(shù)據(jù)備份和數(shù)據(jù)加密,直到Hadoop2.6出現(xiàn)之后,HDFS中才開(kāi)始正式加入數(shù)據(jù)加密模塊并且還在不斷完善中。其實(shí),現(xiàn)行各種不同的文件系統(tǒng)都具有各自的特色,適用于不同的企業(yè)應(yīng)用場(chǎng)景,如ClusterFS就是Mac系統(tǒng)中使用的文件系統(tǒng),具有良好的數(shù)據(jù)壓縮特性。
從上表可看出,除了IBM,其他業(yè)界主流的大數(shù)據(jù)廠商也在企業(yè)級(jí)大數(shù)據(jù)產(chǎn)品中使用了擴(kuò)展自HDFS的文件系統(tǒng),如MapR擴(kuò)展文件系統(tǒng)可提供全讀寫操作等。IBM在中,在HDFS基礎(chǔ)之上集成了來(lái)自于GPFS的各項(xiàng)成熟技術(shù),使得大數(shù)據(jù)平臺(tái)能滿足更多企業(yè)級(jí)需求,其主要特點(diǎn)舉例如下:
1. Hadoop兼容:
擴(kuò)展文件系統(tǒng)由于實(shí)現(xiàn)了HDFS文件系統(tǒng)的全部接口,對(duì)于Hadoop生態(tài)圈中的所有其他組件可以實(shí)現(xiàn)完全兼容,這意味著不管是Hive還是HBASE等,所有對(duì)HDFS有依賴的組件都可以無(wú)縫運(yùn)行在BigInsights擴(kuò)展文件系統(tǒng)之上。
2. 全POSIX文件接口:
POSIX(PortableOperating System Interface)是Linux/UNIX廣泛使用的文件系統(tǒng)接口,擴(kuò)展文件系統(tǒng)在Hadoop之上完全實(shí)現(xiàn)了POSIX接口,可以比HDFS實(shí)現(xiàn)更多、更便捷的功能,如下面例子所示。
實(shí)現(xiàn)跨文件系統(tǒng)的文件拷貝,不用選擇麻煩的參數(shù),提高了操作便捷程度:
移動(dòng)文件時(shí),可以使用相對(duì)路徑,縮短了命令的長(zhǎng)度,更加簡(jiǎn)潔方便了:
還可以使用系統(tǒng)工具,使得處理文件更方便了:
3. 數(shù)據(jù)備份:
很多企業(yè)客戶,很重視數(shù)據(jù)的備份和恢復(fù)需求,而HDFS默認(rèn)的備份方式是通過(guò)dstcp將文件備份到另外一個(gè)HDFS中。這意味著很多企業(yè)客戶中現(xiàn)有的各種備份策略、備份設(shè)備沒(méi)有辦法發(fā)揮作用,在成本、管理各方面都帶來(lái)很大的挑戰(zhàn)。而擴(kuò)展之后的文件系統(tǒng),可支持各種傳統(tǒng)的備份方式,包括把數(shù)據(jù)備份到磁帶設(shè)備等:
Hadoop 2.X之后的版本中,Yarn的使用為Hadoop的資源管理、任務(wù)調(diào)度能力帶來(lái)飛速提升。然而開(kāi)源社區(qū)中自帶的幾種調(diào)度方式FIFO、Fair(公平調(diào)度)、Capacity(資源能力調(diào)度)有較大局限使用場(chǎng)景有限,如都不支持基于時(shí)間控制的調(diào)度策略,F(xiàn)IFO和Capacity不支持任務(wù)搶占等等。
中擴(kuò)展的調(diào)度器在這方面也是進(jìn)行了有效的擴(kuò)展。
我們來(lái)假設(shè)這樣一個(gè)應(yīng)用場(chǎng)景:
某企業(yè)經(jīng)過(guò)巨大的人力和物力的投入,搭建了一套大數(shù)據(jù)平臺(tái),并希望同一個(gè)平臺(tái)可以同時(shí)承載多個(gè)部門的服務(wù),實(shí)現(xiàn)多工作負(fù)載并可以根據(jù)需要靈活調(diào)整資源配置(即多租戶需求)。對(duì)平臺(tái)提出的要求是:在正常工作日時(shí)間段,平臺(tái)優(yōu)先保證業(yè)務(wù)部門的在線數(shù)據(jù)分析任務(wù),而在非工作日時(shí)間段,例如周末、節(jié)假日等,可以全力支持后臺(tái)的批處理任務(wù),以保證在指定時(shí)間窗口內(nèi)完成批量任務(wù);然而在有特殊業(yè)務(wù)要求時(shí),如針對(duì)審計(jì)進(jìn)行數(shù)據(jù)核查等,還需要?jiǎng)討B(tài)調(diào)整批任務(wù)的資源占用參數(shù),優(yōu)先完成數(shù)據(jù)核查任務(wù)。
這樣的場(chǎng)景使用開(kāi)源HDFS中的默認(rèn)調(diào)度器是很難實(shí)現(xiàn)的,原因是HDFS不支持動(dòng)態(tài)調(diào)整資源調(diào)度策略,任何資源調(diào)度策略的更改都必須后臺(tái)修改參數(shù)然后重啟,這會(huì)帶來(lái)業(yè)務(wù)中斷并且無(wú)法通過(guò)自動(dòng)調(diào)整的方式完成。而B(niǎo)igInsights擴(kuò)展調(diào)度器可以很好的支持這樣的應(yīng)用場(chǎng)景,能滿足多用戶、混合負(fù)載時(shí)資源調(diào)度的動(dòng)態(tài)調(diào)整。
本文中我們簡(jiǎn)單對(duì)BigInsights企業(yè)級(jí)管理模塊的功能進(jìn)行簡(jiǎn)要介紹,如果您想了解針對(duì)企業(yè)級(jí)應(yīng)用場(chǎng)景BigInsights還做了哪些細(xì)致的擴(kuò)展,請(qǐng)?jiān)L問(wèn)下面鏈接:
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@ke049m.cn