翻譯|大數(shù)據(jù)新聞|編輯:況魚(yú)杰|2020-11-30 11:05:31.900|閱讀 214 次
概述:如何在商品服務(wù)器和存儲(chǔ)上運(yùn)行要求苛刻的分析應(yīng)用程序和/或1000多個(gè)節(jié)點(diǎn)Hadoop工作負(fù)載。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷(xiāo)售中 >>
相關(guān)鏈接:
如果您已經(jīng)使用Hadoop集群一段時(shí)間了。那么您肯定已經(jīng)有50到100個(gè)節(jié)點(diǎn)在穩(wěn)定運(yùn)行,并且已經(jīng)掌握了一些分析框架--無(wú)論是Spark還是Flink還是老式的Map-Reduce。這個(gè)時(shí)期的您已經(jīng)能夠從集群中展示出真正的商業(yè)價(jià)值,已經(jīng)準(zhǔn)備好用更多的數(shù)據(jù)和更多的應(yīng)用和用戶(hù)將其提升到一個(gè)全新的水平。那么怎么提高水平呢?首先集群的硬件可能不是一個(gè)大問(wèn)題,因?yàn)槟隽?a target="_blank">Hadoop,所以您會(huì)選擇典型的商品服務(wù)器機(jī)架,每個(gè)有12或24個(gè)硬盤(pán)驅(qū)動(dòng)器。但是這個(gè)時(shí)候?yàn)槭裁床豢紤]另外不同的硬件呢?
因?yàn)楫?dāng)你的集群規(guī)模接近許多數(shù)百個(gè)節(jié)點(diǎn)時(shí),它肯定會(huì)成為你的數(shù)據(jù)中心中最大的集群,甚至可能成為你計(jì)算基礎(chǔ)設(shè)施的大部分。在這種規(guī)模下,由于資源不平衡造成的效率低下,會(huì)造成大量時(shí)間、金錢(qián)、電力、熱量和空間的浪費(fèi)。
即使您認(rèn)為您的CPU和存儲(chǔ)今天很平衡,但是,隨著應(yīng)用和框架的發(fā)展,數(shù)據(jù)變得更大,CPU變得更快,它們將不會(huì)平衡。第二年買(mǎi)的CPU會(huì)比去年快一倍;磁盤(pán)仍然很慢,但容量巨大。只是無(wú)法預(yù)測(cè)CPU和存儲(chǔ)之間的正確平衡,所以你需要的是靈活性。
這種靈活性是通過(guò)將磁盤(pán)與CPU節(jié)點(diǎn)進(jìn)行分解/分離來(lái)實(shí)現(xiàn)的。但要小心傳統(tǒng)的NAS和SAN解決方案--它們與 "商品 "硬件相差甚遠(yuǎn),會(huì)超出您的預(yù)算,同時(shí)又難以達(dá)到Hadoop需要的性能水平。尋找具有機(jī)架規(guī)模架構(gòu)的解決方案,這些解決方案可以最大限度地提高您的靈活性,同時(shí)保持Hadoop所需的高性能和低成本。整個(gè)大數(shù)據(jù)運(yùn)動(dòng)是由非常廉價(jià)的存儲(chǔ)所促成的,所以不要被鎖定在傳統(tǒng)的 "鍍金 "存儲(chǔ)解決方案中。
一旦存儲(chǔ)從CPU節(jié)點(diǎn)中移除,您就有了更廣泛的CPU/內(nèi)存組合選擇。考慮一下2013/4年的 "經(jīng)典 "Hadoop節(jié)點(diǎn)--12個(gè)CPU核心,約64GB內(nèi)存。您可以輕松買(mǎi)得起36到40個(gè)核心節(jié)點(diǎn),512GB的內(nèi)存(而且核心和內(nèi)存都快了很多)。即使您的傳統(tǒng)Map/Reduce應(yīng)用在較小的CPU上受到I/O限制,轉(zhuǎn)移到更大、更強(qiáng)壯的CPU節(jié)點(diǎn)上也可以消除大量的通信和序列化開(kāi)銷(xiāo)。Spark和其他較新的框架可以極大地受益于CPU中更大的內(nèi)存量,因?yàn)閹讉€(gè)大的緩存比相同數(shù)量的緩存分布在更多節(jié)點(diǎn)上更有效率。
而且不要吝嗇網(wǎng)絡(luò),任何低于10Gbps的數(shù)據(jù)對(duì)于現(xiàn)在的服務(wù)器來(lái)說(shuō)就像在吸管里呼吸一樣,如果您已經(jīng)把磁盤(pán)分開(kāi)了,那么這些流量也在網(wǎng)絡(luò)上。即使您無(wú)法控制網(wǎng)絡(luò)主干帶寬,在 "機(jī)架 "上增加帶寬也能給Hadoop帶來(lái)很大的幫助。
因此,在進(jìn)入大規(guī)模Hadoop項(xiàng)目之前,請(qǐng)先仔細(xì)考慮一下,并確保您的硬件計(jì)劃考慮到當(dāng)今的技術(shù),而不僅僅是人們?cè)谇皫啄?取得的成功。
慧都數(shù)倉(cāng)建模大師能夠快速、高效地幫助客戶(hù)搭建數(shù)據(jù)倉(cāng)庫(kù)供企業(yè)決策分析之用。滿(mǎn)足數(shù)據(jù)需求效率、數(shù)據(jù)質(zhì)量、擴(kuò)展性、面向主題等特點(diǎn)。基于企業(yè)的業(yè)務(wù)目標(biāo),進(jìn)行數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模,最后進(jìn)行評(píng)價(jià)和部署,真正實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)決策。更多詳情,請(qǐng)。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@ke049m.cn