轉(zhuǎn)帖|行業(yè)資訊|編輯:龔雪|2016-01-14 10:56:10.000|閱讀 474 次
概述:實時大數(shù)據(jù)處理已經(jīng)逐步邁入主流,而Storm與Spark項目的支持無疑在其中起到了顯著的推動作用。那么問題來了:實時大數(shù)據(jù)處理到底該選誰?
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
目前在開源市場上已經(jīng)有了多款實時大數(shù)據(jù)的處理工具,最值得關(guān)注的還屬Storm與Spark。這兩套方案都歸屬于Apache基金會,都能為用戶提供良好的實時處理能力。兩款工具在功能方面有一部分交集,但也各自擁有著不同的特性與市場定位。
Storm : 實時流處理
Storm是一款極具可擴展能力和容錯能力的開源分布計算系統(tǒng),高度專注于流處理領(lǐng)域。在設(shè)計思路中充分考慮到大規(guī)??蓴U展能力,利用“故障快速、自動重啟”方案為處理提供容錯性支持。
Storm在事件處理與增量計算方面表現(xiàn)尤為突出,能夠以實時方式根據(jù)不斷變化的參數(shù)對數(shù)據(jù)流進行處理。它可以同時提供原語以實現(xiàn)通用性分布RPC,在理論上也能夠被用于任何分布式計算任務(wù),但其最為根本的優(yōu)勢仍然表現(xiàn)在事件流處理方面。
Spark:通用分步式計算平臺
Spark是一套快速出色、可擴展能力驚人且極具靈活性的開源分布式計算平臺,與Hadoop以及Mesos相兼容并且支持多川計算模式,其中包括流、以圖為核心的操作、SQL訪問外加分布式機器學習等。
該項目最大的亮點在于其支持多處理模式以及支持庫。Spark的實際擴展記錄令人滿意,而且與Storm一樣堪稱構(gòu)建實時分析與大數(shù)據(jù)處理系統(tǒng)的卓越平臺。另外,它擁有能夠與存儲在多種不同數(shù)據(jù)源內(nèi)的數(shù)據(jù)實現(xiàn)協(xié)作的適配器–包括HDFS文件、Cassandra、HBase以及S3。
終極PK,如何做選擇?
看需求!
選擇之前,弄清楚你的主要需求??梢詫商?平臺進行一番詳盡分析,利用這兩套平臺各自建立一個小規(guī)模概念驗證項目,而后運行自己的基準工作負載,借此在最終選擇前親身體驗二者的工作負載處理能力是否與預期相一致。
如果你的需求主要集中在流處理與復雜事件的處理層面,而且需要從零開始為項目構(gòu)建一套目標明確的集群設(shè)施,那么建議選擇Storm,特別是在現(xiàn)有Storm流機制能夠確切滿足集成需求的情況下。這一結(jié)論并不屬于硬性要求或者強制規(guī)則,但上述因素的存在確實更適合由Storm出面打理。
如果你打算使用現(xiàn)有Hadoop或者Mesos集群,而且/或者既定流程需要涉及與圖形處理、SQL訪問或者批量處理相關(guān)的其它實質(zhì)性要求,那么Spark則值得加以優(yōu)先考慮。
當然,這二者也是能共存的。根據(jù)各位工作負載、基礎(chǔ)設(shè)施以及具體要求的不同,大家可能還會找出一種將Storm與Spark加以結(jié)合的理想方案。其它同樣可能發(fā)揮作用的工具還包括Kafka、Hadoop以及Flume等等,而這正是開源機制的最大亮點所在。
無論選擇哪一套方案,這些工具的存在都切實表明,實時大數(shù)據(jù)處理市場的游戲規(guī)則已經(jīng)發(fā)生了變化。曾經(jīng)只能為少數(shù)精英所掌握的強大選項如今已經(jīng)進入尋常百姓家,或者說,至少適用于多數(shù)中等規(guī)?;蛘叽笮推髽I(yè)。不要浪費資源,充分享受由此帶來的便利吧。
轉(zhuǎn)載自
關(guān)于更多大數(shù)據(jù)相關(guān)資訊>>>
2016革新之年,雙節(jié)同慶驚喜不斷!優(yōu)惠詳情點擊查看>>
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn