HDFS 是運(yùn)行在商業(yè)硬件上的分布式文件系統(tǒng)
標(biāo)簽:開發(fā)商: Apache
產(chǎn)品類型:控件
產(chǎn)品功能:工業(yè)數(shù)據(jù)采集軟件
平臺(tái)語言:
開源水平:不提供源碼
本產(chǎn)品的分類與介紹僅供參考,具體以商家網(wǎng)站介紹為準(zhǔn),如有疑問請(qǐng)來電 023-68661681 咨詢。
HDFS 全稱為The Hadoop Distributed File System,是運(yùn)行在通用硬件上的分布式文件系統(tǒng)。它與其它的分布式文件系統(tǒng)有許多相似之處,但也有著非常顯著的區(qū)別。作為一種支持高容錯(cuò)性,面向低成本硬件部署 的分布式文件系統(tǒng),HDFS還提供了訪問應(yīng)用程序數(shù)據(jù)的高吞吐量支持,這非常適用于包含大型數(shù)據(jù)集的應(yīng)用程序。
HDFS最初是作為Apache Nutch web搜索引擎項(xiàng)目的基礎(chǔ)結(jié)構(gòu),現(xiàn)在它是Apache Hadoop的子項(xiàng)目。
聲明:本產(chǎn)品中文介紹為慧都網(wǎng)版權(quán)所有,未經(jīng)慧都公司書面許可,嚴(yán)禁拷貝、轉(zhuǎn)載!
* 關(guān)于本產(chǎn)品的分類與介紹僅供參考,精準(zhǔn)產(chǎn)品資料以官網(wǎng)介紹為準(zhǔn),如需購買請(qǐng)先行測(cè)試。
硬件故障是一種常態(tài),而不是偶然。整個(gè)HDFS系統(tǒng)由數(shù)百或數(shù)千個(gè)存儲(chǔ)著文件數(shù)據(jù)片斷的服務(wù)器組成。實(shí)際上它里面有非常巨大的組成部分,每一個(gè)組成部分都很可能出現(xiàn)故障,這就意味著HDFS里的常有一些部件是失效的,因此,故障檢測(cè)和自動(dòng)快速恢復(fù)是HDFS的一個(gè)很核心的設(shè)計(jì)目標(biāo)。
運(yùn)行在HDFS之上的應(yīng)用程序需要通過數(shù)據(jù)流的方式訪問它們的數(shù)據(jù)集,它們不是運(yùn)行在普通文件系統(tǒng)之上的普通程序。HDFS被設(shè)計(jì)成適合批量處理的,而不是用戶交互式的。設(shè)計(jì)重點(diǎn)在于數(shù)據(jù)吞吐量,而不是數(shù)據(jù)訪問的反應(yīng)時(shí)間,POSIX的很多硬性需求對(duì)于HDFS應(yīng)用都是非必須的,去掉POSIX一小部分關(guān)鍵語義可以獲得更好的數(shù)據(jù)吞吐率。
運(yùn)行在HDFS之上的程序有很大量的數(shù)據(jù)集。典型的HDFS文件大小是GB到TB的級(jí)別。所以,HDFS被調(diào)整成支持大文件。它應(yīng)該提供很高的聚合數(shù)據(jù)帶寬,一個(gè)集群中支持?jǐn)?shù)百個(gè)節(jié)點(diǎn),一個(gè)集群中還應(yīng)該支持千萬級(jí)別的文件。
大部分的HDFS程序?qū)ξ募僮餍枰氖且淮螌懚啻巫x取的操作模式。一個(gè)文件一旦創(chuàng)建、寫入、關(guān)閉之后就不需要修改了。這個(gè)假定簡單化了數(shù)據(jù)一致的問題和并使高吞吐量的數(shù)據(jù)訪問變得可能。一個(gè)Map-Reduce程序或者網(wǎng)絡(luò)爬蟲程序都可以完美地適合這個(gè)模型。
在靠近計(jì)算數(shù)據(jù)所存儲(chǔ)的位置來進(jìn)行計(jì)算是最理想的狀態(tài),尤其是在數(shù)據(jù)集特別巨大的時(shí)候。這樣消除了網(wǎng)絡(luò)的擁堵,提高了系統(tǒng)的整體吞吐量。一個(gè)假定就是遷移計(jì)算到離數(shù)據(jù)更近的位置比將數(shù)據(jù)移動(dòng)到程序運(yùn)行更近的位置要更好。HDFS提供了接口,來讓程序?qū)⒆约阂苿?dòng)到離數(shù)據(jù)存儲(chǔ)更近的位置。
HDFS被設(shè)計(jì)成可以簡便地實(shí)現(xiàn)平臺(tái)間的遷移,這將推動(dòng)需要大數(shù)據(jù)集的應(yīng)用更廣泛地采用HDFS作為平臺(tái)。
更新時(shí)間:2016-01-22 14:24:23.000 | 錄入時(shí)間:2016-01-22 14:03:32.000 | 責(zé)任編輯:陳俊吉