想了解數(shù)據(jù)倉庫到底是什么?看這一篇文章就夠了!
本文部分內(nèi)容選自MAB智庫百科
在大數(shù)據(jù)系統(tǒng)平臺當(dāng)中,數(shù)據(jù)存儲、數(shù)據(jù)庫、數(shù)據(jù)倉庫是非常重要的概念,共同支持大數(shù)據(jù)存儲的實際需求。在大數(shù)據(jù)處理當(dāng)中,大數(shù)據(jù)存儲這個環(huán)節(jié),數(shù)據(jù)倉庫技術(shù)起到重要的作用。今天我們來對數(shù)據(jù)倉庫做一個簡單的介紹。(大數(shù)據(jù)認知 | 一篇文章讓你讀懂大數(shù)據(jù))
什么是數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫顧名思義就是儲存數(shù)據(jù)的倉庫,也可以當(dāng)做信息的中央存儲庫。通常,數(shù)據(jù)定期從事務(wù)系統(tǒng)、關(guān)系數(shù)據(jù)庫和其他來源流入數(shù)據(jù)倉庫。業(yè)務(wù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和決策者通過商業(yè)智能 (BI) 工具、SQL 客戶端和其他分析應(yīng)用程序訪問數(shù)據(jù)。
數(shù)據(jù)和分析已然成為各大企業(yè)保持競爭力所不可或缺的部分。企業(yè)用戶依靠報告、控制面板和分析工具從其數(shù)據(jù)中獲得洞察力、監(jiān)控企業(yè)績效以及更明智地決策。數(shù)據(jù)倉庫通過高效地存儲數(shù)據(jù)以便最大限度地減少數(shù)據(jù)輸入和輸出 (I/O),并快速地同時向成千上萬的用戶提供查詢結(jié)果,為這些報告、控制面板和分析工具由數(shù)據(jù)倉庫提供支持。
數(shù)據(jù)倉庫的組成

- 數(shù)據(jù)倉庫數(shù)據(jù)庫
數(shù)據(jù)倉庫的數(shù)據(jù)庫是整個數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對數(shù)據(jù)檢索的支持。相對于操縱型數(shù)據(jù)庫來說其突出的特點是對海量數(shù)據(jù)的支持和快速的檢索技術(shù)。
- 數(shù)據(jù)抽取工具
數(shù)據(jù)抽取工具把數(shù)據(jù)從各種各樣的存儲方式中拿出來,進行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉庫內(nèi)。對各種不同數(shù)據(jù)存儲方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,應(yīng)能生成COBOL程序、MVS作業(yè)控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換都包括,刪除對決策應(yīng)用沒有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計算統(tǒng)計和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。
- 元數(shù)據(jù)
元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。可將其按用途的不同分為兩類,技術(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。
技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉庫的設(shè)計和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫是用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉庫內(nèi)對象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄,信息發(fā)布歷史記錄等。
商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢、報表;
元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個信息目錄(informationdirectory),這個目錄全面描述了數(shù)據(jù)倉庫中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉庫運行和維護的中心,數(shù)據(jù)倉庫服務(wù)器利用他來存貯和更新數(shù)據(jù),用戶通過他來了解和訪問數(shù)據(jù)。
- 訪問工具
為用戶訪問數(shù)據(jù)倉庫提供手段。有數(shù)據(jù)查詢和報表工具;應(yīng)用開發(fā)工具;經(jīng)理信息系統(tǒng)(EIS)工具;聯(lián)機分析處理(OLAP)工具;數(shù)據(jù)挖掘工具。
- 數(shù)據(jù)集市(Data Marts)
為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實施過程中往往可以從一個部門的數(shù)據(jù)集市著手,以后再用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫。需要注意的就是再實施不同的數(shù)據(jù)集市時,同一含義的字段定義一定要相容,這樣再以后實施數(shù)據(jù)倉庫時才不會造成大麻煩。
- 數(shù)據(jù)倉庫管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計和報告數(shù)據(jù)倉庫的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲管理。
- 信息發(fā)布系統(tǒng):把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點或用戶。基于Web的信息發(fā)布系統(tǒng)是對付多用戶訪問的最有效方法。
如何架構(gòu)數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫的架構(gòu)包含多個層。頂層是通過報告、分析和數(shù)據(jù)挖掘工具呈現(xiàn)結(jié)果的前端客戶端。中間層包括用于訪問和分析數(shù)據(jù)的分析引擎。架構(gòu)的底層是加載和存儲數(shù)據(jù)的數(shù)據(jù)庫服務(wù)器。數(shù)據(jù)使用兩種不同類型的方式存儲:
- 經(jīng)常訪問的數(shù)據(jù)存儲在最快的存儲裝置中(例如,SSD 驅(qū)動器)
- 不經(jīng)常訪問的數(shù)據(jù)存儲在便宜的對象存儲區(qū)中,例如 Amazon S3。數(shù)據(jù)倉庫將自動確保經(jīng)常訪問的數(shù)據(jù)被移進“快速”存儲以便優(yōu)化查詢速度。
數(shù)據(jù)倉庫如何運作?
數(shù)據(jù)倉庫可能包含多個數(shù)據(jù)庫。在每個數(shù)據(jù)庫中,數(shù)據(jù)整理進表和列中。在每個列中,您可以定義數(shù)據(jù)的說明,例如整數(shù)、數(shù)據(jù)字段或字符串。表可以在 Schema 內(nèi)整理,您可以將其視為文件夾。提取的數(shù)據(jù)將存儲在 Schema 描述的各種表中。查詢工具使用 Schema 來確定要訪問和分析哪些數(shù)據(jù)表。
慧都大數(shù)據(jù)應(yīng)用架構(gòu)及流程
使用數(shù)據(jù)倉庫有哪些優(yōu)勢?
數(shù)據(jù)倉庫的優(yōu)勢包括:
- 知情地做出決定
- 整合多個來源的數(shù)據(jù)
- 歷史數(shù)據(jù)分析
- 數(shù)據(jù)質(zhì)量高、一致且準確
- 將分析處理從事務(wù)數(shù)據(jù)庫中分離出來,從而提高兩個系統(tǒng)的性能
關(guān)于慧都大數(shù)據(jù)分析平臺
慧都大數(shù)據(jù)分析平臺「GetInsight®」升級發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測、設(shè)備分析及預(yù)測等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運營模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級,抓住數(shù)據(jù)經(jīng)濟的發(fā)展勢頭,提供管理效能,精準布局未來。了解更多,請聯(lián)系。
慧都大數(shù)據(jù)專業(yè)團隊為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺搭建,免費業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團隊,為您提供免費大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!