GetInsight組件技術及功能(三):分布式NoSQL數(shù)據(jù)庫和文件管理系統(tǒng)
GetInsight是慧都自主研發(fā)、應用最靈活的大數(shù)據(jù)平臺。能夠幫助您隨時找到您想要的數(shù)據(jù),使數(shù)據(jù)得到安全、穩(wěn)定和高效的管理與應用。GetInsight是企業(yè)大數(shù)據(jù)解決方案的重要組成部分,除了提供完整的大數(shù)據(jù)功能組件,我們還提供組件自定義搭配,為企業(yè)選擇滿足方案需要的大數(shù)據(jù)功能組件,使您的大數(shù)據(jù)解決方案成本降到最低,從而高品質(zhì)的解決您的大數(shù)據(jù)需求問題。
了解什么是GetInsight,請點擊這里查看GetInsight的基礎介紹>>
本文主要跟大家介紹GetInsight的分布式NoSQL數(shù)據(jù)庫和分布式文件管理系統(tǒng)。
分布式NoSQL數(shù)據(jù)庫
分布式NoSQL數(shù)據(jù)庫是一個分布式的、面向列的非關系型數(shù)據(jù)庫。它彌補了數(shù)據(jù)倉庫系統(tǒng)的不足,提供近實時的響應速度,支持實時查詢。它對表的管理是面向列的,支持列獨立檢索,適合海量數(shù)據(jù)的隨機訪問。它的表每行都有一個可排序的主鍵和任意多的列,列可以根據(jù)需要動態(tài)的增加,同一張表中不同的行可以有截然不同的列,并且其中空列(null)并不占用存儲空間。它自動生成時間戳,每個單元中的數(shù)據(jù)可以有多個版本,默認情況下版本號是單元格插入時的時間戳。最后,與其他非關系型數(shù)據(jù)庫不同的是,它提供一個中間件,幫助開發(fā)工程師能夠像使用JDBC訪問關系型數(shù)據(jù)庫一樣訪問它。
GetInsight分布式NoSQL數(shù)據(jù)庫的特性
分布式數(shù)據(jù)庫具有如下特性:
- 每行都有一個可排序的主鍵和任意多的列,列可以根據(jù)需要動態(tài)的增加,同一張表中不同的行可以有截然不同的列。
- 空列(null)并不占用存儲空間,表可以設計的非常稀疏。
- 面向列(族)的存儲和權限控制,列(族)獨立檢索,適合海量數(shù)據(jù)的隨機訪問。
- 每個單元中的數(shù)據(jù)可以有多個版本,默認情況下版本號自動分配,是單元格插入時的時間戳。
- 數(shù)據(jù)類型只有字符串,沒有其他類型。
- 支持Update以及Delete操作。
- 近實時的響應速度,支持實時查詢。
- 自動生成時間戳。
GetInsight分布式NoSQL數(shù)據(jù)庫的應用場景 - 爬蟲后端數(shù)據(jù)庫
搜索是一個定位用戶所關心的信息的行為:例如,搜索一本書的頁碼,其中含有用戶想讀的主題;或者網(wǎng)頁,其中含有用戶想找的信息。搜索含有特定詞語的文檔,需要查找索引,該索引提供了特定詞語和包含該詞語的所有文檔的映射。為了能夠搜索,首先必須建立索引。Google和其他搜索引擎正是這么做的。他們的文檔庫是整個互聯(lián)網(wǎng);搜索的特定詞語就是搜索框里敲入的任何東西。
分布式數(shù)據(jù)庫,為這種文檔庫提供存儲,它提供行級訪問,所以爬蟲可以插入和更新單個文檔。搜索索引可以通過MapReduce計算高效生成。如果結果是單個文檔,可以直接從數(shù)據(jù)庫取出。
總體來說,數(shù)據(jù)流程分為下面幾個步驟:
- 爬蟲持續(xù)不斷地抓取新頁面,這些頁面每頁一行地存儲到數(shù)據(jù)庫里。
- 數(shù)據(jù)庫根據(jù)主鍵自動生成索引,為網(wǎng)絡搜索應用做準備。
- 用戶發(fā)起網(wǎng)絡搜索請求。
- 網(wǎng)絡搜索應用查詢建立好的索引,或者直接從數(shù)據(jù)庫直接得到信息。
- 搜索結果提交給用戶。
分布式文件管理系統(tǒng)
分布式文件管理系統(tǒng),主要用于存儲和管理文件。它能存存儲大容量數(shù)據(jù)集,且集成硬盤能提供更快的硬盤讀取時間。它的構建思路是:一次寫入,多次讀取;更多用于批量處理,重點是數(shù)據(jù)訪問的高吞吐量,且不需要配置昂貴可靠的高端硬件產(chǎn)品。它提供了高可靠性的HA模式,在任意節(jié)點失效時提供完美的監(jiān)控機制以及完整的備份恢復機制,即當部分節(jié)點故障時,它能在不被用戶察覺的情況下正常運行。
慧都工業(yè)大數(shù)據(jù)分析方案即將精益生產(chǎn)理論體系進行了完美的融合和應用,并對大數(shù)據(jù)總體架構進行了更細致明確的解讀,提供自主研發(fā)的大數(shù)據(jù)平臺,實現(xiàn)ETL、數(shù)據(jù)管理及存儲、數(shù)據(jù)建模。如下圖所示:
關于慧都大數(shù)據(jù)分析平臺
慧都大數(shù)據(jù)分析平臺「GetInsight®」升級發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預測、設備分析及預測等大數(shù)據(jù)模型的構建,助力企業(yè)由傳統(tǒng)運營模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級,抓住數(shù)據(jù)經(jīng)濟的發(fā)展勢頭,提供管理效能,精準布局未來。了解更多,請聯(lián)系。
慧都大數(shù)據(jù)專業(yè)團隊為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺搭建,免費業(yè)務咨詢,定制開發(fā)等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團隊,為您提供免費大數(shù)據(jù)相關業(yè)務咨詢!