翻譯|大數(shù)據(jù)新聞|編輯:況魚杰|2021-02-25 10:49:25.990|閱讀 372 次
概述:數(shù)字世界中生成的數(shù)據(jù)量每分鐘都在增加,大量數(shù)據(jù)被稱為“大數(shù)據(jù)”。 我們可以將數(shù)據(jù)分類為結(jié)構(gòu)化,非結(jié)構(gòu)化或半結(jié)構(gòu)化。 結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)相對(duì)易于存儲(chǔ),處理和分析。 但是,非結(jié)構(gòu)化數(shù)據(jù)并非如此。 根據(jù)定義,它沒有預(yù)定義的結(jié)構(gòu),例如圖像,音頻文件和視頻記錄。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
數(shù)字世界中生成的數(shù)據(jù)量每分鐘都在增加,大量數(shù)據(jù)被稱為“大數(shù)據(jù)”。 我們可以將數(shù)據(jù)分類為結(jié)構(gòu)化,非結(jié)構(gòu)化或半結(jié)構(gòu)化。 結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)相對(duì)易于存儲(chǔ),處理和分析。 但是,非結(jié)構(gòu)化數(shù)據(jù)并非如此。 根據(jù)定義,它沒有預(yù)定義的結(jié)構(gòu),例如圖像,音頻文件和視頻記錄。
本文討論了處理各種維度的非結(jié)構(gòu)化數(shù)據(jù)時(shí)面臨的挑戰(zhàn)。 作為示例,您將找到一系列幫助您入門的工具:數(shù)據(jù)庫工具,自動(dòng)化測(cè)試工具,數(shù)據(jù)分析工具等。 了解這些工具將幫助您探索實(shí)體直接或間接與支持非結(jié)構(gòu)化數(shù)據(jù)的技術(shù)配合使用的不同維度。
使用非結(jié)構(gòu)化數(shù)據(jù)時(shí)面臨著多個(gè)挑戰(zhàn),即:
這種類型的數(shù)據(jù)是原始的和無組織的
很難確定數(shù)據(jù)是否相關(guān)
查找高質(zhì)量數(shù)據(jù)非常棘手
搜索信息和索引是一個(gè)挑戰(zhàn)
需要更多處理
在涉及人工智能,機(jī)器智能等的現(xiàn)代技術(shù)出現(xiàn)之前,處理非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)分析非常棘手。 現(xiàn)在可以使用大數(shù)據(jù)工具來支持,提取,處理,存儲(chǔ)數(shù)據(jù)并從中獲取業(yè)務(wù)價(jià)值。
此外,本文還將提供項(xiàng)目可以使用的工具的示例。
這是一個(gè)令人困惑的事實(shí):您是否知道互聯(lián)網(wǎng)上生成的80%的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)?
不幸的是,事實(shí)并非如此,事實(shí)是仍然有大量數(shù)據(jù)尚未用于商業(yè)價(jià)值! 令人擔(dān)憂的是,企業(yè)沒有從業(yè)務(wù)中獲取利益,而沒有從數(shù)據(jù)中提取解決方案。
但是,好消息是,技術(shù)正在以足夠快的速度發(fā)展,以幫助將非結(jié)構(gòu)化數(shù)據(jù)解碼為現(xiàn)實(shí)!
那么,非結(jié)構(gòu)化數(shù)據(jù)是什么樣的呢?這里有些例子:
豐富的媒體:例如,由圖像,音頻和視頻數(shù)據(jù)格式組成的天氣數(shù)據(jù),空間分析數(shù)據(jù)等
物聯(lián)網(wǎng)數(shù)據(jù):例如,傳感器數(shù)據(jù),股票行情信息等
社交媒體生成的數(shù)據(jù):例如,涉及用戶活動(dòng),情緒分析等的數(shù)據(jù)
讓我們以社交媒體帖子為例。您認(rèn)為我們?nèi)绾螐纳傻臄?shù)據(jù)中獲取價(jià)值?我們可以問一些問題:
某個(gè)特定主題上有幾條趨勢(shì)?
喜歡/不喜歡多少帖子?
這種分析很簡(jiǎn)單。但是,如果我們要分析以下方面:
對(duì)于Facebook —在評(píng)論部分,有多少人對(duì)某個(gè)熱門話題表現(xiàn)出積極的情緒?
對(duì)于Twitter-組織可以分析這些推文,以了解客戶對(duì)產(chǎn)品的滿意度。
在諸如上述的用例中,情感分析就成為了圖片。情感分析基于自然語言處理(NLP)和機(jī)器學(xué)習(xí)算法進(jìn)行。它們有助于確定社交媒體帖子背后的情感,組織可以據(jù)此得出營銷策略,確定客戶滿意度等等。
因此,盡管處理這種類型的數(shù)據(jù)并非易事,但我們擁有先進(jìn)的技術(shù)來幫助您導(dǎo)航和支持您的業(yè)務(wù)決策。根據(jù)檢索到的數(shù)據(jù),組織現(xiàn)在可以提出建議,關(guān)聯(lián),查找相似性等等。
非結(jié)構(gòu)化數(shù)據(jù)不能存儲(chǔ)在傳統(tǒng)的關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫中,因?yàn)樗鼈儾慌c行列類型的數(shù)據(jù)關(guān)聯(lián)。而且,它們占用大量的存儲(chǔ)空間。但是,有些工具(如下所述)可以在多個(gè)維度上支持非結(jié)構(gòu)化數(shù)據(jù):
大數(shù)據(jù)工具:例如,Hadoop可以存儲(chǔ)和處理不斷變化的復(fù)雜非結(jié)構(gòu)化數(shù)據(jù)。
NoSQL數(shù)據(jù)庫:例如,MongoDB是基于文檔的NoSQL數(shù)據(jù)庫類型,Redis是基于鍵值的NoSQL數(shù)據(jù)庫,而Neo4j是基于圖的。
數(shù)據(jù)湖:非結(jié)構(gòu)化數(shù)據(jù)也存儲(chǔ)在數(shù)據(jù)湖中。在這里,數(shù)據(jù)被集成為其原始格式。 Google,Oracle和Teradata等公司提供數(shù)據(jù)湖存儲(chǔ)解決方案。
以下是一些流行的工具,可以對(duì)數(shù)據(jù)進(jìn)行操作:
Apache Flume可幫助將非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入,聚合和移動(dòng)到Hadoop HDFS中。例如,可以使用它檢索實(shí)時(shí)運(yùn)行的數(shù)據(jù)流。
StormStorm還支持將非結(jié)構(gòu)化數(shù)據(jù)提取到Hadoop中。這個(gè)基于事件的系統(tǒng)基于螺栓和噴嘴的概念。
Spark是將非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入Hadoop的另一種選擇。
所有這些工具都提供了高可用性,可伸縮性和安全性,這對(duì)于組織而言至關(guān)重要。
另外,以下外部平臺(tái)可與非結(jié)構(gòu)化數(shù)據(jù)無縫協(xié)作:
商業(yè)智能軟件:這些工具能夠分析,挖掘和報(bào)告,以幫助組織從非結(jié)構(gòu)化數(shù)據(jù)中得出商業(yè)決策。例如,Zoho Analytics和YellowFin是可以幫助實(shí)現(xiàn)此目的的流行工具。
數(shù)據(jù)集成工具:這些工具通過將來自多個(gè)來源的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行組合,以進(jìn)一步用于業(yè)務(wù)用例進(jìn)行分析,從而更進(jìn)一步。 SAP數(shù)據(jù)集成器,Hovo Data和Microsoft Azure是一些流行的工具。
DataOps工具:當(dāng)人員,流程和技術(shù)一起工作以在整個(gè)數(shù)據(jù)利用周期內(nèi)向組織和運(yùn)營機(jī)構(gòu)提供有用的數(shù)據(jù)時(shí),DataOps應(yīng)運(yùn)而生。例如,用于數(shù)據(jù)的IBM CloudPak幫助支持這些功能。
測(cè)試自動(dòng)化工具:許多支持自動(dòng)化測(cè)試活動(dòng)的新時(shí)代工具也具有與支持非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫的集成功能。例如,TestProject工具與Teradata數(shù)據(jù)庫,Oracle數(shù)據(jù)庫,PostgreSQL數(shù)據(jù)庫等集成在一起。
如今,大數(shù)據(jù)正以超快的速度增長(zhǎng)。在數(shù)據(jù)類型中,由于涉及的復(fù)雜性,挖掘非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值是最大的挑戰(zhàn)之一。生成的非結(jié)構(gòu)化數(shù)據(jù)構(gòu)成了絕大多數(shù)數(shù)據(jù),因此也不能忽略。非結(jié)構(gòu)化數(shù)據(jù)對(duì)于所有組織和企業(yè)都至關(guān)重要-幫助做出明智的決策并分析數(shù)據(jù)。
但是,我們現(xiàn)在很幸運(yùn),技術(shù)不斷發(fā)展,可以幫助分析和利用非結(jié)構(gòu)化數(shù)據(jù),以發(fā)揮最大潛力,幫助企業(yè)邁向數(shù)據(jù)驅(qū)動(dòng)的理想。 例如,高級(jí)分析和深度學(xué)習(xí)可以幫助識(shí)別內(nèi)容,情緒等。 因此,企業(yè)已經(jīng)開始使用他們的分析數(shù)據(jù)來幫助他們以探索,處理和利用這一寶貴資產(chǎn)的思維方式蓬勃發(fā)展。 因此,我們需要在所有可能的維度上繼續(xù)解碼非結(jié)構(gòu)化數(shù)據(jù)! 延長(zhǎng)數(shù)據(jù)生命周期對(duì)于任何組織都至關(guān)重要,因此,我們需要擁抱充分利用這些寶貴數(shù)據(jù)。
關(guān)于慧都大數(shù)據(jù)分析平臺(tái)
慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)、設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí),抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭,提供管理效能,精準(zhǔn)布局未來。了解更多,請(qǐng)。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢,我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@ke049m.cn