日本三级成人观看,亚洲乱欧美另类,人妻久久一区二

助力大數(shù)據(jù)集成，且看DataStage新玩法

原創(chuàng)|行業(yè)資訊|編輯：陳俊吉|2016-09-22 09:26:32.000|閱讀 1149 次

概述：如何將傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)進行高效的集成、管理和分析呢？如何保證數(shù)據(jù)的準確性，一致性和可靠性呢？帶著眾多疑問，我們來看看IBM所提供的DataStage大數(shù)據(jù)集成方案，一切必將豁然開朗。

# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>

相關(guān)鏈接：

一、已成為企業(yè)信息供應(yīng)鏈中的重要一環(huán)

我們對大數(shù)據(jù)的認知在前幾年還僅僅停留在概念和理論中，但轉(zhuǎn)眼間，你會發(fā)現(xiàn)身邊的如雨后春筍般拔地而起，大數(shù)據(jù)儼然成為當(dāng)今熱得不能再熱的話題和焦點。因為Hadoop及其相關(guān)開源技術(shù)的橫空出世和迅猛發(fā)展，越來越多的企業(yè)發(fā)現(xiàn)那些塵封已久的歷史數(shù)據(jù)或每天正在以指數(shù)級產(chǎn)生的交易數(shù)據(jù)、日志數(shù)據(jù)和客戶行為數(shù)據(jù)其實蘊藏著巨大的價值，猶如一座座尚未開發(fā)的金礦，誰能搶占先機，就能挖掘并實現(xiàn)巨大的商業(yè)價值。互聯(lián)網(wǎng)企業(yè)深諳此道，利用大數(shù)據(jù)分析結(jié)果進行產(chǎn)品推廣和定向營銷，大大改善了消費者的購物體驗和消費習(xí)慣，在收獲口碑的同時也賺得盆滿缽滿！與此同時，傳統(tǒng)企業(yè)也在積極轉(zhuǎn)型，紛紛將Hadoop大數(shù)據(jù)平臺納入到現(xiàn)有的IT架構(gòu)和解決方案，那么如何將傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)進行高效的集成、管理和分析呢？如何保證數(shù)據(jù)的準確性，一致性和可靠性呢？帶著眾多疑問，我們來看看IBM所提供的DataStage，一切必將豁然開朗。

二、大數(shù)據(jù)集成所面臨的挑戰(zhàn)

1.新型的數(shù)據(jù)存儲

大數(shù)據(jù)引入了新型的數(shù)據(jù)存儲，例如，Hadoop及NoSQL，這些新型的數(shù)據(jù)存儲都需要集成。
沒有好的傳統(tǒng)方法能夠有效集成這些新型數(shù)據(jù)存儲。

2.新的數(shù)據(jù)類型及格式

非結(jié)構(gòu)化數(shù)據(jù)；半結(jié)構(gòu)化數(shù)據(jù)；JSON, Avro ...
視頻、文檔、網(wǎng)絡(luò)日志 ...
如何有效處理復(fù)雜且多樣化的數(shù)據(jù)

3.更大的數(shù)據(jù)量

需要針對更大的數(shù)據(jù)量進行數(shù)據(jù)移動，轉(zhuǎn)換，清洗等等。
需要更好的可擴展性

三、大數(shù)據(jù)信息整合是Hadoop項目成敗的關(guān)鍵

大部分的Hadoop方案包括以下階段：

數(shù)據(jù)收集
數(shù)據(jù)移動
數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)清洗
數(shù)據(jù)整合
數(shù)據(jù)探查
數(shù)據(jù)分析

由于面對的是基于海量的，彼此孤立的異構(gòu)數(shù)據(jù)源和數(shù)據(jù)類型，所以大部分企業(yè)的Hadoop項目將花費80%的精力在數(shù)據(jù)整合上，而僅有20%的精力用于數(shù)據(jù)分析。可見，數(shù)據(jù)集成對Hadoop項目的成敗有多重要。

四、IBM大數(shù)據(jù)集成解決方案：InfoSphere DataStage

1. 集中、批量式處理：整合和連接、清洗轉(zhuǎn)換大數(shù)據(jù)

Hadoop大數(shù)據(jù)作為源和目標，同現(xiàn)有企業(yè)信息整合；
與現(xiàn)有整合任務(wù)具備同樣的開發(fā)界面和邏輯架構(gòu)；
將處理邏輯下壓至MapReduce，利用Hadoop平臺最小化網(wǎng)絡(luò)開銷；
通過InfoSphere Streams流處理進行實時分析流程；
驗證和清洗大數(shù)據(jù)源的數(shù)據(jù)質(zhì)量；
貫穿大數(shù)據(jù)和/或傳統(tǒng)數(shù)據(jù)流通過世系跟蹤和血緣分析；

2.面向大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的豐富接口，支持企業(yè)所有的數(shù)據(jù)源和目標

對DBMS(DB2, Netezza, Oracle, Teradata, SQL Server, GreenPlum,…)提供高性能的原生API；
提供特定的ERP連接器；
基于JDBC、ODBC連接器提供靈活支持(MySQL)；
支持簡單和復(fù)雜的文件格式 (Flat, Cobol, XML, native Excel)；
支持擴展數(shù)據(jù)源：Web Services, Cloud, Java
連接Hadoop文件系統(tǒng)(HDFS)，提供可擴展的并行讀寫
直連InfoSphere Streams，支持實時分析處理
提供對NoSQL數(shù)據(jù)源（Hive,HBase,MongoDB,Cassandra）的支持

3.最廣泛的異構(gòu)平臺支持

4.IBM大數(shù)據(jù)集成方案帶給客戶的驚喜

五、DataStage連通Hadoop的最佳實踐

在DataStage中，可通過File Connector組件或Big Data File組件來連接Hadoop平臺,從而將傳統(tǒng)RDBMS數(shù)據(jù)庫或本地文件中的數(shù)據(jù)加載到HDFS。比較而言，Big Data File組件支持IBM BigInsights，提供更佳的讀寫性能；而File Connector組件則通過WebHDFS接口或HttpFS接口訪問HDFS,不依賴于Hadoop的品牌和版本，提供更廣泛的兼容性。

FileConnector是DataStage v11.3面向Hadoop的全新組件，提供以下功能：

可用于讀/寫Hadoop文件系統(tǒng)(HDFS)
支持并行處理和線性擴展
不需要安裝其他Hadoop客戶端軟件包
支持Kerberos認證
支持SSL安全訪問協(xié)議
支持Knox gateway
支持通過WebHDFS，HttpFS方式訪問Hadoop
支持訪問本地的Hadoop節(jié)點
更全面的支持Hadoop(不依賴于其版本變更)

下面以Apache Hadoop v2.7為例，介紹通過配置File Connector將Oracle表數(shù)據(jù)寫入HDFS的方法：

1.安裝DataStage v11.3.1(參考以下鏈接)

//www-01.ibm.com/support/knowledgecenter/SSZJPZ_11.3.0/com.ibm.swg.im.iis.install.nav.doc/containers/cont_iis_information_server_installation.html?lang=en

2.配置Kerberos安全認證

將Apache Hadoop服務(wù)器上的krb5.conf文件(KDC配置信息)復(fù)制到DataStage服務(wù)器上的/etc目錄。

3.檢查Apache Hadoop的HDFS配置文件，確認已啟用WebHDFS支持