IBM數據質量分析方法和最佳實踐
1.信息質量與你的業務息息相關
隨著數據量日益劇增,企業決策比以往更需要具備強大的和掌控能力來協助解決關鍵問題。若要提升企業競爭優勢,必須隨時掌握企業內的信息,并透過這些“可信賴”信息獲得新的企業價值。在現實世界中,很多用戶使用數據時都難以取到可信賴信息,給業務運營和決策帶來高風險。常常讓客戶頭痛的數據質量的問題呈現多樣化、復雜化和時效化等多種因素交織、組合在一起,使得工作推進和項目實施變得相當艱難,問題主要涉及到以下方面:
根據業界權威機構(TDWI,Gartner)的調查核實,用戶存在的數據質量問題的狀況按種類分布如下:
由于信息質量問題而造成的損失,使用戶因此付出相當之大的代價:
怎樣才能解決信息質量問題呢? IBM根據在全球各行各業客戶的相關項目實施經驗,提出了要擺脫傳統的分析方法,主張組織或機構必須停止僅通過IT手段來解決數據質量問題。當今,業界中很多富有經驗的 CIO就如何有效地解決信息質量問題,找到了高效的方法,其底線如下:
- 業務部門也應該為數據質量負責,不能由IT部門獨自承擔責任;
- 數據質量是個業務問題,業務領導層需要負上識別數據質量問題的相關責任,建立數據質量最低可接受的標準和啟動促進改善數據質量的舉措;
- 提升數據質量需與重大業務問題關聯一起,如法規遵循與安全投資,以及關注更多客戶數據外的要點以獲取改善。
2.IBM解決方案
評估信息資產,首要任務是分析現有企業數據來源,以理解可用信息的結構、內容和質量。用戶查看描述數據的現有文檔可能已經過時,且需要驗證以確保數據的準確性、一致性和完整性。為此,IBM提供基于 InfoSphere Information Analyzer(以下簡稱 IA)分析軟件工具的信息質量解決方案,幫助用戶了解在給定時間點的數據內容、結構和總體質量,該解決方案提供了用于分析數據源和規則的分析方法的深入見解。
IA 對多個企業儲存庫中的源數據進行概要和分析,它包括一個業務驅動數據規則定義方法,可以進行集成數據規則分析,來評估和監控信息資產。IA 可以在一個包含 IBM 和非 IBM 信息源的異構 IT 環境中工作。它還可以在異構信息源中及跨異構信息源創建珍貴元數據,作為數據概要流程的一部分,識別新數據目標,以及支持深度分析。評估可以跨整個企業信息生態系統:各種數據庫、文件和企業應用。沒有 IA,這個流程將需要手動完成,耗時,且容易出錯。
通過IBM解決方案,實現了信息按分析功能進行組織,向您提供深入的知識和最佳實踐,用于:
數據分析,包括:
- 應用數據分析系統功能
- 在功能內應用數據分析技術
- 解釋數據分析結果
- 基于分析結果作出決策或執行操作
數據質量分析和監視,包括:
- 支持業務驅動的規則定義和組織
- 跨數據源應用規則并以一致方式進行復用
- 利用多級別規則分析來了解更廣泛的數據質量問題
- 根據已定義的基準/閥值來評估規則
- 評估并注釋數據質量結果
- 監視數據質量隨時間變化的趨勢
- 跨環境部署規則
- 運行特定、預定或命令執行選項
IA數據發現和分析工具,是基于Web的架構方式,對數據倉庫的源系統數據分析和數據倉庫的表屬性級分析,表級分析和關聯分析,并可使用規則來定義和分析數據的分布和相關性。IA工具的架構如下:
- IA通過ODBC連接源系統,相關信息存在MDR信息庫中。
- Information Server Engine按照預先設置的規則和邏輯,執行數據分析,并產生處理結果。
- IA分析的結果保存在IADB中,用戶需要設定好對IADB數據源的連接使用。
- Information Server Clients 訪問和查看數據質量分析結果,例如:聯機查詢、各類報告等等。
IA 提供的主要功能說明如下:
- 列分析
- 分析和記錄下列屬性;
- 各個值或基數的數量;
- 空值、“null”值、和非“null”或非空值的數量;
- 最小、最大、和平均數值;
- 基本數據類型,包括不同的日期—時間格式;
- 最小、最大、和平均長度;
- 數值的精度和范圍。
- 主鍵分析與推薦
主鍵分析針對一個或多個表識別所有候選鍵,幫助您測試一個列或 列組合,以確定是否存在成為主鍵的候選。
- 外鍵分析
外鍵分析檢查表之間的內容和關系,有助于識別外鍵、檢查其完整 性、并檢查主鍵和外鍵之間的參照完整性。
- 交叉值域分析
交叉值域分析檢查表之間的內容和關系,以確定列之間值的交疊,以及表內或表間數據的任何冗余(參照上圖)
- 數據監控和趨勢分析
通過基線分析,將來自先前列分析的數據(基線)和新的、當前的列分析進行比較,尋找變化。
- 數據規則和指標
創建邏輯規則進行數據驗證,驗證規則分析可以延伸數據源或跨數據源的評估,以定義數據之間的關系。允許以多種方式表達驗證規則。它還可以檢查了解數據是否符合某些限制:
包含:一個字段是否包含一個字符串,或符合某個包含某些字符串的表達式。
相等:一個字段是否與某些值相等。
存在:一個源是否擁有任何數據。
模式:源數據中的值是否與一個模式字符串匹配。
出現:一個源表中某些值出現的次數。
范圍:源數據的范圍。范圍可以包含最小值、最大值,或二者皆有。
參照列:源數據對參照列的參照完整性。
參照清單:數據是否符合一個允許值的參照清單。
類型:源數據是否能夠從字符轉換為數字或日期。
唯一性:源數據是否含有重復值。某些字段(如賬號)必須為唯一。
這些規則可以與邏輯操作符結合,從一個或多個表中(其中,多個列擁有多種特征)找到行。您還可以將這些規則與邏輯操作符結合,進行復雜條件評估,并指出雖然自身并沒有出現問題,但是不符合更廣泛的限制或業務條件的數據,隨時間發展以提供有關數據質量趨勢的追蹤分析。
- 報表
提供全面分析報告,通過使用圖形顯示和打印報表理解源數據質量狀況。
3.業務用例
- 組織需要詳細了解和理解其數據的優缺點和內在質量。獲得這種了解并將其應用于各種數據相關活動的能力可以直接影響那些活動的成本和效益。
- 在很多眾所周知的用例中,戰略性數據相關項目在實現的回報低于預期的同時還超出計劃的成本和進度安排,或由于數據質量缺陷(低估此缺陷或直到項目的實施階段才知道)完全失敗。
- 對于這些情況, IA可以用來在項目開始時進行關鍵數據質量評估以識別和測量現有數據缺陷。通過盡早執行此評估,組織可以對數據執行任何必要的更正操作,或防止可能需要避免的任何數據問題。
- 此外, IA可以用來在整個項目生命周期內評估并測量數據質量,方法是允許開發者在交付正確且預期的結果測試其代碼或作業的準確性,對關于功能準確性和系統準確性的質量保證提供幫助,以及允許業務用戶以成功的系統裝入流程作為標準。
4.給用戶帶來變化
- 幫助機構快速地完成提升數據質量和數據移植的項目,減少由于數據質量不好而帶來的業務風險,提高數據質量的規范化和數據管控水平,以實現幫助機構在可信賴信息的基礎上,作出更佳的分析和決策;
-
分析數據的自動化流程管理,無需要手工進行處理。相對手工分析而言,減少 50+%分析數據的工作量,提高生產效率,加快數據整合速度;
- 具有執行大量數據分析的能力,解決海量數據分析帶來的挑戰;
- 執行數據分析過程中而發現的元數據,可傳遞給 Information Server的其他軟件模塊使用,包括 IBM InfoSphere QualityStage,DataStage and Business Glossary等,而無需從零開始;
- 提供可獨立于系統界面的各類分析報告,更快地明白和分析數據處理結果,減低用戶開發工作量;
- 提供不同安全級別來授權用戶是否可訪問敏感的數據,完善的管理機制,有助于用戶提高分析數據的管理模式;
- 不間斷的監控數據源的變化,及早地發現問題和解決問題,避免影響不間斷運作的業務(如審計、法規與規范等),確保數據項目“總是”含有可信賴的數據,由此給業務發展帶來較高的經濟效益。
- 獲得認可和滿意的投資回報率(ROI)。
5.成功實施參考案例
項目背景:
20xx年,某零售巨頭多年來第一次發生虧損。該企業通過一系列的研究與自我反思,認為其主要是由以下幾方面原因引起的。
- 缺乏對庫存商品銷售數據的有效洞察和糟糕的商品推銷以及預測應用系統問題,致使其無法及時地調整出貨品種及推銷策略來改善情況;
- 過長的生產交易期以及已有的大量生產合同制約,公司歷史遺留的供應鏈等問題,致使其便已經深刻了解到這些問題,也不能迅速地改變他們的產品線結構;
- 其他諸如PeopleSoft財務系統問題和當前不合理的數據倉庫設計等問題,致使其無法快速高效地整合統一所有資源。
項目挑戰:
- 信息太雜太亂,不知道哪些是重要的無法及時找到需求點來改善供應鏈無法通過客戶行為分析來指導賣場活動無法分析有價值的非結構化數據;
- 事實資料版本太多,真相難以提取難以理順客戶、產品以及合作伙伴的關系缺乏透明統一的數據記錄規則;
- 缺乏可信任的信息不完備的,過時的,不正確的數據泛濫難以理解并管理信息的使用方式;
- 缺乏數據敏捷性難以利用創新的機遇因死板的系統和變化的需求而導致的不斷增加的成本開銷。
解決方案:
Information Analyzer是IBM推出的一款數據質量分析工具。它能幫助客戶方便快捷地全面理解企業數據。它提供了數據質量評估,數據質量監控以及可定制的數據規則設計和分析功能。這些強大的能力能讓客戶輕易的掌控整個企業的雜亂數據,并極大地加速企業的信息整合工程。因此本產品可以很好地滿足該企業的需求并加速實現其轉型目標。
在IBM為該企業制定的全套解決方案中,Information Analyzer主要應用于以下3個關鍵階段:
- 源數據分析
全面分析理解該企業各個數據庫系統的數據質量,找出異常數據,為隨后的數據清洗、轉換、整合提供有力的支持。
- 業務洞察及趨勢預測
通過對清洗過的歷史數據進行高效的比對,找出數據變化趨勢,分析客戶行為,從而及時調整相應的推銷策略。
- 各個環節之間的數據質量審計
自動按需審計各個接口的數據質量,從而保證最低的臟數據率和最高的數據兼容性。
部署架構:
方案收益:
通過列分析、主/外鍵分析、域交叉分析等手段自動分析您的數據,快速完成整體分析并生成數據的結構、內容和質量報告。
- 通過基線分析便捷地找出數據的變化部分,以此來研究業務行為的變化趨勢;
- 通過定制的數據規則分析,篩選或預測出有業務價值的數據形態;
- 降低數據分析校驗環節所需要的時間使業務決策更及時加速整個數據轉換,整合過程;
- 與Information Server其他產品相互協作,保證數據的唯一性,準確性和完備性。
詳情請咨詢!
客服熱線:023-66090381