什麼是數據沿襲? 為什麼跟踪數據流很重要
已發表: 2021-09-28一些專業人士將數據沿襲視為數據的 GPS。
這是因為數據沿襲可以幫助用戶直觀地了解數據的路徑和轉換。 它記錄了數據如何被處理、轉換和傳輸以構成企業用來運行其運營的有意義的信息。
數據沿襲可幫助企業詳細了解數據如何從源流向目標。 許多組織使用 數據虛擬化軟件 借助數據沿襲幫助他們跟踪數據,同時向用戶提供實時信息。
什麼是數據沿襲?
數據沿襲是識別數據來源、記錄數據如何隨時間轉換和移動以及可視化其從數據源到最終用戶的流程的過程。 它可以幫助數據科學家獲得數據動態的精細可見性,並使他們能夠將錯誤追溯到根本原因。
數據沿襲告知工程師數據轉換及其發生的原因。 它可以幫助組織跟踪錯誤、執行系統遷移、將數據發現和元數據更緊密地結合在一起,並以更低的風險實施流程變更。
戰略業務決策取決於數據的準確性。 如果沒有良好的數據沿襲,跟踪數據流程並對其進行驗證就變得具有挑戰性。 數據沿襲使用戶能夠可視化從源到目的地的完整信息流,從而更容易檢測和修復異常。 通過數據沿襲,用戶可以重放數據流的特定部分或輸入,以調試或生成丟失的輸出。
在用戶不需要有關技術血統的詳細信息的情況下,他們使用數據出處來獲得數據流的高級概述。 許多 數據庫系統 利用數據來源解決調試和驗證挑戰。
什麼是數據來源?
數據來源是關於數據來源和產生方法的文檔。
儘管數據出處和數據沿襲有相似之處,但數據出處對於需要對數據來源進行高級概述的業務用戶更有用。 相反,數據沿襲包括業務級別和技術級別的沿襲,並提供數據流的細粒度視圖。
數據沿襲和數據治理
數據治理是組織用來維護和控制數據的一組規則和程序。 數據沿襲是數據治理的重要組成部分,因為它告知數據如何從源流向目的地。
企業根據自己的需求使用不同層次的數據沿襲。 較低級別的數據沿襲提供了數據在組織內如何流動的簡單可視化表示,而不包括有關在流經管道時發生的轉換的具體細節。 最高層是屬性級數據沿襲,提供有關如何優化數據流以及改進數據平台的方法的見解。
組織根據其治理結構、實施和監控產生的成本、監管問題及其對業務的影響來選擇數據沿襲層。
了解數據沿襲是元數據管理的一個重要方面,因此對於 數據倉庫 和數據湖管理員。 元數據管理允許您查看通過各種系統的數據流,從而更輕鬆地查找與特定報告或提取、轉換、加載 (ETL) 過程相關的所有數據。
“收集數據沿襲——描述數據的來源、結構和依賴關係——自動提高所提供元數據的質量並減少人工。”
約瑟夫·維豪瑟
寶馬平台負責人
為什麼數據沿襲很重要?
數據沿襲不僅可以幫助您解決問題或執行系統遷移,還可以通過跟踪更改、執行方式以及更改者來確保數據的機密性和完整性。
借助數據沿襲,IT 團隊可以可視化從頭到尾的端到端數據旅程。 它使 IT 專業人員的工作更輕鬆,並為業務用戶提供做出有效決策的信心。
數據沿襲工具可幫助您回答以下問題:
- 數據是如何改變的,是通過什麼過程改變的?
- 誰負責數據修改?
- 什麼時候做出改變?
- 進行修改的人的地理位置是什麼?
- 為什麼要進行更改,其背後的背景是什麼?
數據沿襲系統的要求主要取決於個人的角色和組織的目標。 但是,數據沿襲可能會在以下領域產生重大影響:
- 戰略決策:數據沿襲使業務用戶能夠通過查看數據如何通過轉換來更好地理解處理過的數據。 這些數據對於業務運營以及改進產品和服務至關重要。
- 新舊數據集的最佳使用:數據沿襲允許企業跟踪不同的數據集,因為它們由於不斷發展的收集技術和技術而發生變化。
- 數據遷移:數據沿襲幫助 IT 團隊通過了解數據源的位置和生命週期將數據快速遷移到新的存儲位置,從而降低遷移項目的風險。
- 數據治理:由於數據沿襲提供了對數據生命週期的精細可見性,它可以幫助企業管理風險、遵守行業法規並執行審計。
專業人士將數據沿襲視為一種 dataGovOps 實踐,其中沿襲、測試和沙盒屬於數據治理實踐。
“數據沿襲是“了解”客戶的數據環境和了解已實施的數據轉換的最重要技術之一。”
沃爾夫岡·施特拉瑟
Cubido Business Solutions GMBH 的數據顧問
Wolfgang Strasser 進一步補充說:“了解組織中數據孤島和系統之間的依賴關係至關重要。這不僅從技術角度來看是必需的;您越了解系統之間的數據如何流動,您就可以更好地做出反應並查看”
數據沿襲可以通過多種方式幫助處於不同工作角色的個人。 例如,ETL 開發人員可以發現 ETL 作業中的錯誤並檢查數據字段中的任何修改,例如列刪除、添加或重命名。 數據管理員可以使用沿襲來識別 ETL 作業中最不有用和最有用的數據資產。 對於業務用戶,它有助於檢查報告的準確性,並在生成錯誤報告時識別所涉及的流程和作業。
數據沿襲也發現它的應用在 機器學習,用於根據新的或修改的數據重新訓練模型。 它還有助於減少 模型漂移。 模型漂移是指由於數據的變化以及輸入和輸出變量之間的關係而導致模型性能的下降。
粗粒度與細粒度數據沿襲
學術學者有時會以不同的方式使用粗粒度和細粒度的數據血統,但這個概念基本上涵蓋了用戶可以獲得的數據血統的級別。
粗粒度數據沿襲描述數據管道、數據庫、表以及它們如何互連。 通常,沿襲收集系統在運行時累積粗粒度沿襲。 它們捕獲數據管道、數據庫和表之間的互連性,而沒有關於用於修改數據的轉換的詳細信息。 這有助於他們降低捕獲開銷(有關數據流的詳細信息)。 在用戶想要為調試目的進行取證分析的情況下,他們必須重放數據流以收集細粒度的數據沿襲。
另一方面,細粒度的數據沿襲涵蓋了創建或修改數據的詳細應用轉換。 活動沿襲收集系統在運行時捕獲粗粒度或細粒度數據沿襲。 它可以實現出色的回放和調試。 但是,由於細粒度的沿襲數據量很大,因此捕獲開銷很高。
數據沿襲用例
數據沿襲可幫助組織在整個生命週期中跟踪數據流、查看依賴關係並了解轉換。 團隊利用數據流的粒度視圖並將其用於多種目的。
確定錯誤的根本原因
在銷售數字與財務部門的記錄不匹配的情況下會出現混亂,並且很難確定實際錯誤存在於何處。 數據沿襲為此類情況提供了合理的解釋。 商業智能 (BI) 經理可以使用數據沿襲來跟踪完整的數據流並查看在處理過程中所做的任何修改。
無論是否存在錯誤,BI 經理都可以自信地為這種情況提供合理的解釋。 如果出現錯誤,團隊可以從源頭進行糾正,從而使不同團隊的最終用戶數據保持一致。

系統升級
在升級或遷移到新系統時,必須了解哪些數據集是相關的,哪些已經過時或不存在。 數據沿襲可幫助您了解實際用於執行業務運營的數據,並限制存儲和管理不相關數據的支出。
借助數據沿襲,您可以無縫地規劃和執行系統遷移和更新。 它可以幫助您可視化數據源、依賴項和流程,使您能夠準確了解需要遷移的內容。
影響分析
任何優秀的企業在實施變更之前都會確定受影響的報告、數據元素和最終用戶。 數據沿襲軟件可幫助團隊可視化下游數據對象並衡量變更的影響。
數據沿襲可讓您了解業務用戶如何與數據交互以及更改將如何影響他們。 它可以幫助企業了解特定修改的影響,並允許他們決定是否應該堅持下去。
數據沿襲技術
組織可以使用一些標準技術對戰略數據集執行數據沿襲。 這些技術可確保跟踪每個數據轉換或處理,使您能夠在信息資產通過流程的每個階段映射數據元素。
數據沿襲技術在每次數據轉換後收集和存儲元數據,稍後用於數據沿襲表示。
沿襲解析
通過解析讀取用於處理數據的邏輯的最先進的沿襲形式之一進行沿襲。 您可以通過逆向工程數據轉換邏輯獲得全面的端到端可追溯性。
解析技術的沿襲部署起來相對複雜,因為它需要了解用於轉換和處理數據的所有工具和編程語言。 這可以包括 ETL 邏輯、基於結構化查詢語言 (SQL) 的解決方案、JAVA 解決方案、可擴展標記語言 (XML) 解決方案、遺留數據格式等。
創建一個支持十幾種編程語言的數據沿襲解決方案很棘手,並且支持動態處理的各種工具增加了它的複雜性。 在選擇數據沿襲解決方案時,請確保它考慮輸入參數、運行時信息和默認值,並解析所有這些元素以自動化端到端數據沿襲交付。
基於模式的血統
基於模式的沿襲使用模式來提供沿襲表示,而不是讀取任何代碼。 基於模式的沿襲利用有關表、報告和列的元數據並對其進行概要分析,以創建基於共同相似性和模式的沿襲。
毫無疑問,在這種技術中,您擁有監控數據而不是算法的優勢。 您的數據沿襲解決方案不必了解用於處理數據的編程語言和工具。 它可以以相同的方式用於任何數據庫技術,如 Oracle 或 MySQL。 但與此同時,這種技術並不總是能顯示出準確的結果。 許多細節(例如轉換邏輯)不可用。
當由於無法訪問或不可用的代碼而無法理解編程邏輯時,這種方法適用於數據沿襲用例。
自成體系
自包含的沿襲可在提供數據處理邏輯、主數據管理等的包羅萬象的環境中跟踪每一次數據移動和轉換。 跟踪數據流及其生命週期變得很容易。
儘管如此,自包含的解決方案仍然是一個特定環境所獨有的,並且對它之外的一切都視而不見。 隨著新需求的出現和新工具用於處理數據,自包含的數據沿襲解決方案可能無法提供預期的結果。
通過數據標記的沿襲
通過數據標記沿襲,移動或轉換的每條數據都由轉換引擎標記。 然後從頭到尾讀取所有標籤以生成沿襲表示。 儘管它似乎是一種有效的數據沿襲技術,但它只有在有一致的轉換引擎或工具來控制數據移動時才有效。
該技術排除了轉換引擎之外的數據移動,使其適用於在封閉數據系統上執行數據沿襲。 在某些情況下,這可能不是首選的數據沿襲技術。 例如,開發人員避免在數據移動的每個接觸點向解決方案模型添加正式的數據列。
區塊鍊是通過數據標記解決譜系複雜性的一種潛在解決方案,但它的廣泛採用不足以對組織中的數據生命週期產生重大影響。
手動血統
手動沿襲涉及與人們交談以了解組織中的數據流並記錄它。 您可以採訪應用程序所有者、數據集成專家、數據管理員以及與數據生命週期相關的其他人員。 接下來,您可以使用電子表格和簡單的映射技術來定義沿襲。
有時,您可能會發現相互矛盾的信息或錯過採訪某人,從而導致不正確的數據沿襲。 在瀏覽代碼時,您還必須手動查看表、比較列等,這使其成為一個耗時且乏味的過程。 動態增長的代碼量及其複雜性增加了手動數據沿襲的複雜性。
儘管存在這些挑戰,但這種方法證明有助於了解環境中正在發生的事情。 當代碼不可用或無法訪問時,手動數據沿襲也被證明是有效的。
如何實現數據沿襲
實施數據沿襲很大程度上取決於您組織的數據文化。 確保您擁有既定的數據管理框架,並與數據管理專業人員和其他利益相關者建立強有力的協作,以成功實施數據沿襲。
按照以下七個步驟在您的組織中成功實施數據沿襲。
- 確定關鍵業務驅動因素:討論實施數據沿襲的原因,並確定它們對於實現業務目標是否至關重要。 這些原因可能包括業務變化、數據質量計劃、聽覺要求或立法要求。
- 項目高級管理人員:實施數據沿襲需要大量資源(人力和財力)和時間。 確保您得到高級管理層的支持,以推動實施項目完成。 您可以通過解釋數據沿襲的好處以及它如何幫助遵守行業法規來說服管理層。
- 計劃範圍:一旦高級管理層批准項目,根據已識別的業務驅動因素和關鍵數據元素 (CDE) 確定其範圍。 關鍵數據元素對組織績效和客戶體驗的影響最為顯著。
- 定義範圍:數據沿襲的範圍從數據源開始,到最終使用點結束。 大型組織可以修復有限長度的數據沿襲,因為它們有許多子公司以避免複雜化。
- 準備業務需求:利益相關者可能對數據沿襲有不同的期望。 首先,存在利益不同的業務利益相關者和技術利益相關者。 業務利益相關者對價值、概念數據模型級別的數據沿襲和根本原因分析更感興趣。 相反,技術利益相關者對物理層面的影響分析、元數據設計沿襲和數據沿襲感興趣。
- 修復記錄數據沿襲的方法:您可以使用描述性或自動數據沿襲文檔。 考慮將消耗的時間和資源,評估哪種方式更適合您的組織。
- 選擇合適的數據沿襲軟件:選擇最適合您的目標和期望的數據沿襲軟件解決方案。 你可以探索 主數據管理軟件 提供自動沿襲功能。
數據沿襲最佳實踐
Lineage 可幫助您獲得可靠且準確的數據,以支持您公司的決策過程。 規劃和實施是數據治理的一個關鍵要素——您需要確定您的數據來自何處以及將您帶到何處。
在組織中規劃和實施數據沿襲時,您可以考慮以下幾種做法:
- 自動化數據沿襲提取:數據及其沿襲是一個動態實體。 您需要超越在電子表格中手動捕獲數據沿襲並自動化流程以在敏捷環境中競爭。
- 包括元數據源:數據庫管理系統、大數據工具、ETL 軟件和其他自定義應用程序創建自己的有關其處理的數據的數據。 將此元數據包含在您的沿襲中,因為它有助於理解數據流和修改。
- 驗證元數據源:鼓勵應用程序和工具的所有者驗證各自的元數據源,因為他們清楚地了解元數據的準確性和相關性。
- 計劃漸進式提取:按照數據流經系統的相同順序提取元數據和沿襲。 它簡化了系統之間和數據內的映射連接、關係和依賴關係。
- 驗證端到端數據沿襲:從系統之間的高級連接開始逐步驗證沿襲,然後在驗證轉換文檔之前深入研究連接的數據集,然後是數據元素。
- 實施數據目錄軟件:採用 智能和自動化的數據目錄軟件 從所有來源收集血統數據。 該軟件還使您能夠從元數據中提取和推斷沿襲。
在粒度級別跟踪數據流
數據沿襲使組織能夠在整個生命週期中獲得數據流的精細可見性,並幫助他們識別錯誤的根本原因、管理數據治理、進行影響分析並做出數據驅動的業務決策。
記錄數據沿襲可能很棘手,但它有助於組織有效地理解和使用他們的數據。
詳細了解如何獲取實時數據以通過數據虛擬化做出戰略性業務決策。