什么是数据沿袭? 为什么跟踪数据流很重要
已发表: 2021-09-28一些专业人士将数据沿袭视为数据的 GPS。
这是因为数据沿袭可以帮助用户直观地了解数据的路径和转换。 它记录了数据如何被处理、转换和传输以构成企业用来运行其运营的有意义的信息。
数据沿袭可帮助企业详细了解数据如何从源流向目标。 许多组织使用 数据虚拟化软件 借助数据沿袭帮助他们跟踪数据,同时向用户提供实时信息。
什么是数据沿袭?
数据沿袭是识别数据来源、记录数据如何随时间转换和移动以及可视化其从数据源到最终用户的流程的过程。 它可以帮助数据科学家获得数据动态的精细可见性,并使他们能够将错误追溯到根本原因。
数据沿袭告知工程师数据转换及其发生的原因。 它可以帮助组织跟踪错误、执行系统迁移、将数据发现和元数据更紧密地结合在一起,并以更低的风险实施流程变更。
战略业务决策取决于数据的准确性。 如果没有良好的数据沿袭,跟踪数据流程并对其进行验证就变得具有挑战性。 数据沿袭使用户能够可视化从源到目的地的完整信息流,从而更容易检测和修复异常。 通过数据沿袭,用户可以重放数据流的特定部分或输入,以调试或生成丢失的输出。
在用户不需要有关技术血统的详细信息的情况下,他们使用数据出处来获得数据流的高级概述。 许多 数据库系统 利用数据来源解决调试和验证挑战。
什么是数据来源?
数据来源是关于数据来源和产生方法的文档。
尽管数据出处和数据沿袭有相似之处,但数据出处对于需要对数据来源进行高级概述的业务用户更有用。 相反,数据沿袭包括业务级别和技术级别的沿袭,并提供数据流的细粒度视图。
数据沿袭和数据治理
数据治理是组织用来维护和控制数据的一组规则和程序。 数据沿袭是数据治理的重要组成部分,因为它告知数据如何从源流向目的地。
企业根据自己的需求使用不同层次的数据沿袭。 较低级别的数据沿袭提供了数据在组织内如何流动的简单可视化表示,而不包括有关在流经管道时发生的转换的具体细节。 最高层是属性级数据沿袭,提供有关如何优化数据流以及改进数据平台的方法的见解。
组织根据其治理结构、实施和监控产生的成本、监管问题及其对业务的影响来选择数据沿袭层。
了解数据沿袭是元数据管理的一个重要方面,因此对于 数据仓库 和数据湖管理员。 元数据管理允许您查看通过各种系统的数据流,从而更轻松地查找与特定报告或提取、转换、加载 (ETL) 过程相关的所有数据。
“收集数据沿袭——描述数据的来源、结构和依赖关系——自动提高所提供元数据的质量并减少人工。”
约瑟夫·维豪瑟
宝马平台负责人
为什么数据沿袭很重要?
数据沿袭不仅可以帮助您解决问题或执行系统迁移,还可以通过跟踪更改、执行方式以及更改者来确保数据的机密性和完整性。
借助数据沿袭,IT 团队可以可视化从头到尾的端到端数据旅程。 它使 IT 专业人员的工作更轻松,并为业务用户提供做出有效决策的信心。
数据沿袭工具可帮助您回答以下问题:
- 数据是如何改变的,是通过什么过程改变的?
- 谁负责数据修改?
- 什么时候做出改变?
- 进行修改的人的地理位置是什么?
- 为什么要进行更改,其背后的背景是什么?
数据沿袭系统的要求主要取决于个人的角色和组织的目标。 但是,数据沿袭可能会在以下领域产生重大影响:
- 战略决策:数据沿袭使业务用户能够通过查看数据如何通过转换来更好地理解处理过的数据。 这些数据对于业务运营以及改进产品和服务至关重要。
- 新旧数据集的最佳使用:数据沿袭允许企业跟踪不同的数据集,因为它们由于不断发展的收集技术和技术而发生变化。
- 数据迁移:数据沿袭帮助 IT 团队通过了解数据源的位置和生命周期将数据快速迁移到新的存储位置,从而降低迁移项目的风险。
- 数据治理:由于数据沿袭提供了对数据生命周期的精细可见性,它可以帮助企业管理风险、遵守行业法规并执行审计。
专业人士将数据沿袭视为一种 dataGovOps 实践,其中沿袭、测试和沙盒属于数据治理实践。
“数据沿袭是“了解”客户的数据环境和了解已实施的数据转换的最重要技术之一。”
沃尔夫冈·施特拉瑟
Cubido Business Solutions GMBH 的数据顾问
Wolfgang Strasser 进一步补充说:“了解组织中数据孤岛和系统之间的依赖关系至关重要。这不仅从技术角度来看是必需的;您越了解系统之间的数据如何流动,您就可以更好地做出反应并查看”
数据沿袭可以通过多种方式帮助处于不同工作角色的个人。 例如,ETL 开发人员可以发现 ETL 作业中的错误并检查数据字段中的任何修改,例如列删除、添加或重命名。 数据管理员可以使用沿袭来识别 ETL 作业中最不有用和最有用的数据资产。 对于业务用户,它有助于检查报告的准确性,并在生成错误报告时识别所涉及的流程和作业。
数据沿袭也发现它的应用在 机器学习,用于根据新的或修改的数据重新训练模型。 它还有助于减少 模型漂移。 模型漂移是指由于数据的变化以及输入和输出变量之间的关系而导致模型性能的下降。
粗粒度与细粒度数据沿袭
学术学者有时会以不同的方式使用粗粒度和细粒度的数据血统,但这个概念基本上涵盖了用户可以获得的数据血统的级别。
粗粒度数据沿袭描述数据管道、数据库、表以及它们如何互连。 通常,沿袭收集系统在运行时累积粗粒度沿袭。 它们捕获数据管道、数据库和表之间的互连性,而没有关于用于修改数据的转换的详细信息。 这有助于他们降低捕获开销(有关数据流的详细信息)。 在用户想要为调试目的进行取证分析的情况下,他们必须重放数据流以收集细粒度的数据沿袭。
另一方面,细粒度的数据沿袭涵盖了创建或修改数据的详细应用转换。 活动沿袭收集系统在运行时捕获粗粒度或细粒度数据沿袭。 它可以实现出色的回放和调试。 但是,由于细粒度的沿袭数据量很大,因此捕获开销很高。
数据沿袭用例
数据沿袭可帮助组织在整个生命周期中跟踪数据流、查看依赖关系并了解转换。 团队利用数据流的粒度视图并将其用于多种目的。
确定错误的根本原因
在销售数字与财务部门的记录不匹配的情况下会出现混乱,并且很难确定实际错误存在于何处。 数据沿袭为此类情况提供了合理的解释。 商业智能 (BI) 经理可以使用数据沿袭来跟踪完整的数据流并查看在处理过程中所做的任何修改。
无论是否存在错误,BI 经理都可以自信地为这种情况提供合理的解释。 如果出现错误,团队可以从源头进行纠正,从而使不同团队的最终用户数据保持一致。

系统升级
在升级或迁移到新系统时,必须了解哪些数据集是相关的,哪些已经过时或不存在。 数据沿袭可帮助您了解实际用于执行业务运营的数据,并限制存储和管理不相关数据的支出。
借助数据沿袭,您可以无缝地规划和执行系统迁移和更新。 它可以帮助您可视化数据源、依赖项和流程,使您能够准确了解需要迁移的内容。
影响分析
任何优秀的企业在实施变更之前都会确定受影响的报告、数据元素和最终用户。 数据沿袭软件可帮助团队可视化下游数据对象并衡量变更的影响。
数据沿袭可让您了解业务用户如何与数据交互以及更改将如何影响他们。 它可以帮助企业了解特定修改的影响,并允许他们决定是否应该坚持下去。
数据沿袭技术
组织可以使用一些标准技术对战略数据集执行数据沿袭。 这些技术可确保跟踪每个数据转换或处理,使您能够在信息资产通过流程的每个阶段映射数据元素。
数据沿袭技术在每次数据转换后收集和存储元数据,稍后用于数据沿袭表示。
沿袭解析
通过解析读取用于处理数据的逻辑的最先进的沿袭形式之一进行沿袭。 您可以通过逆向工程数据转换逻辑获得全面的端到端可追溯性。
解析技术的沿袭部署起来相对复杂,因为它需要了解用于转换和处理数据的所有工具和编程语言。 这可以包括 ETL 逻辑、基于结构化查询语言 (SQL) 的解决方案、JAVA 解决方案、可扩展标记语言 (XML) 解决方案、遗留数据格式等。
创建一个支持十几种编程语言的数据沿袭解决方案很棘手,并且支持动态处理的各种工具增加了它的复杂性。 在选择数据沿袭解决方案时,请确保它考虑输入参数、运行时信息和默认值,并解析所有这些元素以自动化端到端数据沿袭交付。
基于模式的血统
基于模式的沿袭使用模式来提供沿袭表示,而不是读取任何代码。 基于模式的沿袭利用有关表、报告和列的元数据并对其进行概要分析,以创建基于共同相似性和模式的沿袭。
毫无疑问,在这种技术中,您拥有监控数据而不是算法的优势。 您的数据沿袭解决方案不必了解用于处理数据的编程语言和工具。 它可以以相同的方式用于任何数据库技术,如 Oracle 或 MySQL。 但与此同时,这种技术并不总是能显示出准确的结果。 许多细节(例如转换逻辑)不可用。
当由于无法访问或不可用的代码而无法理解编程逻辑时,这种方法适用于数据沿袭用例。
自成体系
自包含的沿袭可在提供数据处理逻辑、主数据管理等的包罗万象的环境中跟踪每一次数据移动和转换。 跟踪数据流及其生命周期变得很容易。
尽管如此,自包含的解决方案仍然是一个特定环境所独有的,并且对它之外的一切都视而不见。 随着新需求的出现和新工具用于处理数据,自包含的数据沿袭解决方案可能无法提供预期的结果。
通过数据标记的沿袭
通过数据标记沿袭,移动或转换的每条数据都由转换引擎标记。 然后从头到尾读取所有标签以生成沿袭表示。 尽管它似乎是一种有效的数据沿袭技术,但它只有在有一致的转换引擎或工具来控制数据移动时才有效。
该技术排除了转换引擎之外的数据移动,使其适用于在封闭数据系统上执行数据沿袭。 在某些情况下,这可能不是首选的数据沿袭技术。 例如,开发人员避免在数据移动的每个接触点向解决方案模型添加正式的数据列。
区块链是通过数据标记解决谱系复杂性的一种潜在解决方案,但它的广泛采用不足以对组织中的数据生命周期产生重大影响。
手动血统
手动沿袭涉及与人们交谈以了解组织中的数据流并记录它。 您可以采访应用程序所有者、数据集成专家、数据管理员以及与数据生命周期相关的其他人员。 接下来,您可以使用电子表格和简单的映射技术来定义沿袭。
有时,您可能会发现相互矛盾的信息或错过采访某人,从而导致不正确的数据沿袭。 在浏览代码时,您还必须手动查看表、比较列等,这使其成为一个耗时且乏味的过程。 动态增长的代码量及其复杂性增加了手动数据沿袭的复杂性。
尽管存在这些挑战,但这种方法证明有助于了解环境中正在发生的事情。 当代码不可用或无法访问时,手动数据沿袭也被证明是有效的。
如何实现数据沿袭
实施数据沿袭很大程度上取决于您组织的数据文化。 确保您拥有既定的数据管理框架,并与数据管理专业人员和其他利益相关者建立强有力的协作,以成功实施数据沿袭。
按照以下七个步骤在您的组织中成功实施数据沿袭。
- 确定关键业务驱动因素:讨论实施数据沿袭的原因,并确定它们对于实现业务目标是否至关重要。 这些原因可能包括业务变化、数据质量计划、听觉要求或立法要求。
- 项目高级管理人员:实施数据沿袭需要大量资源(人力和财力)和时间。 确保您得到高级管理层的支持,以推动实施项目完成。 您可以通过解释数据沿袭的好处以及它如何帮助遵守行业法规来说服管理层。
- 计划范围:一旦高级管理层批准项目,根据已识别的业务驱动因素和关键数据元素 (CDE) 确定其范围。 关键数据元素对组织绩效和客户体验的影响最为显着。
- 定义范围:数据沿袭的范围从数据源开始,到最终使用点结束。 大型组织可以修复有限长度的数据沿袭,因为它们有许多子公司以避免复杂化。
- 准备业务需求:利益相关者可能对数据沿袭有不同的期望。 首先,存在利益不同的业务利益相关者和技术利益相关者。 业务利益相关者对价值、概念数据模型级别的数据沿袭和根本原因分析更感兴趣。 相反,技术利益相关者对物理层面的影响分析、元数据设计沿袭和数据沿袭感兴趣。
- 修复记录数据沿袭的方法:您可以使用描述性或自动数据沿袭文档。 考虑将消耗的时间和资源,评估哪种方式更适合您的组织。
- 选择合适的数据沿袭软件:选择最适合您的目标和期望的数据沿袭软件解决方案。 你可以探索 主数据管理软件 提供自动沿袭功能。
数据沿袭最佳实践
Lineage 可帮助您获得可靠且准确的数据,以支持您公司的决策过程。 规划和实施是数据治理的一个关键要素——您需要确定您的数据来自何处以及将您带到何处。
在组织中规划和实施数据沿袭时,您可以考虑以下几种做法:
- 自动化数据沿袭提取:数据及其沿袭是一个动态实体。 您需要超越在电子表格中手动捕获数据沿袭并自动化流程以在敏捷环境中竞争。
- 包括元数据源:数据库管理系统、大数据工具、ETL 软件和其他自定义应用程序创建自己的有关其处理的数据的数据。 将此元数据包含在您的沿袭中,因为它有助于理解数据流和修改。
- 验证元数据源:鼓励应用程序和工具的所有者验证各自的元数据源,因为他们清楚地了解元数据的准确性和相关性。
- 计划渐进式提取:按照数据流经系统的相同顺序提取元数据和沿袭。 它简化了系统之间和数据内的映射连接、关系和依赖关系。
- 验证端到端数据沿袭:从系统之间的高级连接开始逐步验证沿袭,然后在验证转换文档之前深入研究连接的数据集,然后是数据元素。
- 实施数据目录软件:采用 智能和自动化的数据目录软件 从所有来源收集血统数据。 该软件还使您能够从元数据中提取和推断沿袭。
在粒度级别跟踪数据流
数据沿袭使组织能够在整个生命周期中获得数据流的精细可见性,并帮助他们识别错误的根本原因、管理数据治理、进行影响分析并做出数据驱动的业务决策。
记录数据沿袭可能很棘手,但它有助于组织有效地理解和使用他们的数据。
详细了解如何获取实时数据以通过数据虚拟化做出战略性业务决策。