¿Qué es el linaje de datos? Por qué es importante realizar un seguimiento del flujo de datos
Publicado: 2021-09-28Algunos profesionales ven el linaje de datos como el GPS de los datos.
Es porque el linaje de datos ayuda a los usuarios a obtener una visión general de la ruta y las transformaciones de los datos. Documenta cómo se procesan, transforman y transmiten los datos para constituir información significativa que las empresas utilizan para ejecutar sus operaciones.
El linaje de datos ayuda a las empresas a obtener una vista granular de cómo fluyen los datos desde el origen hasta el destino. Muchas organizaciones utilizan software de virtualización de datos con linaje de datos para ayudarlos a rastrear sus datos mientras brindan información en tiempo real a los usuarios.
¿Qué es el linaje de datos?
El linaje de datos es el proceso de identificar el origen de los datos, registrar cómo se transforman y se mueven con el tiempo y visualizar su flujo desde las fuentes de datos hasta los usuarios finales. Ayuda a los científicos de datos a obtener una visibilidad granular de la dinámica de los datos y les permite rastrear los errores hasta la causa raíz.
El linaje de datos informa a los ingenieros sobre las transformaciones de datos y por qué ocurren. Ayuda a las organizaciones a realizar un seguimiento de los errores, realizar migraciones de sistemas, acercar el descubrimiento de datos y los metadatos e implementar cambios en los procesos con menos riesgo.
Las decisiones comerciales estratégicas dependen de la precisión de los datos. Sin un buen linaje de datos, se vuelve un desafío rastrear los procesos de datos y verificarlos. El linaje de datos permite a los usuarios visualizar el flujo completo de información desde el origen hasta el destino, lo que facilita la detección y corrección de anomalías. Con el linaje de datos, los usuarios pueden reproducir porciones o entradas específicas del flujo de datos para depurar o generar resultados perdidos.
En situaciones en las que los usuarios no necesitan detalles sobre el linaje técnico, utilizan la procedencia de los datos para obtener una visión general de alto nivel del flujo de datos. Muchos sistemas de bases de datos aproveche la procedencia de los datos para abordar los desafíos de depuración y validación.
¿Qué es la procedencia de los datos?
La procedencia de los datos es la documentación de dónde provienen los datos y los métodos por los cuales se producen.
Aunque la procedencia de los datos y el linaje de los datos tienen similitudes, la procedencia de los datos es más útil para los usuarios empresariales que necesitan una visión general de alto nivel de dónde proceden los datos. Por el contrario, el linaje de datos incluye tanto el linaje de nivel empresarial como el de nivel técnico y proporciona una vista granular del flujo de datos.
Linaje de datos y gobierno de datos
El gobierno de datos es el conjunto de reglas y procedimientos que utilizan las organizaciones para mantener y controlar los datos. El linaje de datos es una parte esencial del gobierno de datos, ya que informa cómo fluyen los datos desde el origen hasta el destino.
Las empresas utilizan diferentes niveles de linajes de datos en función de sus necesidades. Los niveles más bajos de linaje de datos brindan una representación visual simple de cómo fluyen los datos dentro de una organización, sin incluir detalles específicos sobre las transformaciones que ocurren a medida que avanzan a través de la canalización. El nivel más alto es el linaje de datos a nivel de atributo que ofrece información sobre cómo se puede optimizar el flujo de datos y formas de mejorar las plataformas de datos.
Las organizaciones eligen el nivel de linaje de datos en función de su estructura de gobierno, los costos incurridos en la implementación y el monitoreo, las preocupaciones regulatorias y el impacto que tendría en el negocio.
Comprender el linaje de los datos es un aspecto crítico de la gestión de metadatos, por lo que es esencial para almacén de datos y administradores de lagos de datos. La administración de metadatos le permite ver el flujo de datos a través de varios sistemas, lo que facilita la búsqueda de todos los datos asociados con un informe en particular o un proceso de extracción, transformación y carga (ETL).
"La recopilación del linaje de datos, que describe el origen, la estructura y las dependencias de los datos, aumenta automáticamente la calidad de los metadatos proporcionados y reduce el esfuerzo manual".
Josef Viehhauser
Jefe de plataforma en BMW
¿Por qué es importante el linaje de datos?
El linaje de datos no solo lo ayuda a solucionar problemas o realizar migraciones de sistemas, sino que también le permite garantizar la confidencialidad e integridad de los datos mediante el seguimiento de los cambios, cómo se realizaron y quién los realizó.
Con el linaje de datos, los equipos de TI pueden visualizar el recorrido de los datos de principio a fin. Hace que el trabajo de un profesional de TI sea más fácil y brinda a los usuarios comerciales la confianza para tomar decisiones efectivas.
Las herramientas de linaje de datos lo ayudan a responder las siguientes preguntas:
- ¿Cómo se cambiaron los datos y mediante qué proceso?
- ¿Quién era responsable de las modificaciones de datos?
- ¿Cuándo se hizo el cambio?
- ¿Cuál era la ubicación geográfica de la persona que hizo las modificaciones?
- ¿Por qué se hizo un cambio y cuál es el contexto detrás de él?
Los requisitos para un sistema de linaje de datos están determinados principalmente por el rol de un individuo y el objetivo de la organización. Sin embargo, el linaje de datos puede tener un impacto significativo en áreas que incluyen:
- Toma de decisiones estratégicas: el linaje de datos permite a los usuarios comerciales comprender mejor los datos procesados al ver cómo pasaron por las transformaciones. Estos datos son cruciales para las operaciones comerciales y para mejorar los productos y servicios.
- Uso óptimo de conjuntos de datos nuevos y antiguos: el linaje de datos permite a las empresas rastrear diferentes conjuntos de datos a medida que cambian debido a la evolución de las técnicas y tecnologías de recopilación.
- Migración de datos: el linaje de datos ayuda a los equipos de TI a mover datos a una nueva ubicación de almacenamiento rápidamente al comprender la ubicación y el ciclo de vida de las fuentes de datos, lo que hace que los proyectos de migración sean menos riesgosos.
- Gobernanza de datos: dado que el linaje de datos brinda visibilidad granular sobre el ciclo de vida de los datos, ayuda a las empresas a administrar los riesgos, cumplir con las regulaciones de la industria y realizar auditorías.
Los profesionales ven el linaje de datos como una práctica de dataGovOps donde el linaje, las pruebas y el sandboxing se incluyen en las prácticas de gobierno de datos.
"El linaje de datos es una de las tecnologías más importantes para "conocer" los panoramas de datos de los clientes y comprender las transformaciones de datos implementadas".
Wolfgang Strasser
Consultor de datos en Cubido Business Solutions GMBH
Wolfgang Strasser agregó además: "La necesidad de comprender las dependencias entre las islas de datos y los sistemas en las organizaciones es vital. No solo se requiere desde un punto de vista técnico; cuanto mejor sepa cómo fluyen sus datos entre los sistemas, podrá reaccionar mejor y ver de dónde se originó una parte de la información, así como las transformaciones que se aplicaron en el camino hacia el sistema de destino. En algunos de nuestros proyectos, hemos podido encontrar dependencias del sistema que incluso el cliente no conocía".
Hay varias formas en que el linaje de datos puede ayudar a las personas en diferentes roles laborales. Por ejemplo, un desarrollador de ETL puede encontrar errores en un trabajo de ETL y verificar cualquier modificación en los campos de datos, como eliminaciones de columnas, adiciones o cambios de nombre. Un administrador de datos puede usar el linaje para identificar el activo de datos menos y más útil en un trabajo de ETL. Para los usuarios comerciales, ayuda a verificar la precisión de los informes e identificar los procesos y trabajos involucrados cuando se generan informes incorrectos.
El linaje de datos también encuentra su aplicación en aprendizaje automático, donde se utiliza para volver a entrenar modelos basados en datos nuevos o modificados. También ayuda a reducir deriva del modelo. La deriva del modelo se refiere a la degradación del rendimiento del modelo debido a cambios en los datos y las relaciones entre las variables de entrada y salida.
Linaje de datos de granularidad gruesa frente a granularidad fina
Los académicos a veces usan el linaje de datos de grano grueso y de grano fino de manera diferente, pero el concepto básicamente cubre el nivel de linaje de datos que un usuario puede obtener.
El linaje de datos de granularidad gruesa describe canalizaciones de datos, bases de datos, tablas y cómo están interconectados. Por lo general, un sistema de recopilación de linaje acumula linaje de grano grueso en tiempo de ejecución. Capturan la interconexión entre canalizaciones de datos, bases de datos y tablas sin detalles sobre las transformaciones utilizadas para modificar los datos. Esto les ayuda a reducir sus gastos generales de captura (información detallada sobre el flujo de datos). En una situación en la que un usuario desea realizar un análisis forense con fines de depuración, tendría que reproducir el flujo de datos para recopilar un linaje de datos detallado.
Por otro lado, el linaje de datos de grano fino cubre transformaciones aplicadas detalladas que crean o modifican datos. Los sistemas de recopilación de linaje activo capturan el linaje de datos de grano fino o grueso en tiempo de ejecución. Permite una excelente reproducción y depuración. Sin embargo, los gastos generales de captura son altos debido al volumen de datos de linaje detallados.
Casos de uso de linaje de datos
El linaje de datos ayuda a las organizaciones a rastrear el flujo de datos a lo largo del ciclo de vida, ver las dependencias y comprender las transformaciones. Los equipos aprovechan la vista granular del flujo de datos y la usan para muchos propósitos.
Identificar la causa raíz de los errores
Existe confusión en situaciones en las que las cifras de ventas no coinciden con los registros del departamento de finanzas, y es difícil identificar dónde se encuentra el error real. El linaje de datos proporciona una explicación razonable para tales casos. Los administradores de inteligencia comercial (BI) pueden usar el linaje de datos para rastrear el flujo de datos completo y ver las modificaciones realizadas durante el procesamiento.
Independientemente de si existe un error, los gerentes de BI pueden sentirse seguros al proporcionar una explicación razonable de la situación. Si hay un error, los equipos pueden corregirlo en su origen, lo que permite la uniformidad de los datos del usuario final en diferentes equipos.
Actualizaciones del sistema
Al actualizar o migrar a un nuevo sistema, es esencial comprender qué conjuntos de datos son relevantes y cuáles se han vuelto obsoletos o inexistentes. El linaje de datos lo ayuda a conocer los datos que realmente usa para llevar a cabo operaciones comerciales y limitar el gasto en almacenamiento y administración de datos irrelevantes.

Con el linaje de datos, puede planificar y ejecutar sin problemas las migraciones y actualizaciones del sistema. Le ayuda a visualizar las fuentes de datos, las dependencias y los procesos, lo que le permite saber exactamente qué necesita migrar.
Análisis de impacto
Cualquier buen negocio identifica informes, elementos de datos y usuarios finales afectados antes de implementar un cambio. El software de linaje de datos ayuda a los equipos a visualizar objetos de datos posteriores y medir el impacto del cambio.
El linaje de datos le permite ver cómo los usuarios empresariales interactúan con los datos y cómo les afectaría un cambio. Ayuda a las empresas a comprender el impacto de una modificación en particular y les permite decidir si deben seguir adelante.
Técnicas de linaje de datos
Las organizaciones pueden realizar el linaje de datos en conjuntos de datos estratégicos utilizando algunas técnicas estándar. Estas técnicas aseguran que se realice un seguimiento de cada transformación o procesamiento de datos, lo que le permite mapear elementos de datos en cada etapa cuando los activos de información pasan por los procesos.
Las técnicas de linaje de datos recopilan y almacenan metadatos después de cada transformación de datos, que luego se utilizan para la representación del linaje de datos.
Linaje por análisis
Linaje mediante el análisis de una de las formas de linaje más avanzadas que lee la lógica utilizada para procesar datos. Puede obtener una trazabilidad completa de extremo a extremo mediante la lógica de transformación de datos de ingeniería inversa.
La técnica de linaje mediante análisis es relativamente complicada de implementar, ya que requiere comprender todas las herramientas y lenguajes de programación utilizados para transformar y procesar datos. Esto puede incluir lógica ETL, soluciones basadas en lenguaje de consulta estructurado (SQL), soluciones JAVA, soluciones de lenguaje de marcado extensible (XML), formatos de datos heredados y más.
Es complicado crear una solución de linaje de datos que admita una docena de lenguajes de programación, y varias herramientas que admiten el procesamiento dinámico aumentan su complejidad. Al elegir una solución de linaje de datos, asegúrese de que tenga en cuenta los parámetros de entrada, la información de tiempo de ejecución y los valores predeterminados y analice todos estos elementos para automatizar la entrega de linaje de datos de extremo a extremo.
Linaje basado en patrones
El linaje basado en patrones usa patrones para proporcionar representación de linaje en lugar de leer cualquier código. El linaje basado en patrones aprovecha los metadatos sobre tablas, informes y columnas y los perfila para crear un linaje basado en similitudes y patrones comunes.
Sin duda, tiene la ventaja de monitorear datos en lugar de algoritmos en esta técnica. Su solución de linaje de datos no tiene que comprender los lenguajes de programación y las herramientas utilizadas para procesar datos. Se puede usar de la misma manera en cualquier tecnología de base de datos como Oracle o MySQL. Pero al mismo tiempo, esta técnica no siempre muestra resultados precisos. Muchos detalles, como la lógica de transformación, no están disponibles.
Este enfoque es adecuado para casos de uso de linaje de datos cuando no es posible comprender la lógica de programación debido a un código inaccesible o no disponible.
Linaje autónomo
El linaje autónomo realiza un seguimiento de cada movimiento y transformación de datos dentro de un entorno integral que proporciona lógica de procesamiento de datos, gestión de datos maestros y más. Se vuelve fácil rastrear el flujo de datos y su ciclo de vida.
Aún así, la solución autónoma sigue siendo exclusiva de un entorno específico y es ciega a todo lo que está fuera de él. A medida que aparecen nuevas necesidades y se utilizan nuevas herramientas para procesar los datos, la solución de linaje de datos independiente puede quedarse corta en la entrega de los resultados esperados.
Linaje por etiquetado de datos
Con el etiquetado de linaje por datos , cada pieza de datos que se mueve o transforma es etiquetada por un motor de transformación. Luego, todas las etiquetas se leen de principio a fin para producir una representación de linaje. Aunque parece ser una técnica eficaz de linaje de datos, solo funciona si existe un motor de transformación o una herramienta consistente para controlar el movimiento de datos.
Esta técnica excluye los movimientos de datos fuera del motor de transformación, lo que la hace adecuada para realizar el linaje de datos en sistemas de datos cerrados. En algunos casos, esta podría no ser una técnica de linaje de datos preferida. Por ejemplo, los desarrolladores se abstienen de agregar columnas de datos formales al modelo de solución en cada punto de contacto para los movimientos de datos.
Blockchain es una solución potencial para abordar las complejidades del linaje mediante el etiquetado de datos, pero no tiene una adopción generalizada suficiente para causar un impacto significativo en el ciclo de vida de los datos en las organizaciones.
linaje manual
El linaje manual implica hablar con las personas para comprender el flujo de datos en una organización y documentarlo. Puede entrevistar a propietarios de aplicaciones, especialistas en integración de datos, administradores de datos y otros asociados con el ciclo de vida de los datos. A continuación, puede definir el linaje utilizando hojas de cálculo con técnicas de mapeo simples.
A veces, puede encontrar información contradictoria o no entrevistar a alguien, lo que lleva a un linaje de datos incorrecto. Mientras revisa el código, también tendrá que revisar tablas manualmente, comparar columnas, etc., lo que lo convierte en un proceso tedioso y que requiere mucho tiempo. El volumen de código en crecimiento dinámico y su complejidad se suman a las complicaciones del linaje de datos manual.
Independientemente de estos desafíos, este enfoque resulta beneficioso para comprender lo que sucede en un entorno. El linaje de datos manual también resulta efectivo cuando el código no está disponible o es inaccesible.
Cómo implementar el linaje de datos
La implementación del linaje de datos depende en gran medida de la cultura de datos de su organización. Asegúrese de tener un marco de gestión de datos establecido y cree una colaboración sólida con los profesionales de gestión de datos y otras partes interesadas para una implementación exitosa del linaje de datos.
Siga estos siete pasos para implementar con éxito el linaje de datos en su organización.
- Identifique los impulsores comerciales clave: discuta las razones para implementar el linaje de datos y descubra si son cruciales para cumplir los objetivos comerciales. Estos motivos pueden incluir cambios comerciales, iniciativas de calidad de datos, requisitos de auditoría o requisitos legislativos.
- Incorporar a la alta gerencia en el proyecto: implementar el linaje de datos requiere muchos recursos (tanto humanos como financieros) y tiempo. Asegúrese de contar con el apoyo de la alta gerencia para llevar el proyecto de implementación hacia su finalización. Puede convencer a la gerencia explicando los beneficios del linaje de datos y cómo ayuda a cumplir con las regulaciones de la industria.
- Alcance de la iniciativa: una vez que la alta gerencia aprueba el proyecto, decida su alcance en función de los impulsores comerciales identificados y los elementos de datos críticos (CDE). Los elementos de datos críticos tienen el impacto más significativo en el desempeño de la organización y la experiencia del cliente.
- Defina el alcance: el alcance del linaje de datos comienza con las fuentes de datos y termina en el punto de uso final. Las grandes organizaciones pueden arreglar una longitud limitada de linaje de datos, ya que tienen muchas subsidiarias para evitar complicaciones.
- Prepare los requisitos comerciales: las partes interesadas pueden tener diferentes expectativas para el linaje de datos. Principalmente, hay partes interesadas comerciales y partes interesadas técnicas que tienen diferentes intereses. Las partes interesadas del negocio están más interesadas en el valor, el linaje de datos en los niveles de modelos de datos conceptuales y el análisis de causa raíz. Por el contrario, las partes interesadas técnicas tienen intereses en el análisis de impacto, el linaje de diseño de metadatos y el linaje de datos a nivel físico.
- Arreglar un método para documentar el linaje de datos: puede ir con documentación de linaje de datos descriptiva o automatizada. Evalúe qué forma sería más adecuada para su organización, teniendo en cuenta el tiempo y los recursos que consumirá.
- Elija un software de linaje de datos adecuado: seleccione la solución de software de linaje de datos que mejor se adapte a sus objetivos y expectativas. puedes explorar software de gestión de datos maestros que ofrece capacidades de linaje automatizadas.
Mejores prácticas de linaje de datos
Lineage lo ayuda a obtener datos confiables y precisos para respaldar el proceso de toma de decisiones de su empresa. La planificación e implementación es un elemento crítico del gobierno de datos: debe estar seguro de dónde provienen sus datos y hacia dónde lo llevan.
Hay algunas prácticas que puede considerar al planificar e implementar el linaje de datos en su organización:
- Automatice la extracción del linaje de datos: los datos y su linaje son una entidad dinámica. Debe ir más allá de la captura manual del linaje de datos en hojas de cálculo y automatizar el proceso para competir en un entorno ágil.
- Incluya la fuente de metadatos: los sistemas de administración de bases de datos, las herramientas de big data, el software ETL y otras aplicaciones personalizadas crean sus propios datos sobre los datos que procesan. Incluya estos metadatos en su linaje, ya que ayudan a comprender el flujo de datos y las modificaciones.
- Verifique las fuentes de metadatos: anime a los propietarios de aplicaciones y herramientas a verificar las respectivas fuentes de metadatos, ya que son ellos quienes entienden claramente la precisión y relevancia de los metadatos.
- Planifique la extracción progresiva: extraiga metadatos y linaje en el mismo orden en que los datos fluyen a través de su sistema. Simplifica el mapeo de conexiones, relaciones y dependencias entre sistemas y dentro de los datos.
- Valide el linaje de datos de extremo a extremo: valide el linaje progresivamente comenzando desde conexiones de alto nivel entre sistemas y luego profundice en conjuntos de datos conectados seguidos de elementos de datos antes de validar la documentación de transformaciones.
- Implementar software de catálogo de datos: Adoptar un software de catálogo de datos inteligente y automatizado para recopilar datos de linaje de todas las fuentes. Este software también le permite extraer e inferir el linaje de los metadatos.
Seguimiento del flujo de datos a nivel granular
El linaje de datos permite a las organizaciones obtener una visibilidad granular del flujo de datos a lo largo del ciclo de vida y las ayuda a identificar la causa raíz de los errores, administrar el gobierno de datos, realizar análisis de impacto y tomar decisiones comerciales basadas en datos.
Documentar el linaje de los datos puede ser complicado, pero es beneficioso para las organizaciones entender y usar sus datos de manera efectiva.
Obtenga más información sobre cómo obtener datos en tiempo real para tomar decisiones comerciales estratégicas con la virtualización de datos.