O que é linhagem de dados? Por que é importante acompanhar o fluxo de dados

Publicados: 2021-09-28

Alguns profissionais veem a linhagem de dados como o GPS dos dados.

É porque a linhagem de dados ajuda os usuários a obter uma visão geral do caminho e das transformações dos dados. Ele documenta como os dados são processados, transformados e transmitidos para constituir informações significativas que as empresas usam para executar suas operações.

A linhagem de dados ajuda as empresas a obter uma visão granular de como os dados fluem da origem ao destino. Muitas organizações usam   software de virtualização de dados   com linhagem de dados para ajudá-los a rastrear seus dados enquanto fornecem informações em tempo real aos usuários.

A linhagem de dados informa os engenheiros sobre as transformações de dados e por que elas ocorrem. Ele ajuda as organizações a rastrear erros, realizar migrações de sistema, aproximar descoberta de dados e metadados e implementar mudanças de processo com menos risco.

Representação da linhagem de dados

As decisões estratégicas de negócios dependem da precisão dos dados. Sem uma boa linhagem de dados, torna-se um desafio rastrear os processos de dados e verificá-los. A linhagem de dados permite que os usuários visualizem o fluxo completo de informações da origem ao destino, facilitando a detecção e correção de anomalias. Com a linhagem de dados, os usuários podem reproduzir partes ou entradas específicas do fluxo de dados para depurar ou gerar saída perdida.

Em situações em que os usuários não precisam de detalhes sobre a linhagem técnica, eles usam a proveniência dos dados para obter uma visão geral de alto nível do fluxo de dados. Muitos   sistemas de banco de dados   aproveitar a proveniência dos dados para enfrentar os desafios de depuração e validação.

O que é proveniência de dados?

A proveniência dos dados é a documentação de onde os dados vêm e os métodos pelos quais são produzidos.

Embora a proveniência de dados e a linhagem de dados tenham semelhanças, a proveniência de dados é mais útil para usuários de negócios que precisam de uma visão geral de alto nível de onde os dados vêm. Pelo contrário, a linhagem de dados inclui tanto a linhagem de nível de negócios quanto a de nível técnico e fornece uma visão granular do fluxo de dados.

Linhagem de dados e governança de dados

A governança de dados é o conjunto de regras e procedimentos que as organizações usam para manter e controlar os dados. A linhagem de dados é uma parte essencial da governança de dados, pois informa como os dados fluem da origem para o destino.

As empresas usam diferentes camadas de linhagens de dados com base em suas necessidades. Níveis mais baixos de linhagem de dados fornecem uma representação visual simples de como os dados fluem dentro de uma organização, sem incluir detalhes específicos sobre as transformações que ocorrem à medida que se movem pelo pipeline. O nível mais alto é a linhagem de dados em nível de atributo que oferece insights sobre como o fluxo de dados pode ser otimizado e maneiras de melhorar as plataformas de dados.

As organizações escolhem o nível de linhagem de dados com base em sua estrutura de governança, custos incorridos na implementação e monitoramento, preocupações regulatórias e o impacto que isso teria nos negócios.

Compreender a linhagem de dados é um aspecto crítico do gerenciamento de metadados, tornando-o essencial para   armazém de dados   e administradores de data lake. O gerenciamento de metadados permite visualizar o fluxo de dados através de vários sistemas, facilitando a localização de todos os dados associados a um determinado relatório ou processo de extração, transformação, carregamento (ETL).

"Coletar a linhagem de dados - descrevendo a origem, estrutura e dependências dos dados - aumenta automaticamente a qualidade dos metadados fornecidos e reduz o esforço manual."

Josef Viehhauser
Líder de plataforma na BMW

Por que a linhagem de dados é importante?

A linhagem de dados não apenas ajuda a corrigir problemas ou realizar migrações de sistema, mas também permite garantir a confidencialidade e a integridade dos dados rastreando as alterações, como elas foram realizadas e quem as fez.

Com a linhagem de dados, as equipes de TI podem visualizar a jornada completa dos dados do início ao fim. Ele facilita o trabalho de um profissional de TI e fornece aos usuários de negócios a confiança necessária para tomar decisões eficazes.

As ferramentas de linhagem de dados ajudam você a responder às seguintes perguntas:

  • Como os dados foram alterados e por qual processo?
  • Quem foi responsável pelas modificações de dados?
  • Quando foi feita a mudança?
  • Qual era a localização geográfica da pessoa que fez as modificações?
  • Por que uma mudança foi feita e qual é o contexto por trás dela?

Os requisitos para um sistema de linhagem de dados são determinados principalmente pela função de um indivíduo e pelo objetivo da organização. No entanto, a linhagem de dados pode ter um impacto significativo em áreas que incluem:

  • Tomada de decisão estratégica: a linhagem de dados permite que os usuários de negócios entendam melhor os dados processados, visualizando como eles passaram por transformações. Esses dados são cruciais para as operações comerciais e para a melhoria de produtos e serviços.
  • Uso ideal de conjuntos de dados novos e antigos: a linhagem de dados permite que as empresas rastreiem diferentes conjuntos de dados à medida que mudam devido à evolução das técnicas e tecnologias de coleta.
  • Migração de dados: a linhagem de dados ajuda as equipes de TI a mover os dados para um novo local de armazenamento rapidamente, entendendo a localização e o ciclo de vida das fontes de dados, tornando os projetos de migração menos arriscados.
  • Governança de dados: como a linhagem de dados fornece visibilidade granular sobre o ciclo de vida dos dados, ela ajuda as empresas a gerenciar riscos, cumprir as regulamentações do setor e realizar auditorias.

Os profissionais veem a linhagem de dados como uma prática de dataGovOps, na qual a linhagem, os testes e o sandboxing se enquadram nas práticas de governança de dados.

"A linhagem de dados é uma das tecnologias mais importantes para "conhecer" os cenários de dados dos clientes e entender as transformações de dados implementadas."

Wolfgang Strasser
Consultor de dados na Cubido Business Solutions GMBH

Wolfgang Strasser acrescentou ainda: "A necessidade de entender as dependências entre as ilhas de dados e os sistemas nas organizações é vital. Não é necessário apenas do ponto de vista técnico; quanto melhor você souber como seus dados fluem entre os sistemas, você poderá reagir melhor e ver de onde se originou uma informação e as transformações que foram aplicadas no caminho para o sistema de destino. Em alguns de nossos projetos, conseguimos encontrar dependências do sistema que nem o cliente tinha conhecimento."

Existem várias maneiras pelas quais a linhagem de dados pode ajudar indivíduos em diferentes funções de trabalho. Por exemplo, um desenvolvedor de ETL pode encontrar bugs em um trabalho de ETL e verificar quaisquer modificações nos campos de dados, como exclusões, adições ou renomeações de colunas. Um administrador de dados pode usar a linhagem para identificar o ativo de dados menos e mais útil em uma tarefa de ETL. Para usuários de negócios, ajuda a verificar a precisão dos relatórios e identificar os processos e trabalhos envolvidos quando relatórios incorretos são gerados.

A linhagem de dados também encontra sua aplicação em   aprendizado de máquina, onde é usado para treinar novamente modelos com base em dados novos ou modificados. Também ajuda a reduzir   desvio do modelo. A deriva do modelo refere-se à degradação do desempenho do modelo devido a mudanças nos dados e nas relações entre as variáveis ​​de entrada e saída.

Linhagem de dados de granulação grosseira vs. de granulação fina

Os estudiosos acadêmicos às vezes usam linhagem de dados de granulação grossa e granularidade de maneira diferente, mas o conceito basicamente abrange o nível de linhagem de dados que um usuário pode obter.

Linhagem de granulação grosseira vs. linhagem de granulação fina

A linhagem de dados grosseira descreve pipelines de dados, bancos de dados, tabelas e como eles estão interconectados. Normalmente, um sistema de coleta de linhagem acumula linhagem de granulação grossa em tempo de execução. Eles capturam a interconexão entre pipelines de dados, bancos de dados e tabelas sem detalhes sobre transformações usadas para modificar dados. Isso os ajuda a reduzir as despesas gerais de captura (informações detalhadas sobre o fluxo de dados). Em uma situação em que um usuário deseja realizar uma análise forense para fins de depuração, ele precisa reproduzir o fluxo de dados para coletar uma linhagem de dados detalhada.

Por outro lado, a linhagem de dados refinada abrange transformações aplicadas detalhadas que criam ou modificam dados. Os sistemas de coleta de linhagem ativa capturam linhagem de dados de granulação grossa ou granular fina em tempo de execução. Permite excelente reprodução e depuração. No entanto, as despesas gerais de captura são altas devido ao volume de dados de linhagem refinados.

Casos de uso de linhagem de dados

A linhagem de dados ajuda as organizações a rastrear o fluxo de dados ao longo do ciclo de vida, ver dependências e entender as transformações. As equipes aproveitam a visão granular do fluxo de dados e a usam para muitas finalidades.

Identificando a causa raiz dos erros

Há confusão em situações em que os números de vendas não correspondem aos registros do departamento financeiro e é difícil identificar onde existe o erro real. A linhagem de dados fornece uma explicação razoável para tais instâncias. Os gerentes de business intelligence (BI) podem usar a linhagem de dados para rastrear o fluxo de dados completo e ver quaisquer modificações feitas durante o processamento.

Independentemente de existir um erro, os gerentes de BI podem se sentir confiantes em fornecer uma explicação razoável para a situação. Se houver um erro, as equipes podem corrigi-lo em sua origem, permitindo a uniformidade dos dados do usuário final em diferentes equipes.

Atualizações do sistema

Ao atualizar ou migrar para um novo sistema, é essencial entender quais conjuntos de dados são relevantes e quais se tornaram obsoletos ou inexistentes. A linhagem de dados ajuda você a conhecer os dados que você realmente usa para realizar operações comerciais e limitar os gastos com armazenamento e gerenciamento de dados irrelevantes.

Com a linhagem de dados, você pode planejar e executar migrações e atualizações do sistema de forma transparente. Ele ajuda você a visualizar as fontes de dados, dependências e processos, permitindo que você saiba exatamente o que precisa migrar.

Análise de impacto

Qualquer bom negócio identifica relatórios, elementos de dados e usuários finais afetados antes de implementar uma mudança. O software de linhagem de dados ajuda as equipes a visualizar objetos de dados downstream e medir o impacto da mudança.

A linhagem de dados permite ver como os usuários de negócios interagem com os dados e como uma alteração os afetaria. Ele ajuda as empresas a entender o impacto de uma modificação específica e permite que decidam se devem seguir adiante.

Técnicas de linhagem de dados

As organizações podem realizar a linhagem de dados em conjuntos de dados estratégicos usando algumas técnicas padrão. Essas técnicas garantem que cada transformação ou processamento de dados seja rastreado, permitindo mapear elementos de dados em todas as etapas em que os ativos de informação passam por processos.

As técnicas de linhagem de dados coletam e armazenam metadados após cada transformação de dados, que são posteriormente usados ​​para representação de linhagem de dados.

Linhagem por análise

Linhagem analisando uma das formas de linhagem mais avançadas que lê a lógica usada para processar dados. Você pode obter rastreabilidade abrangente de ponta a ponta por meio da lógica de transformação de dados de engenharia reversa.

A técnica de linhagem por análise é relativamente complicada de implantar, pois requer a compreensão de todas as ferramentas e linguagens de programação usadas para transformar e processar dados. Isso pode incluir lógica ETL, soluções baseadas em linguagem de consulta estruturada (SQL), soluções JAVA, soluções de linguagem de marcação extensível (XML), formatos de dados legados e muito mais.

É complicado criar uma solução de linhagem de dados que suporte uma dúzia de linguagens de programação, e várias ferramentas que suportam processamento dinâmico aumentam sua complexidade. Ao escolher uma solução de linhagem de dados, certifique-se de que ela considere os parâmetros de entrada, informações de tempo de execução e valores padrão e analise todos esses elementos para automatizar a entrega de linhagem de dados de ponta a ponta.

Linhagem baseada em padrões

A linhagem baseada em padrões usa padrões para fornecer representação de linhagem em vez de ler qualquer código. A linhagem baseada em padrões aproveita metadados sobre tabelas, relatórios e colunas e cria perfis para criar uma linhagem com base em semelhanças e padrões comuns.

Você sem dúvida tem a vantagem de monitorar dados em vez de algoritmos nesta técnica. Sua solução de linhagem de dados não precisa entender linguagens de programação e ferramentas usadas para processar dados. Ele pode ser usado da mesma maneira em qualquer tecnologia de banco de dados, como Oracle ou MySQL. Mas, ao mesmo tempo, essa técnica nem sempre mostra resultados precisos. Muitos detalhes, como lógica de transformação, não estão disponíveis.

Essa abordagem é adequada para casos de uso de linhagem de dados quando a compreensão da lógica de programação não é possível devido ao código inacessível ou indisponível.

Linhagem independente

A linhagem independente rastreia cada movimento e transformação de dados em um ambiente abrangente que fornece lógica de processamento de dados, gerenciamento de dados mestre e muito mais. Torna-se fácil acompanhar o fluxo de dados e seu ciclo de vida.

Ainda assim, a solução independente permanece exclusiva para um ambiente específico e é cega para tudo fora dele. À medida que surgem novas necessidades e novas ferramentas são usadas para processar dados, a solução de linhagem de dados independente pode ficar aquém da entrega dos resultados esperados.

Linhagem por marcação de dados

Com a linhagem por marcação de dados , cada dado que se move ou se transforma é marcado por um mecanismo de transformação. Todas as tags são lidas do início ao fim para produzir uma representação de linhagem. Embora pareça ser uma técnica de linhagem de dados eficaz, ela só funciona se houver um mecanismo ou ferramenta de transformação consistente para controlar a movimentação de dados.

Essa técnica exclui as movimentações de dados fora do mecanismo de transformação, tornando-a adequada para realizar a linhagem de dados em sistemas de dados fechados. Em alguns casos, isso pode não ser uma técnica de linhagem de dados preferida. Por exemplo, os desenvolvedores evitam adicionar colunas de dados formais ao modelo de solução em cada ponto de contato para movimentações de dados.

Blockchain é uma solução potencial para lidar com as complexidades da linhagem por marcação de dados, mas não tem adoção ampla o suficiente para causar um impacto significativo no ciclo de vida dos dados nas organizações.

Linhagem manual

A linhagem manual envolve conversar com as pessoas para entender o fluxo de dados em uma organização e documentá-lo. Você pode entrevistar proprietários de aplicativos, especialistas em integração de dados, administradores de dados e outros associados ao ciclo de vida dos dados. Em seguida, você pode definir a linhagem usando planilhas com técnicas simples de mapeamento.

Às vezes, você pode encontrar informações contraditórias ou deixar de entrevistar alguém, levando a uma linhagem de dados imprópria. Ao percorrer o código, você também terá que revisar manualmente as tabelas, comparar colunas e assim por diante, tornando-o um processo demorado e tedioso. O volume de código que cresce dinamicamente e sua complexidade aumentam as complicações manuais da linhagem de dados.

Independentemente desses desafios, essa abordagem se mostra benéfica para entender o que está acontecendo em um ambiente. A linhagem de dados manual também se mostra eficaz quando o código está indisponível ou inacessível.

Como implementar a linhagem de dados

A implementação da linhagem de dados depende fortemente da cultura de dados da sua organização. Garanta que você tenha uma estrutura de gerenciamento de dados estabelecida e construa uma forte colaboração com profissionais de gerenciamento de dados e outras partes interessadas para uma implementação bem-sucedida da linhagem de dados.

Siga estas sete etapas para implementar com sucesso a linhagem de dados em sua organização.

  1. Identifique os principais impulsionadores de negócios: discuta os motivos para implementar a linhagem de dados e descubra se eles são cruciais para atingir os objetivos de negócios. Esses motivos podem incluir mudanças nos negócios, iniciativas de qualidade de dados, requisitos de auditoria ou requisitos de legislação.
  2. Gestão sênior integrada no projeto: A implementação da linhagem de dados requer muitos recursos (tanto humanos quanto financeiros) e tempo. Certifique-se de ter o apoio da alta administração para levar o projeto de implementação até a conclusão. Você pode convencer o gerenciamento explicando os benefícios da linhagem de dados e como ela ajuda a cumprir as regulamentações do setor.
  3. Escopo da iniciativa: Depois que a alta administração aprovar o projeto, decida seu escopo com base nos direcionadores de negócios identificados e nos elementos de dados críticos (CDE). Os elementos de dados críticos têm o impacto mais significativo no desempenho da organização e na experiência do cliente.
  4. Defina o escopo: O escopo da linhagem de dados começa com as fontes de dados e termina no ponto de uso final. Grandes organizações podem corrigir um comprimento limitado de linhagem de dados, pois possuem muitas subsidiárias para evitar complicações.
  5. Preparar os requisitos de negócios: as partes interessadas podem ter expectativas diferentes para a linhagem de dados. Principalmente, existem partes interessadas de negócios e partes interessadas técnicas que têm interesses diferentes. As partes interessadas de negócios estão mais interessadas em valor, linhagem de dados em níveis de modelo de dados conceituais e análise de causa raiz. Pelo contrário, as partes interessadas técnicas têm interesse em análise de impacto, linhagem de design de metadados e linhagem de dados em nível físico.
  6. Corrija um método para documentar a linhagem de dados: você pode usar a documentação descritiva ou automatizada da linhagem de dados. Avalie qual caminho seria mais adequado para sua organização, considerando o tempo e os recursos que ela consumirá.
  7. Escolha um software de linhagem de dados adequado: Selecione uma solução de software de linhagem de dados que melhor se adapte às suas metas e expectativas. Você pode explorar   software de gerenciamento de dados mestre   que oferece recursos de linhagem automatizados.

Práticas recomendadas de linhagem de dados

O Lineage ajuda você a obter dados confiáveis ​​e precisos para apoiar o processo de tomada de decisão da sua empresa. Planejar e implementar é um elemento crítico da governança de dados - você precisa ter certeza de onde seus dados estão vindo e para onde estão levando você.

Existem algumas práticas que você pode considerar ao planejar e implementar a linhagem de dados em sua organização:

  • Automatize a extração de linhagem de dados: Os dados e sua linhagem são uma entidade dinâmica. Você precisa ir além da captura manual da linhagem de dados em planilhas e automatizar o processo para competir em um ambiente ágil.
  • Incluir fonte de metadados: sistemas de gerenciamento de banco de dados, ferramentas de big data, software ETL e outros aplicativos personalizados criam seus próprios dados sobre os dados que processam. Inclua esses metadados em sua linhagem, pois ajuda a entender o fluxo de dados e as modificações.
  • Verificar fontes de metadados: Incentive os proprietários de aplicativos e ferramentas a verificar as respectivas fontes de metadados, pois são eles que entendem claramente a precisão e a relevância dos metadados.
  • Planeje a extração progressiva: extraia metadados e linhagem na mesma ordem em que os dados fluem pelo sistema. Ele simplifica o mapeamento de conexões, relacionamentos e dependências entre sistemas e dentro de dados.
  • Valide a linhagem de dados de ponta a ponta: valide a linhagem progressivamente começando a partir de conexões de alto nível entre sistemas e, em seguida, aprofunde-se em conjuntos de dados conectados seguidos por elementos de dados antes de validar a documentação das transformações.
  • Implementar software de catálogo de dados: Adote um   software de catálogo de dados inteligente e automatizado   para coletar dados de linhagem de todas as fontes. Este software também permite extrair e inferir a linhagem dos metadados.

Acompanhe o fluxo de dados em um nível granular

A linhagem de dados permite que as organizações obtenham visibilidade granular do fluxo de dados ao longo do ciclo de vida e as ajuda a identificar a causa raiz dos erros, gerenciar a governança de dados, realizar análises de impacto e tomar decisões de negócios orientadas por dados.

Documentar a linhagem de dados pode ser complicado, mas é benéfico para as organizações entenderem e usarem efetivamente seus dados.

Saiba mais sobre como obter dados em tempo real para tomar decisões estratégicas de negócios com a virtualização de dados.