데이터 계보란 무엇입니까? 데이터 흐름을 추적하는 것이 중요한 이유

게시 됨: 2021-09-28

일부 전문가는 데이터 계보를 데이터의 GPS로 봅니다.

데이터 계보는 사용자가 데이터 경로 및 변환에 대한 시각적 개요를 얻는 데 도움이 되기 때문입니다. 데이터가 처리, 변환 및 전송되어 기업이 운영에 사용하는 의미 있는 정보를 구성하는 방법을 문서화합니다.

데이터 계보를 통해 기업은 데이터가 소스에서 대상으로 흐르는 방식을 세부적으로 볼 수 있습니다. 많은 조직에서 사용 데이터 가상화 소프트웨어 사용자에게 실시간 정보를 제공하면서 데이터를 추적하는 데 도움이 되는 데이터 계보를 사용합니다.

데이터 계보란 무엇입니까?

데이터 계보 는 데이터의 출처를 식별하고 시간이 지남에 따라 데이터가 어떻게 변환 및 이동하는지 기록하고 데이터 소스에서 최종 사용자까지의 흐름을 시각화하는 프로세스입니다. 이를 통해 데이터 과학자는 데이터 역학에 대한 세부적인 가시성을 확보하고 오류를 근본 원인으로 다시 추적할 수 있습니다.

데이터 계보는 엔지니어에게 데이터 변환과 이러한 변환이 발생하는 이유를 알려줍니다. 이는 조직이 오류를 추적하고, 시스템 마이그레이션을 수행하고, 데이터 검색과 메타데이터를 더 가깝게 만들고, 위험을 최소화하면서 프로세스 변경을 구현하는 데 도움이 됩니다.

데이터 계보 표현

전략적 비즈니스 결정은 데이터 정확성에 달려 있습니다. 좋은 데이터 계보가 없으면 데이터 프로세스를 추적하고 확인하는 것이 어려워집니다. 데이터 계보를 통해 사용자는 원본에서 대상까지 정보의 전체 흐름을 시각화할 수 있으므로 이상 징후를 더 쉽게 감지하고 수정할 수 있습니다. 데이터 계보를 통해 사용자는 데이터 흐름의 특정 부분 또는 입력을 재생하여 디버그하거나 손실된 출력을 생성할 수 있습니다.

사용자가 기술 계보에 대한 세부 정보가 필요하지 않은 상황에서는 데이터 출처를 사용하여 데이터 흐름에 대한 높은 수준의 개요를 얻습니다. 많은 데이터베이스 시스템 데이터 출처를 활용하여 디버깅 및 검증 문제를 해결합니다.

데이터 출처란 무엇입니까?

데이터 출처는 데이터의 출처와 생성 방법에 대한 문서입니다.

데이터 출처와 데이터 계보가 유사하지만 데이터 출처는 데이터 출처에 대한 높은 수준의 개요가 필요한 비즈니스 사용자에게 더 유용합니다. 반대로 데이터 계보는 비즈니스 수준 및 기술 수준 계보를 모두 포함하며 데이터 흐름에 대한 세분화된 보기를 제공합니다.

데이터 계보 및 데이터 거버넌스

데이터 거버넌스는 조직에서 데이터를 유지 관리하고 제어하는 데 사용하는 일련의 규칙 및 절차입니다. 데이터 계보는 데이터가 소스에서 대상으로 흐르는 방식을 알려주기 때문에 데이터 거버넌스의 필수적인 부분입니다.

기업은 필요에 따라 다양한 계층의 데이터 계보를 사용합니다. 낮은 수준의 데이터 계보는 파이프라인을 통해 이동할 때 발생하는 변환에 대한 특정 세부 정보를 포함하지 않고 데이터가 조직 내에서 어떻게 흐르는지 시각적으로 간단하게 표현합니다. 가장 높은 계층은 데이터 흐름을 최적화하는 방법과 데이터 플랫폼을 개선하는 방법에 대한 통찰력을 제공하는 속성 수준 데이터 계보입니다.

조직은 거버넌스 구조, 구현 및 모니터링에서 발생하는 비용, 규제 문제, 비즈니스에 미칠 영향을 기준으로 데이터 계보 계층을 선택합니다.

데이터 계보를 이해하는 것은 메타데이터 관리의 중요한 측면이므로 데이터웨어 하우스 및 데이터 레이크 관리자. 메타데이터 관리를 통해 다양한 시스템을 통한 데이터 흐름을 볼 수 있으므로 특정 보고서 또는 ETL(추출, 변환, 로드) 프로세스와 관련된 모든 데이터를 쉽게 찾을 수 있습니다.

"데이터의 출처, 구조 및 종속성을 설명하는 데이터 계보를 수집하면 제공된 메타데이터의 품질이 자동으로 향상되고 수동 작업이 줄어듭니다."

요제프 비하우저
BMW 플랫폼 책임자

데이터 계보가 중요한 이유는 무엇입니까?

데이터 계보는 문제를 해결하거나 시스템 마이그레이션을 수행하는 데 도움이 될 뿐만 아니라 변경 내용, 수행 방법 및 변경한 사람을 추적하여 데이터의 기밀성과 무결성을 보장할 수 있습니다.

데이터 계보를 통해 IT 팀은 처음부터 끝까지 데이터의 종단 간 여정을 시각화할 수 있습니다. IT 전문가의 작업을 더 쉽게 만들고 비즈니스 사용자에게 효과적인 결정을 내릴 수 있는 자신감을 제공합니다.

데이터 연계 도구는 다음 질문에 답하는 데 도움이 됩니다.

데이터는 어떻게, 어떤 과정을 거쳐 변경되었습니까?
누가 데이터 수정을 담당했습니까?
언제 변경되었습니까?
수정한 사람의 지리적 위치는 어디였습니까?
변경한 이유는 무엇이며 그 배경은 무엇입니까?

데이터 계보 시스템에 대한 요구 사항은 주로 개인의 역할과 조직의 목표에 따라 결정됩니다. 그러나 데이터 계보는 다음과 같은 영역에서 상당한 영향을 미칠 수 있습니다.

전략적 의사 결정: 데이터 계보를 통해 비즈니스 사용자는 처리된 데이터가 어떻게 변환되었는지 확인하여 처리된 데이터를 더 잘 이해할 수 있습니다. 이 데이터는 비즈니스 운영과 제품 및 서비스 개선에 매우 중요합니다.
신규 및 기존 데이터 세트의 최적 사용: 데이터 계보를 통해 기업은 수집 기술 및 기술의 발전으로 인해 변경되는 다양한 데이터 세트를 추적할 수 있습니다.
데이터 마이그레이션: 데이터 계보는 IT 팀이 데이터 소스의 위치와 수명 주기를 이해함으로써 데이터를 새로운 스토리지 위치로 신속하게 이동하여 마이그레이션 프로젝트의 위험을 줄이는 데 도움이 됩니다.
데이터 거버넌스: 데이터 계보는 데이터 수명 주기에 대한 세부적인 가시성을 제공하므로 기업이 위험을 관리하고, 산업 규정을 준수하고, 감사를 수행하는 데 도움이 됩니다.

전문가 들은 데이터 계보를 계보, 테스트 및 샌드박싱이 데이터 거버넌스 관행에 포함되는 dataGovOps 관행으로 봅니다.

"데이터 계보는 고객의 데이터 환경을 "알고" 구현된 데이터 변환을 이해하는 가장 중요한 기술 중 하나입니다."
볼프강 슈트라서
Cubido Business Solutions GMBH 데이터 컨설턴트

Wolfgang Strasser는 "조직의 데이터 섬과 시스템 간의 종속성을 이해하는 것이 중요합니다. 이는 기술적인 관점에서만 요구되는 것이 아닙니다. 시스템 간의 데이터 흐름을 더 잘 알면 더 잘 대응하고 볼 수 있습니다. 대상 시스템으로 가는 도중에 적용된 변환뿐만 아니라 정보의 일부가 시작된 곳입니다. 일부 프로젝트에서는 고객도 인식하지 못하는 시스템 종속성을 찾을 수 있었습니다."

데이터 계보가 다양한 직무 역할에 있는 개인을 도울 수 있는 다양한 방법이 있습니다. 예를 들어 ETL 개발자는 ETL 작업에서 버그를 찾고 열 삭제, 추가 또는 이름 바꾸기와 같은 데이터 필드의 수정 사항을 확인할 수 있습니다. 데이터 관리자는 계보를 사용하여 ETL 작업에서 가장 유용하지 않은 데이터 자산을 식별할 수 있습니다. 비즈니스 사용자의 경우 보고서의 정확성을 확인하고 잘못된 보고서가 생성될 때 관련된 프로세스 및 작업을 식별하는 데 도움이 됩니다.

데이터 계보는 또한 다음에서 응용 프로그램을 찾습니다. 새로운 데이터 또는 수정된 데이터를 기반으로 모델을 재교육하는 데 사용되는 머신 러닝. 줄이는 데도 도움이 됩니다 모델 드리프트. 모델 드리프트는 입력 변수와 출력 변수 간의 관계 및 데이터 변경으로 인한 모델 성능 저하를 나타냅니다.

거친 데이터와 세분화된 데이터 계보

학자들은 때로 거친 데이터 계보와 세분화된 데이터 계보를 다르게 사용하지만 개념은 기본적으로 사용자가 얻을 수 있는 데이터 계보의 수준을 다룹니다.

거친 계보 대 세밀한 계보

조잡한 데이터 계보 는 데이터 파이프라인, 데이터베이스, 테이블 및 상호 연결 방식을 설명합니다. 일반적으로 계보 수집 시스템은 런타임에 거친 계보를 축적합니다. 데이터 수정에 사용되는 변환에 대한 세부 정보 없이 데이터 파이프라인, 데이터베이스 및 테이블 간의 상호 연결성을 캡처합니다. 이는 캡처 오버헤드(데이터 흐름에 대한 자세한 정보)를 줄이는 데 도움이 됩니다. 사용자가 디버깅 목적으로 포렌식 분석을 수행하려는 상황에서 세분화된 데이터 계보를 수집하기 위해 데이터 흐름을 재생해야 합니다.

반면에 세분화된 데이터 계보 는 데이터를 생성하거나 수정하는 자세한 적용된 변환을 다룹니다. 활성 계보 수집 시스템은 런타임에 거칠거나 세분화된 데이터 계보를 캡처합니다. 우수한 재생 및 디버깅이 가능합니다. 그러나 세분화된 계보 데이터의 볼륨으로 인해 캡처 오버헤드가 높습니다.

데이터 계보 사용 사례

데이터 계보는 조직이 수명 주기 전반에 걸쳐 데이터 흐름을 추적하고, 종속성을 확인하고, 변환을 이해하는 데 도움이 됩니다. 팀은 데이터 흐름의 세분화된 보기를 활용하고 이를 다양한 목적으로 사용합니다.

오류의 근본 원인 식별

매출 수치가 재무 부서의 기록과 일치하지 않는 상황에서 혼란이 발생하고 실제 오류가 있는 곳을 정확히 찾아내기가 어렵습니다. 데이터 계보는 그러한 경우에 대한 합리적인 설명을 제공합니다. BI(비즈니스 인텔리전스) 관리자는 데이터 계보를 사용하여 전체 데이터 흐름을 추적하고 처리 중 수정 사항을 확인할 수 있습니다.

오류가 있는지 여부에 관계없이 BI 관리자는 상황에 대한 합리적인 설명을 제공하는 데 자신감을 가질 수 있습니다. 오류가 있는 경우 팀은 소스에서 오류를 수정하여 여러 팀 간에 최종 사용자 데이터를 균일하게 만들 수 있습니다.

시스템 업그레이드

새 시스템으로 업그레이드하거나 마이그레이션하는 동안 어떤 데이터 세트가 관련성이 있고 어떤 데이터 세트가 더 이상 사용되지 않거나 존재하지 않는지 이해하는 것이 중요합니다. 데이터 계보는 비즈니스 운영을 수행하는 데 실제로 사용하는 데이터를 파악하고 관련 없는 데이터의 저장 및 관리에 대한 지출을 제한하는 데 도움이 됩니다.

데이터 계보를 통해 시스템 마이그레이션 및 업데이트를 원활하게 계획하고 실행할 수 있습니다. 데이터 소스, 종속성 및 프로세스를 시각화하여 마이그레이션해야 하는 항목을 정확히 알 수 있습니다.

영향 분석

모든 좋은 비즈니스는 변경을 구현하기 전에 영향을 받는 보고서, 데이터 요소 및 최종 사용자를 식별합니다. 데이터 계보 소프트웨어는 팀이 다운스트림 데이터 개체를 시각화하고 변경의 영향을 측정하는 데 도움이 됩니다.

데이터 계보를 통해 비즈니스 사용자가 데이터와 상호 작용하는 방식과 변경 사항이 사용자에게 미치는 영향을 확인할 수 있습니다. 이는 기업이 특정 수정의 영향을 이해하는 데 도움이 되며 따라야 하는지 여부를 결정할 수 있습니다.

데이터 계보 기술

조직은 몇 가지 표준 기술을 사용하여 전략적 데이터 세트에 대한 데이터 계보를 수행할 수 있습니다. 이러한 기술을 사용하면 모든 데이터 변환 또는 처리를 추적할 수 있으므로 정보 자산이 프로세스를 거치는 모든 단계에서 데이터 요소를 매핑할 수 있습니다.

데이터 계보 기술은 각 데이터 변환 후에 메타데이터를 수집하고 저장하며, 이는 나중에 데이터 계보 표현에 사용됩니다.

구문 분석을 통한 계보

데이터를 처리하는 데 사용되는 논리를 읽는 가장 발전된 계보 형식 중 하나를 구문 분석 하여 계보. 데이터 변환 로직을 리버스 엔지니어링하여 포괄적인 종단 간 추적성을 얻을 수 있습니다.

파싱 기법에 의한 계보는 데이터를 변환하고 처리하는 데 사용되는 모든 도구와 프로그래밍 언어를 이해해야 하므로 배포하기가 상대적으로 복잡합니다. 여기에는 ETL 논리, 구조화된 쿼리 언어(SQL) 기반 솔루션, JAVA 솔루션, 확장 가능한 마크업 언어(XML) 솔루션, 레거시 데이터 형식 등이 포함될 수 있습니다.

수십 가지 프로그래밍 언어를 지원하는 데이터 계보 솔루션을 만드는 것은 까다롭고 동적 처리를 지원하는 다양한 도구가 복잡성을 가중시킵니다. 데이터 연계 솔루션을 선택할 때 입력 매개변수, 런타임 정보 및 기본값을 고려하고 이러한 모든 요소를 구문 분석하여 종단 간 데이터 연계 전달을 자동화하는지 확인하십시오.

패턴 기반 계보

패턴 기반 계보 는 코드를 읽는 대신 패턴을 사용하여 계보 표현을 제공합니다. 패턴 기반 계보는 테이블, 보고서 및 열에 대한 메타데이터를 활용하고 프로파일링하여 공통 유사성과 패턴을 기반으로 계보를 생성합니다.

의심할 여지 없이 이 기술에서는 알고리즘 대신 데이터를 모니터링할 수 있다는 이점이 있습니다. 데이터 계보 솔루션은 데이터 처리에 사용되는 프로그래밍 언어와 도구를 이해할 필요가 없습니다. Oracle 또는 MySQL과 같은 모든 데이터베이스 기술에서 동일한 방식으로 사용할 수 있습니다. 그러나 동시에 이 기술이 항상 정확한 결과를 보여주는 것은 아닙니다. 변환 논리와 같은 많은 세부 정보를 사용할 수 없습니다.

이 접근 방식은 액세스할 수 없거나 사용할 수 없는 코드로 인해 프로그래밍 논리를 이해할 수 없는 데이터 계보 사용 사례에 적합합니다.

자급자족 혈통

독립형 계보 는 데이터 처리 논리, 마스터 데이터 관리 등을 제공하는 포괄적인 환경 내에서 모든 데이터 이동 및 변환을 추적합니다. 데이터 흐름과 수명 주기를 쉽게 추적할 수 있습니다.

그러나 독립형 솔루션은 특정 환경에만 국한되어 있으며 외부의 모든 것은 볼 수 없습니다. 새로운 요구 사항이 나타나고 데이터를 처리하는 데 새로운 도구가 사용됨에 따라 독립형 데이터 계보 솔루션은 예상 결과를 제공하지 못할 수 있습니다.

데이터 태깅에 의한 계보

lineage by data tagging 을 사용하면 이동하거나 변환하는 각 데이터 조각이 변환 엔진에 의해 태그 지정됩니다. 그런 다음 모든 태그를 처음부터 끝까지 읽어 계보 표현을 생성합니다. 효과적인 데이터 계보 기법인 것처럼 보이지만 일관된 변환 엔진이나 데이터 이동을 제어하는 도구가 있는 경우에만 작동합니다.

이 기술은 변환 엔진 외부의 데이터 이동을 배제하므로 폐쇄형 데이터 시스템에서 데이터 계보를 수행하는 데 적합합니다. 경우에 따라 선호하는 데이터 연계 기술이 아닐 수 있습니다. 예를 들어, 개발자는 데이터 이동을 위한 모든 접점에서 솔루션 모델에 형식 데이터 열을 추가하지 않습니다.

블록체인은 데이터 태깅을 통해 계보의 복잡성을 해결할 수 있는 잠재적인 솔루션 중 하나이지만 조직의 데이터 수명 주기에 상당한 영향을 미칠 만큼 널리 채택되지 않았습니다.

수동 계보

수동 계보 는 조직의 데이터 흐름을 이해하고 문서화하기 위해 사람들과 대화하는 것을 포함합니다. 애플리케이션 소유자, 데이터 통합 전문가, 데이터 관리자 및 데이터 수명 주기와 관련된 다른 사람들을 인터뷰할 수 있습니다. 다음으로 간단한 매핑 기술로 스프레드시트를 사용하여 계보를 정의할 수 있습니다.

때때로 모순된 정보를 찾거나 누군가를 인터뷰하지 않아 부적절한 데이터 계보로 이어질 수 있습니다. 코드를 진행하는 동안 수동으로 테이블을 검토하고 열을 비교하는 등의 작업을 수행해야 하므로 시간이 많이 걸리고 지루한 프로세스입니다. 동적으로 증가하는 코드 볼륨과 복잡성은 수동 데이터 계보 복잡성을 가중시킵니다.

이러한 문제에도 불구하고 이 접근 방식은 환경에서 무슨 일이 일어나고 있는지 이해하는 데 도움이 됩니다. 수동 데이터 계보는 코드를 사용할 수 없거나 액세스할 수 없는 경우에도 효과적입니다.

데이터 계보를 구현하는 방법

데이터 계보를 구현하는 것은 조직의 데이터 문화에 따라 크게 달라집니다. 확립된 데이터 관리 프레임워크가 있는지 확인하고 성공적인 데이터 계보 구현을 위해 데이터 관리 전문가 및 기타 이해 관계자와 강력한 협업을 구축하십시오.

조직에서 데이터 계보를 성공적으로 구현하려면 다음 7단계를 따르십시오.

주요 비즈니스 동인 식별: 데이터 계보를 구현하는 이유에 대해 논의하고 이것이 비즈니스 목표를 달성하는 데 중요한지 여부를 찾습니다. 이러한 이유에는 비즈니스 변경, 데이터 품질 이니셔티브, 청각 요구 사항 또는 법률 요구 사항이 포함될 수 있습니다.
프로젝트에 대한 온보드 고위 경영진: 데이터 계보를 구현하려면 많은 리소스(인적 및 재정적)와 시간이 필요합니다. 구현 프로젝트를 완료할 수 있도록 고위 경영진의 지원이 있는지 확인하십시오. 데이터 계보의 이점과 이것이 산업 규정 준수에 어떻게 도움이 되는지 설명하여 경영진을 설득할 수 있습니다.
이니셔티브의 범위: 고위 경영진이 프로젝트를 승인하면 식별된 비즈니스 동인과 중요한 데이터 요소(CDE)를 기반으로 범위를 결정합니다. 중요한 데이터 요소는 조직의 성과와 고객 경험에 가장 큰 영향을 미칩니다.
범위 정의: 데이터 계보의 범위는 데이터 원본에서 시작하여 최종 사용 지점에서 끝납니다. 대규모 조직은 복잡성을 피하기 위해 자회사가 많기 때문에 제한된 길이의 데이터 계보를 수정할 수 있습니다.
비즈니스 요구 사항 준비: 이해 관계자는 데이터 계보에 대해 다른 기대치를 가질 수 있습니다. 주로 서로 다른 이해 관계를 가진 비즈니스 이해 관계자와 기술 이해 관계자가 있습니다. 비즈니스 이해 관계자는 가치, 개념적 데이터 모델 수준의 데이터 계보 및 근본 원인 분석에 더 관심이 있습니다. 이에 반해 기술 이해 관계자는 물리적 수준에서 영향 분석, 메타데이터 디자인 계보 및 데이터 계보에 관심이 있습니다.
데이터 계보를 문서화하는 방법 수정: 설명 또는 자동화된 데이터 계보 문서를 사용할 수 있습니다. 소비할 시간과 리소스를 고려하여 조직에 더 적합한 방법을 평가하십시오.
적합한 데이터 계보 소프트웨어 선택: 귀하의 목표와 기대에 가장 적합한 데이터 계보 소프트웨어 솔루션을 선택하십시오. 탐색할 수 있습니다. 마스터 데이터 관리 소프트웨어 자동화된 계보 기능을 제공합니다.

데이터 계보 모범 사례

리니지는 기업의 의사결정 과정을 지원하기 위해 신뢰할 수 있고 정확한 데이터를 얻을 수 있도록 도와줍니다. 계획 및 구현은 데이터 거버넌스의 중요한 요소입니다. 데이터가 어디에서 오고 어디로 가는지 확인해야 합니다.

조직에서 데이터 계보를 계획하고 구현할 때 고려할 수 있는 몇 가지 사례가 있습니다.

데이터 계보 추출 자동화: 데이터 및 해당 계보는 동적 엔터티입니다. 스프레드시트에서 데이터 계보를 수동으로 캡처하는 것 이상으로 이동하고 프로세스를 자동화하여 애자일 환경에서 경쟁해야 합니다.
메타데이터 소스 포함: 데이터베이스 관리 시스템, 빅 데이터 도구, ETL 소프트웨어 및 기타 사용자 지정 응용 프로그램은 처리하는 데이터에 대한 자체 데이터를 생성합니다. 데이터 흐름 및 수정 사항을 이해하는 데 도움이 되는 이 메타데이터를 계보에 포함합니다.
메타데이터 소스 확인: 애플리케이션 및 도구의 소유자가 메타데이터의 정확성과 관련성을 명확하게 이해하고 있으므로 해당 메타데이터 소스를 확인하도록 권장합니다.
점진적 추출 계획: 데이터가 시스템을 통해 흐르는 것과 동일한 순서로 메타데이터와 계보를 추출합니다. 시스템 간 및 데이터 내에서 매핑 연결, 관계 및 종속성을 단순화합니다.
종단 간 데이터 계보 검증: 시스템 간의 상위 수준 연결에서 시작하여 계보를 점진적으로 검증한 다음 변환 문서를 검증하기 전에 연결된 데이터 세트와 데이터 요소를 조사합니다.
데이터 카탈로그 소프트웨어 구현: 채택 지능적이고 자동화된 데이터 카탈로그 소프트웨어 모든 소스에서 계보 데이터를 수집합니다. 이 소프트웨어를 사용하면 메타데이터에서 계보를 추출하고 추론할 수도 있습니다.

세분화된 수준에서 데이터 흐름 추적

데이터 계보를 통해 조직은 라이프사이클 전반에 걸쳐 데이터 흐름에 대한 세부적인 가시성을 확보하고 오류의 근본 원인을 식별하고, 데이터 거버넌스를 관리하고, 영향 분석을 수행하고, 데이터 기반 비즈니스 결정을 내릴 수 있습니다.

데이터 계보를 문서화하는 것은 까다로울 수 있지만 조직이 데이터를 효과적으로 이해하고 사용하는 데 도움이 됩니다.

데이터 가상화를 통해 전략적 비즈니스 결정을 내리기 위해 실시간 데이터를 얻는 방법에 대해 자세히 알아보십시오.