Ce este linia de date? De ce este important să urmăriți fluxul de date
Publicat: 2021-09-28Unii profesioniști văd descendența datelor ca fiind GPS-ul datelor.
Se datorează faptului că descendența datelor îi ajută pe utilizatori să obțină o imagine de ansamblu vizuală asupra căii și transformărilor datelor. Documentează modul în care datele sunt procesate, transformate și transmise pentru a constitui informații semnificative pe care companiile le folosesc pentru a-și desfășura operațiunile.
Linia de date ajută companiile să obțină o imagine detaliată a modului în care datele circulă de la sursă la destinație. Multe organizații folosesc software de virtualizare a datelor cu descendență de date pentru a-i ajuta să-și urmărească datele, oferind în același timp informații în timp real utilizatorilor.
Ce este descendența datelor?
Linia de date este procesul de identificare a originii datelor, înregistrarea modului în care acestea se transformă și se mișcă în timp și vizualizarea fluxului său de la sursele de date la utilizatorii finali. Ajută oamenii de știință în domeniul datelor să obțină o vizibilitate granulară a dinamicii datelor și le permite să urmărească erorile până la cauza principală.
Linia de date informează inginerii despre transformările datelor și de ce au loc. Ajută organizațiile să urmărească erorile, să efectueze migrări de sistem, să apropie descoperirea datelor și metadatele și să implementeze schimbări de proces cu mai puțin risc.
Deciziile strategice de afaceri depind de acuratețea datelor. Fără o linie bună de date, devine dificil să urmăriți procesele de date și să le verificați. Linia de date permite utilizatorilor să vizualizeze fluxul complet de informații de la sursă la destinație, facilitând detectarea și remedierea anomaliilor. Cu generația de date, utilizatorii pot reda anumite porțiuni sau intrări ale fluxului de date pentru a depana sau a genera rezultate pierdute.
În situațiile în care utilizatorii nu au nevoie de detalii despre descendența tehnică, aceștia folosesc proveniența datelor pentru a obține o imagine de ansamblu la nivel înalt asupra fluxului de date. Mulți sisteme de baze de date valorificați proveniența datelor pentru a aborda provocările de depanare și validare.
Ce este proveniența datelor?
Proveniența datelor este documentarea de unde provin datele și metodele prin care sunt produse.
Deși proveniența datelor și descendența datelor au similitudini, proveniența datelor este mai utilă pentru utilizatorii de afaceri care au nevoie de o privire de ansamblu la nivel înalt asupra de unde provin datele. Dimpotrivă, descendența datelor include atât descendența la nivel de afaceri, cât și la nivel tehnic și oferă o vedere granulară a fluxului de date.
Linia datelor și guvernarea datelor
Guvernanța datelor este ansamblul de reguli și proceduri pe care organizațiile le folosesc pentru a menține și controla datele. Linia datelor este o parte esențială a guvernării datelor, deoarece informează modul în care datele circulă de la sursă la destinație.
Companiile folosesc diferite niveluri de linii de date în funcție de nevoile lor. Nivelurile inferioare ale descendenței datelor oferă o reprezentare vizuală simplă a modului în care datele circulă în cadrul unei organizații, fără a include detalii specifice despre transformările care au loc pe măsură ce se deplasează prin conductă. Cel mai înalt nivel este generația de date la nivel de atribut, care oferă perspective asupra modului în care fluxul de date poate fi optimizat și modalități de îmbunătățire a platformelor de date.
Organizațiile aleg nivelul de descendență a datelor pe baza structurii lor de guvernanță, a costurilor suportate de implementare și monitorizare, a preocupărilor de reglementare și a impactului pe care l-ar avea asupra afacerii.
Înțelegerea descendenței datelor este un aspect critic al gestionării metadatelor, ceea ce o face esențială pentru depozit de date și administratorii lacurilor de date. Gestionarea metadatelor vă permite să vizualizați fluxul de date prin diverse sisteme, facilitând găsirea tuturor datelor asociate cu un anumit raport sau proces de extragere, transformare, încărcare (ETL).
„Colectarea descendenței datelor – care descrie originea, structura și dependențele datelor – crește automat calitatea metadatelor furnizate și reduce efortul manual.”
Josef Viehhauser
Conducător de platformă la BMW
De ce este importantă descendența datelor?
Linia de date nu vă ajută doar să remediați problemele sau să efectuați migrarea sistemului, ci vă permite, de asemenea, să asigurați confidențialitatea și integritatea datelor prin urmărirea modificărilor, a modului în care au fost efectuate și a cine le-a făcut.
Cu generația de date, echipele IT pot vizualiza călătoria de la un capăt la altul al datelor de la început până la sfârșit. Ușurează munca unui profesionist IT și oferă utilizatorilor de afaceri încrederea necesară pentru a lua decizii eficiente.
Instrumentele de generație a datelor vă ajută să răspundeți la următoarele întrebări:
- Cum au fost modificate datele și prin ce proces?
- Cine a fost responsabil pentru modificările datelor?
- Când a fost făcută schimbarea?
- Care era locația geografică a persoanei care a făcut modificări?
- De ce s-a făcut o schimbare și care este contextul din spatele ei?
Cerințele pentru un sistem de descendență a datelor sunt determinate în primul rând de rolul unui individ și de obiectivul organizației. Cu toate acestea, descendența datelor poate avea un impact semnificativ în domenii care includ:
- Luare strategică a deciziilor: filiația datelor permite utilizatorilor de afaceri să înțeleagă mai bine datele procesate, vizualizând modul în care au trecut prin transformări. Aceste date sunt cruciale pentru operațiunile de afaceri și pentru îmbunătățirea produselor și serviciilor.
- Utilizarea optimă a seturilor de date noi și vechi: descendența datelor permite companiilor să urmărească diferite seturi de date pe măsură ce acestea se modifică datorită tehnicilor și tehnologiilor de colectare în evoluție.
- Migrarea datelor: descendența datelor ajută echipele IT să mute rapid datele într-o nouă locație de stocare prin înțelegerea locației și a ciclului de viață al surselor de date, făcând proiectele de migrare mai puțin riscante.
- Guvernanța datelor: Deoarece generația datelor oferă vizibilitate granulară asupra ciclului de viață al datelor, aceasta ajută companiile să gestioneze riscurile, să respecte reglementările din industrie și să efectueze audituri.
Profesioniștii văd descendența datelor ca pe o practică dataGovOps în care descendența, testarea și sandboxing-ul fac parte din practicile de guvernare a datelor.
„Linea de date este una dintre cele mai importante tehnologii pentru a „cunoaște” peisajele de date ale clienților și pentru a înțelege transformările de date implementate.”
Wolfgang Strasser
Consultant de date la Cubido Business Solutions GMBH
Wolfgang Strasser a adăugat în continuare „Nevoia de a înțelege dependențele dintre insulele de date și sistemele din organizații este vitală. Nu este necesar doar din punct de vedere tehnic; cu cât cunoști mai bine cum circulă datele între sisteme, îți permite să reacționezi mai bine și să vezi. de unde provine o informație, precum și transformările care au fost aplicate pe drumul către sistemul de destinație. În unele dintre proiectele noastre, am reușit să găsim dependențe de sistem de care nici măcar clientul nu era conștient."
Există diferite moduri în care descendența datelor poate ajuta indivizii în diferite roluri de muncă. De exemplu, un dezvoltator ETL poate găsi erori într-o lucrare ETL și poate verifica orice modificări în câmpurile de date, cum ar fi ștergeri, adăugiri sau redenumire coloane. Un administrator de date poate folosi descendența pentru a identifica cel mai puțin și cel mai util material de date dintr-o muncă ETL. Pentru utilizatorii de afaceri, este util să verifice acuratețea rapoartelor și să identifice procesele și lucrările implicate atunci când sunt generate rapoarte greșite.
Linia de date își găsește aplicarea și în învățarea automată, unde este folosită pentru a reinstrui modele pe baza datelor noi sau modificate. De asemenea, ajută la reducerea deriva de model. Deriva modelului se referă la degradarea performanței modelului din cauza modificărilor datelor și a relațiilor dintre variabilele de intrare și de ieșire.
Linia de date cu granulație grosieră vs. cu granulație fină
Oamenii de știință din mediul academic folosesc uneori descendența de date grosieră și fină în mod diferit, dar conceptul acoperă practic nivelul de descendență de date pe care îl poate obține un utilizator.
Linia de date cu granulație grosieră descrie conductele de date, bazele de date, tabele și modul în care acestea sunt interconectate. De obicei, un sistem de colectare a descendenței acumulează descendență grosieră în timpul executării. Acestea captează interconexiunea dintre conductele de date, bazele de date și tabele fără detalii despre transformările utilizate pentru modificarea datelor. Acest lucru îi ajută să-și reducă costurile de captare (informații detaliate despre fluxul de date). Într-o situație în care un utilizator dorește să efectueze analize criminalistice în scopuri de depanare, ar trebui să reia fluxul de date pentru a colecta o linie de date cu granulație fină.
Pe de altă parte, linia de date cu granulație fină acoperă transformări aplicate detaliate care creează sau modifică date. Sistemele active de colectare a descendenței captează descendența de date cu granulație grosieră sau cu granulație fină în timpul execuției. Permite reluare și depanare excelente. Cu toate acestea, costurile generale de captare sunt mari din cauza volumului de date de descendență cu granulație fină.
Cazuri de utilizare a liniei de date
Linia de date ajută organizațiile să urmărească fluxul de date de-a lungul ciclului de viață, să vadă dependențele și să înțeleagă transformările. Echipele profită de vizualizarea granulară a fluxului de date și o folosesc în mai multe scopuri.
Identificarea cauzei principale a erorilor
Există confuzie în situațiile în care numerele de vânzări nu se potrivesc cu înregistrările departamentului financiar și este dificil să se identifice unde există eroarea reală. Linia de date oferă o explicație rezonabilă pentru astfel de cazuri. Managerii de Business Intelligence (BI) pot folosi descendența datelor pentru a urmări fluxul complet de date și pentru a vedea orice modificări făcute în timpul procesării.
Indiferent dacă există o eroare, managerii BI se pot simți încrezători oferind o explicație rezonabilă pentru situație. Dacă există o eroare, echipele o pot rectifica la sursă, permițând uniformitatea datelor utilizatorilor finali în diferite echipe.
Actualizări de sistem
În timpul actualizării sau migrării către un sistem nou, este esențial să înțelegeți ce seturi de date sunt relevante și care au devenit învechite sau inexistente. Linia de date vă ajută să cunoașteți datele pe care le utilizați efectiv pentru a efectua operațiuni comerciale și să limitați cheltuielile pentru stocarea și gestionarea datelor irelevante.

Cu generația de date, puteți planifica și executa fără probleme migrările și actualizările sistemului. Vă ajută să vizualizați sursele de date, dependențele și procesele, permițându-vă să știți exact ce aveți nevoie pentru a migra.
Analiza impactului
Orice afacere bună identifică rapoartele, elementele de date și utilizatorii finali afectați înainte de a implementa o modificare. Software-ul de generație a datelor ajută echipele să vizualizeze obiectele de date din aval și să măsoare impactul schimbării.
Linia de date vă permite să vedeți cum interacționează utilizatorii de afaceri cu datele și cum i-ar afecta o schimbare. Ajută companiile să înțeleagă impactul unei anumite modificări și le permite să decidă dacă ar trebui să o ducă la bun sfârșit.
Tehnici de generație a datelor
Organizațiile pot efectua generarea datelor pe seturi de date strategice folosind câteva tehnici standard. Aceste tehnici asigură că fiecare transformare sau procesare a datelor este urmărită, permițându-vă să mapați elementele de date în fiecare etapă în care activele de informații trec prin procese.
Tehnicile de descendență a datelor colectează și stochează metadate după fiecare transformare a datelor, care sunt ulterior utilizate pentru reprezentarea descendenței datelor.
Linie prin parsare
Lineage prin analizarea uneia dintre cele mai avansate forme de descendență care citește logica folosită pentru procesarea datelor. Puteți obține o trasabilitate completă de la capăt la capăt prin inginerie inversă a logicii de transformare a datelor.
Tehnica de linie prin parsare este relativ complicat de implementat, deoarece necesită înțelegerea tuturor instrumentelor și limbajelor de programare utilizate pentru transformarea și procesarea datelor. Acestea pot include logica ETL, soluții bazate pe limbaj de interogare structurat (SQL), soluții JAVA, soluții XML (Extensible Markup Language), formate de date vechi și multe altele.
Este dificil să creezi o soluție de generație de date care acceptă o duzină de limbaje de programare, iar diverse instrumente care acceptă procesarea dinamică sporesc complexitatea acesteia. Atunci când alegeți o soluție de descendență de date, asigurați-vă că aceasta ține cont de parametrii de intrare, informațiile de rulare și valorile implicite și analizează toate aceste elemente pentru a automatiza livrarea de la un capăt la altul al liniei de date.
Linia bazată pe modele
Linia bazată pe modele folosește modele pentru a oferi o reprezentare a descendenței în loc să citească orice cod. Linia bazată pe modele folosește metadatele despre tabele, rapoarte și coloane și le profilează pentru a crea o descendență bazată pe asemănări și modele comune.
Aveți fără îndoială avantajul de a monitoriza datele în loc de algoritmi în această tehnică. Soluția dvs. de descendență a datelor nu trebuie să înțeleagă limbajele de programare și instrumentele utilizate pentru procesarea datelor. Poate fi utilizat în același mod în orice tehnologie de baze de date, cum ar fi Oracle sau MySQL. Dar, în același timp, această tehnică nu arată întotdeauna rezultate precise. Multe detalii, cum ar fi logica de transformare, nu sunt disponibile.
Această abordare este potrivită pentru cazurile de utilizare a liniei de date când înțelegerea logicii de programare nu este posibilă din cauza codului inaccesibil sau indisponibil.
descendență de sine stătătoare
Linia autonomă urmărește fiecare mișcare și transformare a datelor într-un mediu all-inclusive care oferă logica de procesare a datelor, gestionarea datelor de bază și multe altele. Devine ușor de urmărit fluxul de date și ciclul său de viață.
Totuși, soluția de sine stătătoare rămâne exclusivă pentru un anumit mediu și este oarbă față de tot ce este în afara acestuia. Pe măsură ce apar noi nevoi și sunt folosite noi instrumente pentru procesarea datelor, soluția autonomă de generație a datelor poate să nu ofere rezultatele așteptate.
Linie prin etichetarea datelor
Cu etichetarea descendenței prin date , fiecare parte de date care se mută sau se transformă este etichetată de un motor de transformare. Toate etichetele sunt apoi citite de la început până la sfârșit pentru a produce o reprezentare de descendență. Deși pare a fi o tehnică eficientă de generare a datelor, funcționează numai dacă există un motor de transformare sau un instrument consistent pentru a controla mișcarea datelor.
Această tehnică exclude mișcările de date în afara motorului de transformare, făcându-l potrivit pentru realizarea unei linii de date pe sisteme de date închise. În unele cazuri, aceasta ar putea să nu fie o tehnică preferată de generare a datelor. De exemplu, dezvoltatorii se abțin de la adăugarea coloanelor formale de date la modelul de soluție la fiecare punct de contact pentru mișcările de date.
Blockchain este o soluție potențială pentru a aborda complexitatea descendenței prin etichetarea datelor, dar nu are o adoptare suficient de largă pentru a provoca un impact semnificativ asupra ciclului de viață al datelor în organizații.
Genealogia manuală
Linia manuală implică vorbirea cu oamenii pentru a înțelege fluxul de date într-o organizație și pentru a-l documenta. Puteți intervieva proprietarii de aplicații, specialiști în integrarea datelor, administratori de date și alții asociați cu ciclul de viață al datelor. În continuare, puteți defini descendența folosind foi de calcul cu tehnici simple de cartografiere.
Uneori, este posibil să găsiți informații contradictorii sau să ratați intervievarea cuiva, ceea ce duce la o generație necorespunzătoare a datelor. În timp ce parcurgeți codul, va trebui, de asemenea, să examinați manual tabelele, să comparați coloanele și așa mai departe, făcându-l un proces consumator de timp și plictisitor. Volumul de cod în creștere dinamică și complexitatea acestuia se adaugă la complicațiile de generație manuală a datelor.
Indiferent de aceste provocări, această abordare se dovedește benefică pentru a înțelege ce se întâmplă într-un mediu. Linia manuală a datelor se dovedește, de asemenea, eficientă atunci când codul este indisponibil sau inaccesibil.
Cum se implementează descendența datelor
Implementarea descendenței datelor depinde în mare măsură de cultura de date a organizației dvs. Asigurați-vă că aveți un cadru de gestionare a datelor stabilit și construiți o colaborare puternică cu profesioniștii în gestionarea datelor și alte părți interesate pentru implementarea cu succes a liniei de date.
Urmați acești șapte pași pentru a implementa cu succes descendența datelor în organizația dvs.
- Identificați factorii cheie de afaceri: discutați motivele pentru a implementa descendența datelor și aflați dacă acestea sunt esențiale pentru îndeplinirea obiectivelor de afaceri. Aceste motive pot include schimbări de afaceri, inițiative privind calitatea datelor, cerințe auditive sau cerințe legislative.
- Conducerea superioară la bordul proiectului: Implementarea liniei de date necesită multe resurse (atât umane, cât și financiare) și timp. Asigurați-vă că aveți sprijinul managementului superior pentru a duce proiectul de implementare către finalizare. Puteți convinge conducerea explicând beneficiile generației de date și modul în care aceasta ajută la respectarea reglementărilor din industrie.
- Scopul inițiativei: Odată ce managementul superior aprobă proiectul, decideți domeniul său de aplicare pe baza factorilor de afaceri identificați și a elementelor critice de date (CDE). Elementele critice de date au cel mai semnificativ impact asupra performanței organizației și asupra experienței clienților.
- Definiți domeniul de aplicare: domeniul de aplicare al liniei de date începe cu sursele de date și se termină la punctul final de utilizare. Organizațiile mari pot remedia o lungime limitată a liniei de date, deoarece au multe filiale pentru a evita complicațiile.
- Pregătiți cerințele de afaceri: părțile interesate pot avea așteptări diferite pentru descendența datelor. În primul rând, există părți interesate de afaceri și părți interesate tehnice care au interese diferite. Părțile interesate de afaceri sunt mai interesate de valoare, descendența datelor la niveluri de model de date conceptuale și analiza cauzei principale. Dimpotrivă, părțile interesate tehnice au interese în analiza impactului, descendența de proiectare a metadatelor și descendența datelor la nivel fizic.
- Remediați o metodă de documentare a descendenței datelor: puteți alege fie o documentație descriptivă, fie automată. Evaluează ce cale ar fi mai potrivită pentru organizația ta, ținând cont de timpul și resursele pe care le va consuma.
- Alegeți un software adecvat pentru generația de date: selectați o soluție software pentru generația de date care se potrivește cel mai bine obiectivelor și așteptărilor dvs. Puteți explora software de gestionare a datelor de bază care oferă capabilități de descendență automată.
Cele mai bune practici pentru generația de date
Lineage vă ajută să obțineți date de încredere și precise pentru a sprijini procesul de luare a deciziilor companiei dvs. Planificarea și implementarea este un element esențial al guvernării datelor - trebuie să fii sigur de unde provin datele și unde te duc.
Există câteva practici pe care le puteți lua în considerare atunci când planificați și implementați descendența datelor în organizația dvs.:
- Automatizați extragerea descendenței datelor: Datele și descendența lor sunt o entitate dinamică. Trebuie să treceți dincolo de capturarea manuală a descendenței datelor în foi de calcul și să automatizați procesul pentru a concura într-un mediu agil.
- Includeți sursa de metadate: sistemele de gestionare a bazelor de date, instrumentele de date mari, software-ul ETL și alte aplicații personalizate își creează propriile date despre datele pe care le procesează. Includeți aceste metadate în descendența dvs., deoarece vă ajută să înțelegeți fluxul de date și modificările.
- Verificați sursele de metadate: încurajați proprietarii de aplicații și instrumente să verifice sursele de metadate respective, deoarece ei sunt cei care înțeleg clar acuratețea și relevanța metadatelor.
- Planificați extracția progresivă: extrageți metadatele și descendența în aceeași ordine în care datele circulă prin sistemul dvs. Simplifică maparea conexiunilor, relațiilor și dependențelor între sisteme și în cadrul datelor.
- Validați descendența de date end-to-end: validați descendența progresiv, pornind de la conexiunile la nivel înalt între sisteme și apoi explorați seturile de date conectate, urmate de elemente de date înainte de a valida documentația transformărilor.
- Implementați software de catalog de date: adoptați un software de catalog de date inteligent și automatizat pentru a colecta date de descendență din toate sursele. Acest software vă permite, de asemenea, să extrageți și să deduceți descendența din metadate.
Urmăriți fluxul de date la nivel granular
Linia de date permite organizațiilor să obțină o vizibilitate granulară a fluxului de date de-a lungul ciclului de viață și le ajută să identifice cauza principală a erorilor, să gestioneze guvernanța datelor, să efectueze analize de impact și să ia decizii de afaceri bazate pe date.
Documentarea descendenței datelor poate fi dificilă, dar este benefic pentru organizații să înțeleagă și să utilizeze în mod eficient datele lor.
Aflați mai multe despre cum să obțineți date în timp real pentru a lua decizii strategice de afaceri cu virtualizarea datelor.