Apa Itu Silsilah Data? Mengapa Penting untuk Melacak Aliran Data

Diterbitkan: 2021-09-28

Beberapa profesional melihat garis keturunan data sebagai GPS data.

Itu karena silsilah data membantu pengguna mendapatkan gambaran visual tentang jalur dan transformasi data. Ini mendokumentasikan bagaimana data diproses, diubah, dan ditransmisikan untuk membentuk informasi yang berarti yang digunakan bisnis untuk menjalankan operasi mereka.

Garis keturunan data membantu bisnis mendapatkan tampilan terperinci tentang bagaimana data mengalir dari sumber ke tujuan. Banyak organisasi menggunakan   perangkat lunak virtualisasi data   dengan garis keturunan data untuk membantu mereka melacak data mereka sambil memberikan informasi waktu nyata kepada pengguna.

Garis keturunan data memberi tahu para insinyur tentang transformasi data dan mengapa itu terjadi. Ini membantu organisasi melacak kesalahan, melakukan migrasi sistem, mendekatkan penemuan data dan metadata, dan menerapkan perubahan proses dengan risiko yang lebih kecil.

Representasi garis keturunan data

Keputusan bisnis yang strategis bergantung pada keakuratan data. Tanpa garis keturunan data yang baik, menjadi sulit untuk melacak proses data dan memverifikasinya. Garis keturunan data memungkinkan pengguna untuk memvisualisasikan aliran informasi yang lengkap dari sumber ke tujuan, membuatnya lebih mudah untuk mendeteksi dan memperbaiki anomali. Dengan garis keturunan data, pengguna dapat memutar ulang bagian atau input tertentu dari aliran data untuk men-debug atau menghasilkan output yang hilang.

Dalam situasi di mana pengguna tidak memerlukan detail tentang garis keturunan teknis, mereka menggunakan asal data untuk mendapatkan gambaran umum tingkat tinggi tentang aliran data. Banyak   sistem basis data   memanfaatkan sumber data untuk mengatasi tantangan debugging dan validasi.

Apa itu asal data?

Sumber data adalah dokumentasi dari mana data berasal dan metode yang digunakan untuk menghasilkannya.

Meskipun asal data dan silsilah data memiliki kesamaan, asal data lebih berguna bagi pengguna bisnis yang membutuhkan gambaran tingkat tinggi tentang dari mana data berasal. Sebaliknya, silsilah data mencakup silsilah tingkat bisnis dan tingkat teknis dan memberikan pandangan terperinci tentang aliran data.

Garis keturunan data dan tata kelola data

Tata kelola data adalah seperangkat aturan dan prosedur yang digunakan organisasi untuk memelihara dan mengontrol data. Garis keturunan data adalah bagian penting dari tata kelola data karena menginformasikan bagaimana data mengalir dari sumber ke tujuan.

Bisnis menggunakan tingkatan garis keturunan data yang berbeda berdasarkan kebutuhan mereka. Tingkat silsilah data yang lebih rendah memberikan representasi visual sederhana tentang bagaimana data mengalir dalam suatu organisasi, tanpa menyertakan detail spesifik tentang transformasi yang terjadi saat bergerak melalui jalur pipa. Tingkat tertinggi adalah garis keturunan data tingkat atribut yang menawarkan wawasan tentang bagaimana aliran data dapat dioptimalkan dan cara untuk meningkatkan platform data.

Organisasi memilih tingkat garis keturunan data berdasarkan struktur tata kelola mereka, biaya yang dikeluarkan dalam implementasi dan pemantauan, masalah peraturan, dan dampaknya terhadap bisnis.

Memahami garis keturunan data adalah aspek penting dari manajemen metadata, membuatnya penting untuk   gudang data   dan pengelola data lake. Manajemen metadata memungkinkan Anda untuk melihat aliran data melalui berbagai sistem, sehingga memudahkan untuk menemukan semua data yang terkait dengan laporan tertentu atau proses ekstrak, transformasi, muat (ETL).

"Mengumpulkan garis keturunan data - menggambarkan asal, struktur, dan ketergantungan data - secara otomatis meningkatkan kualitas metadata yang disediakan dan mengurangi upaya manual."

Josef Viehhauser
Pemimpin platform di BMW

Mengapa silsilah data penting?

Garis keturunan data tidak hanya membantu Anda memperbaiki masalah atau melakukan migrasi sistem, tetapi juga memungkinkan Anda memastikan kerahasiaan dan integritas data dengan melacak perubahan, bagaimana perubahan itu dilakukan, dan siapa yang membuatnya.

Dengan garis keturunan data, tim TI dapat memvisualisasikan perjalanan data ujung ke ujung dari awal hingga akhir. Itu membuat pekerjaan profesional TI lebih mudah dan memberi pengguna bisnis kepercayaan diri untuk membuat keputusan yang efektif.

Alat garis keturunan data membantu Anda menjawab pertanyaan berikut:

  • Bagaimana data diubah dan dengan proses apa?
  • Siapa yang bertanggung jawab atas modifikasi data?
  • Kapan perubahan itu dilakukan?
  • Di mana lokasi geografis orang yang melakukan modifikasi?
  • Mengapa perubahan dilakukan dan apa konteks di baliknya?

Persyaratan untuk sistem garis keturunan data terutama ditentukan oleh peran individu dan tujuan organisasi. Namun, silsilah data dapat memiliki dampak signifikan di area yang mencakup:

  • Pengambilan keputusan strategis: Garis keturunan data memungkinkan pengguna bisnis untuk lebih memahami data yang diproses dengan melihat bagaimana data tersebut mengalami transformasi. Data ini sangat penting untuk operasi bisnis dan meningkatkan produk dan layanan.
  • Penggunaan optimal dari kumpulan data baru dan lama: Garis keturunan data memungkinkan bisnis untuk melacak kumpulan data yang berbeda saat mereka berubah karena teknik dan teknologi pengumpulan yang berkembang.
  • Migrasi data: Garis keturunan data membantu tim TI memindahkan data ke lokasi penyimpanan baru dengan cepat dengan memahami lokasi dan siklus hidup sumber data, membuat proyek migrasi tidak terlalu berisiko.
  • Tata kelola data: Karena silsilah data memberikan visibilitas terperinci atas siklus hidup data, ini membantu bisnis mengelola risiko, mematuhi peraturan industri, dan melakukan audit.

Profesional melihat silsilah data sebagai praktik dataGovOps di mana silsilah, pengujian, dan sandboxing berada di bawah praktik tata kelola data.

“Garis keturunan data adalah salah satu teknologi terpenting untuk "mengenal" lanskap data pelanggan dan memahami transformasi data yang diterapkan."

Wolfgang Strasser
Konsultan Data di Cubido Business Solutions GMBH

Wolfgang Strasser menambahkan lebih lanjut "Kebutuhan untuk memahami ketergantungan antara pulau data dan sistem dalam organisasi sangat penting. Ini tidak hanya diperlukan dari sudut pandang teknis; semakin baik Anda mengetahui bagaimana aliran data antar sistem memungkinkan Anda untuk bereaksi lebih baik dan melihat di mana sepotong informasi berasal serta transformasi yang diterapkan dalam perjalanan ke sistem tujuan. Dalam beberapa proyek kami, kami telah dapat menemukan ketergantungan sistem yang bahkan tidak disadari oleh pelanggan."

Ada berbagai cara silsilah data dapat membantu individu dalam peran pekerjaan yang berbeda. Misalnya, pengembang ETL dapat menemukan bug dalam pekerjaan ETL dan memeriksa setiap modifikasi di bidang data seperti penghapusan kolom, penambahan, atau penggantian nama. Seorang pelayan data dapat menggunakan garis keturunan untuk mengidentifikasi aset data yang paling sedikit dan paling berguna dalam pekerjaan ETL. Untuk pengguna bisnis, ini membantu untuk memeriksa keakuratan laporan dan mengidentifikasi proses dan pekerjaan yang terlibat ketika laporan yang salah dihasilkan.

Silsilah data juga menemukan penerapannya di   pembelajaran mesin, yang digunakan untuk melatih kembali model berdasarkan data baru atau yang dimodifikasi. Ini juga membantu mengurangi   model melayang. Model drift mengacu pada penurunan kinerja model karena perubahan data dan hubungan antara variabel input dan output.

Garis keturunan data berbutir kasar vs. berbutir halus

Cendekiawan akademis terkadang menggunakan garis keturunan data berbutir kasar dan berbutir halus secara berbeda, tetapi konsepnya pada dasarnya mencakup tingkat garis keturunan data yang dapat diperoleh pengguna.

Garis keturunan berbutir kasar vs. garis keturunan berbutir halus

Garis keturunan data berbutir kasar menjelaskan saluran data, database, tabel, dan bagaimana mereka saling berhubungan. Biasanya, sistem pengumpulan garis keturunan mengakumulasi garis keturunan berbutir kasar pada saat dijalankan. Mereka menangkap keterkaitan antara saluran data, database, dan tabel tanpa detail tentang transformasi yang digunakan untuk memodifikasi data. Ini membantu mereka menurunkan overhead penangkapan mereka (informasi mendetail tentang aliran data). Dalam situasi di mana pengguna ingin melakukan analisis forensik untuk tujuan debugging, mereka harus memutar ulang aliran data untuk mengumpulkan garis keturunan data yang halus.

Di sisi lain, garis keturunan data berbutir halus mencakup transformasi terapan terperinci yang membuat atau memodifikasi data. Sistem pengumpulan silsilah aktif menangkap silsilah data berbutir kasar atau berbutir halus saat dijalankan. Ini memungkinkan pemutaran ulang dan debugging yang sangat baik. Namun, overhead penangkapan tinggi karena volume data garis keturunan berbutir halus.

Kasus penggunaan silsilah data

Garis keturunan data membantu organisasi melacak aliran data sepanjang siklus hidup, melihat dependensi, dan memahami transformasi. Tim memanfaatkan tampilan granular aliran data dan menggunakannya untuk berbagai tujuan.

Mengidentifikasi akar penyebab kesalahan

Ada kebingungan dalam situasi di mana angka penjualan tidak sesuai dengan catatan departemen keuangan, dan sulit untuk menunjukkan dengan tepat di mana kesalahan yang sebenarnya ada. Silsilah data memberikan penjelasan yang masuk akal untuk kasus seperti itu. Manajer intelijen bisnis (BI) dapat menggunakan garis keturunan data untuk melacak aliran data lengkap dan melihat modifikasi apa pun yang dibuat selama pemrosesan.

Terlepas dari apakah ada kesalahan, manajer BI dapat merasa yakin memberikan penjelasan yang masuk akal untuk situasi tersebut. Jika ada kesalahan, tim dapat memperbaikinya di sumbernya, memungkinkan keseragaman data pengguna akhir di seluruh tim yang berbeda.

Peningkatan sistem

Saat memutakhirkan atau bermigrasi ke sistem baru, penting untuk memahami kumpulan data mana yang relevan dan mana yang sudah usang atau tidak ada. Garis keturunan data membantu Anda mengetahui data yang sebenarnya Anda gunakan untuk menjalankan operasi bisnis dan membatasi pengeluaran untuk menyimpan dan mengelola data yang tidak relevan.

Dengan silsilah data, Anda dapat merencanakan dan menjalankan migrasi dan pembaruan sistem dengan lancar. Ini membantu Anda memvisualisasikan sumber data, dependensi, dan proses, memungkinkan Anda mengetahui dengan tepat apa yang Anda perlukan untuk bermigrasi.

Analisis dampak

Setiap bisnis yang baik mengidentifikasi laporan, elemen data, dan pengguna akhir yang terpengaruh sebelum menerapkan perubahan. Perangkat lunak garis keturunan data membantu tim memvisualisasikan objek data hilir dan mengukur dampak perubahan.

Garis keturunan data memungkinkan Anda melihat bagaimana pengguna bisnis berinteraksi dengan data dan bagaimana perubahan akan memengaruhi mereka. Ini membantu bisnis memahami dampak dari modifikasi tertentu dan memungkinkan mereka untuk memutuskan apakah mereka harus menindaklanjutinya.

Teknik garis keturunan data

Organisasi dapat melakukan garis keturunan data pada kumpulan data strategis menggunakan beberapa teknik standar. Teknik ini memastikan bahwa setiap transformasi atau pemrosesan data dilacak, memungkinkan Anda untuk memetakan elemen data di setiap tahap saat aset informasi melalui proses.

Teknik garis keturunan data mengumpulkan dan menyimpan metadata setelah setiap transformasi data, yang kemudian digunakan untuk representasi garis keturunan data.

Silsilah dengan menguraikan

Lineage dengan mem-parsing salah satu bentuk lineage paling canggih yang membaca logika yang digunakan untuk memproses data. Anda bisa mendapatkan ketertelusuran ujung-ke-ujung yang komprehensif dengan logika transformasi data rekayasa balik.

Teknik Lineage by parsing relatif rumit untuk diterapkan karena memerlukan pemahaman semua alat dan bahasa pemrograman yang digunakan untuk mengubah dan memproses data. Ini dapat mencakup logika ETL, solusi berbasis bahasa kueri terstruktur (SQL), solusi JAVA, solusi bahasa markup yang dapat diperluas (XML), format data lama, dan banyak lagi.

Sulit untuk membuat solusi silsilah data yang mendukung selusin bahasa pemrograman, dan berbagai alat yang mendukung pemrosesan dinamis menambah kerumitannya. Saat memilih solusi silsilah data, pastikan itu memperhitungkan parameter input, informasi runtime, dan nilai default dan mem-parsing semua elemen ini untuk mengotomatiskan pengiriman silsilah data ujung ke ujung.

Garis keturunan berbasis pola

Garis keturunan berbasis pola menggunakan pola untuk memberikan representasi garis keturunan alih-alih membaca kode apa pun. Garis keturunan berbasis pola memanfaatkan metadata tentang tabel, laporan, dan kolom serta membuat profilnya untuk membuat garis keturunan berdasarkan kesamaan dan pola umum.

Anda tanpa ragu memiliki keuntungan dari pemantauan data daripada algoritma dalam teknik ini. Solusi garis keturunan data Anda tidak harus memahami bahasa pemrograman dan alat yang digunakan untuk memproses data. Ini dapat digunakan dengan cara yang sama di semua teknologi database seperti Oracle atau MySQL. Tetapi pada saat yang sama, teknik ini tidak selalu menunjukkan hasil yang akurat. Banyak detail, seperti logika transformasi, tidak tersedia.

Pendekatan ini cocok untuk kasus penggunaan silsilah data ketika memahami logika pemrograman tidak mungkin karena kode yang tidak dapat diakses atau tidak tersedia.

Silsilah mandiri

Garis keturunan mandiri melacak setiap pergerakan dan transformasi data dalam lingkungan all-inclusive yang menyediakan logika pemrosesan data, manajemen data master, dan banyak lagi. Menjadi mudah untuk melacak aliran data dan siklus hidupnya.

Namun, solusi mandiri tetap eksklusif untuk satu lingkungan tertentu dan buta terhadap segala sesuatu di luarnya. Saat kebutuhan baru muncul dan alat baru digunakan untuk memproses data, solusi silsilah data mandiri dapat gagal memberikan hasil yang diharapkan.

Garis keturunan dengan penandaan data

Dengan garis keturunan dengan penandaan data , setiap bagian data yang bergerak atau berubah akan ditandai oleh mesin transformasi. Semua tag kemudian dibaca dari awal sampai akhir untuk menghasilkan representasi garis keturunan. Meskipun tampaknya menjadi teknik silsilah data yang efektif, ini hanya berfungsi jika ada mesin atau alat transformasi yang konsisten untuk mengontrol pergerakan data.

Teknik ini mengecualikan pergerakan data di luar mesin transformasi, sehingga cocok untuk melakukan silsilah data pada sistem data tertutup. Dalam beberapa kasus, ini mungkin bukan teknik garis keturunan data yang disukai. Misalnya, pengembang menahan diri untuk tidak menambahkan kolom data formal ke model solusi di setiap titik kontak untuk pemindahan data.

Blockchain adalah salah satu solusi potensial untuk mengatasi kompleksitas garis keturunan dengan penandaan data, tetapi tidak memiliki adopsi yang cukup luas untuk menyebabkan dampak yang signifikan pada siklus hidup data dalam organisasi.

Garis keturunan manual

Garis keturunan manual melibatkan berbicara dengan orang-orang untuk memahami aliran data dalam suatu organisasi dan mendokumentasikannya. Anda dapat mewawancarai pemilik aplikasi, spesialis integrasi data, pengelola data, dan lainnya yang terkait dengan siklus hidup data. Selanjutnya, Anda dapat menentukan garis keturunan menggunakan spreadsheet dengan teknik pemetaan sederhana.

Kadang-kadang, Anda mungkin menemukan informasi yang kontradiktif atau melewatkan wawancara dengan seseorang, yang mengarah ke garis keturunan data yang tidak tepat. Saat menelusuri kode, Anda juga harus meninjau tabel secara manual, membandingkan kolom, dan sebagainya, menjadikannya proses yang memakan waktu dan membosankan. Volume kode yang berkembang secara dinamis dan kompleksitasnya menambah komplikasi silsilah data manual.

Terlepas dari tantangan ini, pendekatan ini terbukti bermanfaat untuk memahami apa yang terjadi di suatu lingkungan. Garis keturunan data manual juga terbukti efektif ketika kode tidak tersedia atau tidak dapat diakses.

Bagaimana menerapkan garis keturunan data

Menerapkan garis keturunan data sangat bergantung pada budaya data organisasi Anda. Pastikan Anda memiliki kerangka kerja manajemen data yang mapan dan bangun kolaborasi yang kuat dengan profesional manajemen data dan pemangku kepentingan lainnya untuk implementasi silsilah data yang sukses.

Ikuti tujuh langkah ini untuk berhasil menerapkan garis keturunan data di organisasi Anda.

  1. Identifikasi pendorong bisnis utama: Diskusikan alasan untuk menerapkan garis keturunan data dan temukan apakah itu penting untuk memenuhi tujuan bisnis. Alasan ini dapat mencakup perubahan bisnis, inisiatif kualitas data, persyaratan pendengaran, atau persyaratan undang-undang.
  2. Manajemen senior dalam proyek: Menerapkan garis keturunan data membutuhkan banyak sumber daya (baik manusia maupun keuangan) dan waktu. Pastikan Anda mendapat dukungan dari manajemen senior untuk memindahkan proyek implementasi menuju penyelesaian. Anda dapat meyakinkan manajemen dengan menjelaskan manfaat silsilah data dan bagaimana hal itu membantu dalam mematuhi peraturan industri.
  3. Cakupan inisiatif: Setelah manajemen senior menyetujui proyek, tentukan cakupannya berdasarkan penggerak bisnis yang teridentifikasi dan elemen data penting (CDE). Elemen data penting memiliki dampak paling signifikan terhadap kinerja organisasi dan pengalaman pelanggan.
  4. Tentukan cakupan: Cakupan silsilah data dimulai dengan sumber data dan berakhir pada titik penggunaan akhir. Organisasi besar dapat memperbaiki panjang garis keturunan data yang terbatas karena mereka memiliki banyak anak perusahaan untuk menghindari komplikasi.
  5. Siapkan persyaratan bisnis: Pemangku kepentingan mungkin memiliki harapan yang berbeda untuk silsilah data. Terutama, ada pemangku kepentingan bisnis dan pemangku kepentingan teknis yang memiliki kepentingan yang berbeda. Pemangku kepentingan bisnis lebih tertarik pada nilai, garis keturunan data pada tingkat model data konseptual, dan analisis akar masalah. Sebaliknya, pemangku kepentingan teknis memiliki kepentingan dalam analisis dampak, garis keturunan desain metadata, dan garis keturunan data pada tingkat fisik.
  6. Memperbaiki metode untuk mendokumentasikan garis keturunan data: Anda dapat menggunakan dokumentasi garis keturunan data deskriptif atau otomatis. Nilai cara mana yang lebih cocok untuk organisasi Anda, dengan mempertimbangkan waktu dan sumber daya yang akan digunakan.
  7. Pilih perangkat lunak silsilah data yang sesuai: Pilih solusi perangkat lunak silsilah data yang paling sesuai dengan tujuan dan harapan Anda. Anda dapat menjelajahi   perangkat lunak manajemen data utama   yang menawarkan kemampuan silsilah otomatis.

Praktik terbaik silsilah data

Lineage membantu Anda mendapatkan data yang dapat dipercaya dan akurat untuk mendukung proses pengambilan keputusan perusahaan Anda. Perencanaan dan penerapan adalah elemen penting dari tata kelola data - Anda harus yakin dari mana data Anda berasal dan ke mana akan membawa Anda.

Ada beberapa praktik yang dapat Anda pertimbangkan saat merencanakan dan menerapkan garis keturunan data di organisasi Anda:

  • Mengotomatiskan ekstraksi garis keturunan data: Data dan garis keturunannya adalah entitas dinamis. Anda perlu bergerak lebih jauh dari menangkap garis keturunan data secara manual dalam spreadsheet dan mengotomatiskan proses untuk bersaing di lingkungan yang gesit.
  • Sertakan sumber metadata: Sistem manajemen basis data, alat data besar, perangkat lunak ETL, dan aplikasi khusus lainnya membuat data mereka sendiri tentang data yang mereka proses. Sertakan metadata ini dalam garis keturunan Anda karena membantu dalam memahami aliran data dan modifikasi.
  • Verifikasi sumber metadata: Dorong pemilik aplikasi dan alat untuk memverifikasi sumber metadata masing-masing karena merekalah yang memahami dengan jelas keakuratan dan relevansi metadata.
  • Rencanakan ekstraksi progresif: Ekstrak metadata dan garis keturunan dalam urutan yang sama saat data mengalir melalui sistem Anda. Ini menyederhanakan pemetaan koneksi, hubungan, dan ketergantungan di antara sistem dan di dalam data.
  • Validasi silsilah data ujung ke ujung: Validasi silsilah secara progresif dengan mulai dari koneksi tingkat tinggi antar sistem dan kemudian selidiki kumpulan data yang terhubung diikuti oleh elemen data sebelum memvalidasi dokumentasi transformasi.
  • Menerapkan perangkat lunak katalog data: Mengadopsi dan   perangkat lunak katalog data yang cerdas dan otomatis   untuk mengumpulkan data silsilah dari semua sumber. Perangkat lunak ini juga memungkinkan Anda untuk mengekstrak dan menyimpulkan garis keturunan dari metadata.

Lacak aliran data pada tingkat granular

Garis keturunan data memungkinkan organisasi untuk mendapatkan visibilitas terperinci dari aliran data sepanjang siklus hidup dan membantu mereka mengidentifikasi akar penyebab kesalahan, mengelola tata kelola data, melakukan analisis dampak, dan membuat keputusan bisnis berdasarkan data.

Mendokumentasikan garis keturunan data bisa jadi rumit, tetapi bermanfaat bagi organisasi untuk memahami dan menggunakan data mereka secara efektif.

Pelajari lebih lanjut tentang cara mendapatkan data waktu nyata untuk membuat keputusan bisnis strategis dengan virtualisasi data.