Data Lineage คืออะไร? ทำไมการติดตามกระแสข้อมูลจึงสำคัญ

เผยแพร่แล้ว: 2021-09-28

ผู้เชี่ยวชาญบางคนมองว่าสายเลือดเป็น GPS ของข้อมูล

เป็นเพราะสายข้อมูลช่วยให้ผู้ใช้เห็นภาพรวมของเส้นทางและการแปลงข้อมูล โดยจะบันทึกว่าข้อมูลมีการประมวลผล เปลี่ยนแปลง และส่งข้อมูลอย่างไรให้เป็นข้อมูลที่มีความหมายซึ่งธุรกิจใช้ในการดำเนินการ

สายข้อมูลช่วยให้ธุรกิจได้รับมุมมองที่ละเอียดว่าข้อมูลไหลจากต้นทางไปยังปลายทางอย่างไร หลายองค์กรใช้   ซอฟต์แวร์การจำลองเสมือนข้อมูล   ด้วย data lineage เพื่อช่วยในการติดตามข้อมูลในขณะที่ให้ข้อมูลแบบเรียลไทม์แก่ผู้ใช้

Data lineage แจ้งให้วิศวกรทราบเกี่ยวกับการแปลงข้อมูลและสาเหตุที่เกิดขึ้น ช่วยให้องค์กรติดตามข้อผิดพลาด ดำเนินการย้ายระบบ นำการค้นพบข้อมูลและข้อมูลเมตาเข้ามาใกล้กันมากขึ้น และนำการเปลี่ยนแปลงกระบวนการไปใช้โดยมีความเสี่ยงน้อยลง

การแสดงสายข้อมูล

การตัดสินใจทางธุรกิจเชิงกลยุทธ์ขึ้นอยู่กับความถูกต้องของข้อมูล หากไม่มีสายข้อมูลที่ดี การติดตามและยืนยันกระบวนการข้อมูลจะกลายเป็นเรื่องท้าทาย Data lineage ช่วยให้ผู้ใช้สามารถเห็นภาพการไหลของข้อมูลทั้งหมดจากต้นทางไปยังปลายทาง ทำให้ง่ายต่อการตรวจจับและแก้ไขความผิดปกติ ด้วย data lineage ผู้ใช้สามารถเล่นซ้ำบางส่วนหรืออินพุตของการไหลของข้อมูลเพื่อแก้ไขข้อบกพร่องหรือสร้างเอาต์พุตที่หายไป

ในสถานการณ์ที่ผู้ใช้ไม่ต้องการรายละเอียดเกี่ยวกับสายผลิตภัณฑ์ทางเทคนิค พวกเขาจะใช้ที่มาของข้อมูลเพื่อให้ได้ภาพรวมระดับสูงของการไหลของข้อมูล มากมาย   ระบบฐานข้อมูล   ใช้ประโยชน์จากแหล่งที่มาของข้อมูลเพื่อจัดการกับความท้าทายในการดีบักและการตรวจสอบความถูกต้อง

ที่มาของข้อมูลคืออะไร?

ที่มาของข้อมูลคือเอกสารของที่มาของข้อมูลและวิธีการสร้างข้อมูล

แม้ว่าที่มาของข้อมูลและสายข้อมูลจะมีความคล้ายคลึงกัน แต่ที่มาของข้อมูลจะมีประโยชน์มากกว่าสำหรับผู้ใช้ทางธุรกิจที่ต้องการภาพรวมในระดับสูงว่าข้อมูลมาจากไหน ในทางตรงกันข้าม data lineage มีทั้งสายธุรกิจและระดับเทคนิค และให้มุมมองที่ละเอียดของการไหลของข้อมูล

สายข้อมูลและการกำกับดูแลข้อมูล

การกำกับดูแลข้อมูลคือชุดของกฎและขั้นตอนที่องค์กรใช้ในการรักษาและควบคุมข้อมูล Data Lineage เป็นส่วนสำคัญของการกำกับดูแลข้อมูล เนื่องจากเป็นการแจ้งว่าข้อมูลไหลจากต้นทางไปยังปลายทางอย่างไร

ธุรกิจต่างๆ ใช้ชั้นข้อมูลที่แตกต่างกันตามความต้องการ ระดับล่างของสายข้อมูลให้การแสดงภาพอย่างง่ายว่าข้อมูลไหลอย่างไรภายในองค์กร โดยไม่ต้องรวมรายละเอียดเฉพาะเกี่ยวกับการแปลงที่เกิดขึ้นขณะเคลื่อนผ่านไปป์ไลน์ ระดับสูงสุดคือสายข้อมูลระดับแอตทริบิวต์ที่ให้ข้อมูลเชิงลึกเกี่ยวกับวิธีการเพิ่มประสิทธิภาพการไหลของข้อมูลและวิธีปรับปรุงแพลตฟอร์มข้อมูล

องค์กรต่างๆ เลือกระดับสายข้อมูลตามโครงสร้างการกำกับดูแล ต้นทุนที่เกิดขึ้นในการดำเนินการและการตรวจสอบ ข้อกังวลด้านกฎระเบียบ และผลกระทบที่จะมีต่อธุรกิจ

การทำความเข้าใจ data lineage เป็นลักษณะสำคัญของการจัดการ metadata ทำให้จำเป็นสำหรับ   คลังข้อมูล   และผู้ดูแลระบบดาต้าเลค การจัดการข้อมูลเมตาช่วยให้คุณดูการไหลของข้อมูลผ่านระบบต่างๆ ได้ ทำให้ค้นหาข้อมูลทั้งหมดที่เกี่ยวข้องกับรายงานเฉพาะหรือกระบวนการแยก แปลง โหลด (ETL) ได้ง่ายขึ้น

"การรวบรวมสายข้อมูล - อธิบายที่มา โครงสร้าง และการขึ้นต่อกันของข้อมูล - จะเพิ่มคุณภาพของข้อมูลเมตาที่ให้โดยอัตโนมัติและลดความพยายามด้วยตนเอง"

Josef Viehhauser
ผู้นำแพลตฟอร์มที่ BMW

เหตุใด data lineage จึงมีความสำคัญ?

Data lineage ไม่เพียงแต่ช่วยคุณแก้ไขปัญหาหรือดำเนินการย้ายระบบเท่านั้น แต่ยังช่วยให้คุณมั่นใจในการรักษาความลับและความสมบูรณ์ของข้อมูลโดยการติดตามการเปลี่ยนแปลง วิธีดำเนินการ และใครเป็นคนสร้าง

ด้วย data lineage ทีมไอทีสามารถเห็นภาพการเดินทางของข้อมูลตั้งแต่ต้นจนจบ มันทำให้งานของผู้เชี่ยวชาญด้านไอทีง่ายขึ้นและมอบความมั่นใจให้กับผู้ใช้ทางธุรกิจในการตัดสินใจอย่างมีประสิทธิภาพ

เครื่องมือสายข้อมูลช่วยให้คุณตอบคำถามต่อไปนี้:

  • ข้อมูลมีการเปลี่ยนแปลงอย่างไรและโดยกระบวนการใด
  • ใครเป็นผู้รับผิดชอบในการแก้ไขข้อมูล?
  • การเปลี่ยนแปลงเกิดขึ้นเมื่อไหร่?
  • ตำแหน่งทางภูมิศาสตร์ของบุคคลที่ทำการดัดแปลงคืออะไร?
  • เหตุใดจึงมีการเปลี่ยนแปลงและบริบทเบื้องหลังคืออะไร

ข้อกำหนดสำหรับระบบสายข้อมูลจะถูกกำหนดโดยบทบาทของบุคคลและวัตถุประสงค์ขององค์กรเป็นหลัก อย่างไรก็ตาม สายข้อมูลอาจมีผลกระทบอย่างมากในด้านต่างๆ ซึ่งรวมถึง:

  • การตัดสินใจเชิงกลยุทธ์: Data lineage ช่วยให้ผู้ใช้ทางธุรกิจเข้าใจข้อมูลที่ประมวลผลได้ดีขึ้นโดยดูจากการเปลี่ยนแปลงที่เกิดขึ้น ข้อมูลนี้มีความสำคัญต่อการดำเนินธุรกิจและปรับปรุงผลิตภัณฑ์และบริการ
  • การใช้ชุดข้อมูลใหม่และเก่าอย่างเหมาะสม: Data lineage ช่วยให้ธุรกิจสามารถติดตามชุดข้อมูลต่างๆ เมื่อมีการเปลี่ยนแปลงเนื่องจากเทคนิคและเทคโนโลยีการรวบรวมที่พัฒนาขึ้น
  • การโยกย้ายข้อมูล: สายผลิตภัณฑ์ข้อมูลช่วยให้ทีมไอทีย้ายข้อมูลไปยังตำแหน่งที่จัดเก็บข้อมูลใหม่ได้อย่างรวดเร็วโดยการทำความเข้าใจตำแหน่งและวงจรชีวิตของแหล่งข้อมูล ทำให้โครงการย้ายข้อมูลมีความเสี่ยงน้อยลง
  • การกำกับดูแลข้อมูล: เนื่องจากสายผลิตภัณฑ์ข้อมูลให้การมองเห็นที่ละเอียดตลอดวงจรชีวิตของข้อมูล จึงช่วยให้ธุรกิจสามารถจัดการความเสี่ยง ปฏิบัติตามกฎระเบียบของอุตสาหกรรม และดำเนินการตรวจสอบได้

ผู้เชี่ยวชาญ มองว่า data lineage เป็นแนวปฏิบัติของ dataGovOps ที่ lineage การทดสอบ และ sandboxing อยู่ภายใต้แนวทางการกำกับดูแลข้อมูล

“สายข้อมูลเป็นหนึ่งในเทคโนโลยีที่สำคัญที่สุดในการ "ทำความรู้จัก" แนวข้อมูลของลูกค้าและทำความเข้าใจเกี่ยวกับการแปลงข้อมูลที่นำมาใช้"

โวล์ฟกัง สตราสเซอร์
Data Consultant ที่ Cubido Business Solutions GMBH

Wolfgang Strasser กล่าวเพิ่มเติมว่า "ความจำเป็นในการทำความเข้าใจการพึ่งพาระหว่างเกาะข้อมูลและระบบในองค์กรมีความสำคัญ ไม่เพียงแต่จำเป็นจากมุมมองทางเทคนิคเท่านั้น ยิ่งคุณรู้ดีว่าข้อมูลของคุณไหลเวียนระหว่างระบบอย่างไร ช่วยให้คุณตอบสนองได้ดีขึ้นและมองเห็น ที่ซึ่งข้อมูลส่วนหนึ่งเกิดขึ้นและการเปลี่ยนแปลงที่ใช้ระหว่างทางไปยังระบบปลายทาง ในบางโครงการ เราสามารถค้นหาการพึ่งพาระบบที่แม้แต่ลูกค้าก็ไม่รู้ตัว"

มีหลายวิธีที่ data lineage สามารถช่วยเหลือบุคคลในบทบาทงานต่างๆ ตัวอย่างเช่น นักพัฒนา ETL สามารถค้นหาจุดบกพร่องในงาน ETL และตรวจสอบการแก้ไขใดๆ ในฟิลด์ข้อมูล เช่น การลบคอลัมน์ การเพิ่ม หรือการเปลี่ยนชื่อ ผู้ดูแลข้อมูลสามารถใช้ lineage เพื่อระบุสินทรัพย์ข้อมูลที่น้อยที่สุดและมีประโยชน์มากที่สุดในงาน ETL สำหรับผู้ใช้ทางธุรกิจ จะช่วยตรวจสอบความถูกต้องของรายงานและระบุกระบวนการและงานที่เกี่ยวข้องเมื่อมีการสร้างรายงานที่ไม่ถูกต้อง

สายข้อมูลยังพบการประยุกต์ใช้ใน   แมชชีนเลิร์นนิง ซึ่งใช้เพื่อฝึกโมเดลใหม่โดยอิงจากข้อมูลใหม่หรือข้อมูลที่แก้ไข ยังช่วยลด   ดริฟท์โมเดล โมเดลดริฟท์หมายถึงการลดประสิทธิภาพของโมเดลเนื่องจากการเปลี่ยนแปลงของข้อมูลและความสัมพันธ์ระหว่างตัวแปรอินพุตและเอาต์พุต

เส้นข้อมูลแบบหยาบและแบบละเอียด

นักวิชาการวิชาการบางครั้งใช้สายข้อมูลที่หยาบและละเอียดแตกต่างกัน แต่แนวคิดโดยทั่วไปครอบคลุมระดับของสายข้อมูลที่ผู้ใช้จะได้รับ

เชื้อสายเนื้อหยาบกับเชื้อสายเนื้อละเอียด

สายข้อมูลแบบหยาบ อธิบายไปป์ไลน์ข้อมูล ฐานข้อมูล ตาราง และวิธีที่พวกมันเชื่อมต่อถึงกัน โดยปกติ ระบบรวบรวมเชื้อสายจะสะสมเชื้อสายเนื้อหยาบในขณะดำเนินการ พวกเขาจับความเชื่อมโยงระหว่างไปป์ไลน์ข้อมูล ฐานข้อมูล และตารางโดยไม่มีรายละเอียดเกี่ยวกับการแปลงที่ใช้ในการแก้ไขข้อมูล ซึ่งช่วยให้พวกเขาลดค่าใช้จ่ายในการดักจับ (ข้อมูลโดยละเอียดเกี่ยวกับการไหลของข้อมูล) ในสถานการณ์ที่ผู้ใช้ต้องการวิเคราะห์ทางนิติเวชเพื่อจุดประสงค์ในการดีบัก พวกเขาจะต้องเล่นซ้ำการไหลของข้อมูลเพื่อรวบรวมสายข้อมูลที่มีความละเอียด

ในทางกลับกัน สายข้อมูลแบบละเอียด จะครอบคลุมการแปลงที่นำไปใช้โดยละเอียดซึ่งสร้างหรือแก้ไขข้อมูล ระบบการรวบรวมสายเลือดที่ใช้งานจับสายข้อมูลแบบหยาบหรือแบบละเอียด ณ รันไทม์ ช่วยให้เล่นซ้ำและแก้จุดบกพร่องได้ดีเยี่ยม อย่างไรก็ตาม ค่าโสหุ้ยในการดักจับนั้นสูงเนื่องจากปริมาณข้อมูลเชื้อสายที่ละเอียด

กรณีการใช้งานสายข้อมูล

สายข้อมูลช่วยให้องค์กรติดตามการไหลของข้อมูลตลอดวงจรชีวิต ดูการขึ้นต่อกัน และทำความเข้าใจการเปลี่ยนแปลง ทีมใช้ประโยชน์จากมุมมองที่ละเอียดของการไหลของข้อมูลและใช้เพื่อวัตถุประสงค์ต่างๆ

การระบุสาเหตุของข้อผิดพลาด

มีความสับสนในสถานการณ์ที่ยอดขายไม่ตรงกับบันทึกของแผนกการเงิน และเป็นการยากที่จะระบุว่ามีข้อผิดพลาดจริงอยู่ที่ใด สายข้อมูลให้คำอธิบายที่สมเหตุสมผลสำหรับกรณีดังกล่าว ผู้จัดการข่าวกรองธุรกิจ (BI) สามารถใช้สายข้อมูลเพื่อติดตามการไหลของข้อมูลทั้งหมดและดูการแก้ไขใด ๆ ที่เกิดขึ้นระหว่างการประมวลผล

ไม่ว่าจะมีข้อผิดพลาดหรือไม่ก็ตาม ผู้จัดการ BI สามารถรู้สึกมั่นใจโดยให้คำอธิบายที่สมเหตุสมผลสำหรับสถานการณ์ หากมีข้อผิดพลาด ทีมสามารถแก้ไขได้ที่ต้นทาง ทำให้ข้อมูลผู้ใช้ปลายทางในทีมต่างๆ มีความสม่ำเสมอ

การอัพเกรดระบบ

ขณะอัปเกรดหรือย้ายไปยังระบบใหม่ จำเป็นต้องทำความเข้าใจว่าชุดข้อมูลใดที่เกี่ยวข้องและชุดข้อมูลใดที่ล้าสมัยหรือไม่มีอยู่จริง สายข้อมูลช่วยให้คุณทราบข้อมูลที่คุณใช้จริงในการดำเนินธุรกิจ และจำกัดการใช้จ่ายในการจัดเก็บและจัดการข้อมูลที่ไม่เกี่ยวข้อง

ด้วย data lineage คุณสามารถวางแผนและดำเนินการย้ายระบบและอัปเดตระบบได้อย่างราบรื่น ช่วยให้คุณเห็นภาพที่มาข้อมูล การขึ้นต่อกัน และกระบวนการต่างๆ ทำให้คุณทราบได้ชัดเจนว่าคุณต้องการโยกย้ายอะไร

การวิเคราะห์ผลกระทบ

ธุรกิจที่ดีจะระบุรายงาน องค์ประกอบข้อมูล และผู้ใช้ปลายทางที่ได้รับผลกระทบก่อนดำเนินการเปลี่ยนแปลง ซอฟต์แวร์ Data lineage ช่วยให้ทีมเห็นภาพออบเจ็กต์ข้อมูลดาวน์สตรีมและวัดผลกระทบของการเปลี่ยนแปลง

สายข้อมูลช่วยให้คุณเห็นว่าผู้ใช้ทางธุรกิจโต้ตอบกับข้อมูลอย่างไรและการเปลี่ยนแปลงจะส่งผลต่อพวกเขาอย่างไร ช่วยให้ธุรกิจเข้าใจผลกระทบของการปรับเปลี่ยนเฉพาะและช่วยให้พวกเขาตัดสินใจว่าควรปฏิบัติตามหรือไม่

เทคนิคสายข้อมูล

องค์กรสามารถดำเนินการ data lineage บนชุดข้อมูลเชิงกลยุทธ์โดยใช้เทคนิคมาตรฐานบางประการ เทคนิคเหล่านี้ช่วยให้แน่ใจว่าทุกการแปลงหรือประมวลผลข้อมูลถูกติดตาม ช่วยให้คุณสามารถแมปองค์ประกอบข้อมูลในทุกขั้นตอนเมื่อสินทรัพย์ข้อมูลผ่านกระบวนการ

เทคนิคสายข้อมูลรวบรวมและจัดเก็บข้อมูลเมตาหลังการแปลงข้อมูลแต่ละครั้ง ซึ่งจะใช้สำหรับการแสดงสายข้อมูลในภายหลัง

เชื้อสายโดยการแยกวิเคราะห์

Lineage โดยแยก รูปแบบ lineage ที่ทันสมัยที่สุดรูปแบบหนึ่งที่อ่านตรรกะที่ใช้ในการประมวลผลข้อมูล คุณสามารถรับความสามารถในการตรวจสอบย้อนกลับจากต้นทางถึงปลายทางได้โดยใช้ตรรกะการแปลงข้อมูลทางวิศวกรรมย้อนกลับ

Lineage โดยเทคนิคการแยกวิเคราะห์ค่อนข้างซับซ้อนในการปรับใช้ เนื่องจากต้องใช้ความเข้าใจเครื่องมือและภาษาโปรแกรมทั้งหมดที่ใช้ในการแปลงและประมวลผลข้อมูล ซึ่งอาจรวมถึงตรรกะ ETL, โซลูชันที่ใช้ภาษาการสืบค้นแบบมีโครงสร้าง (SQL), โซลูชัน JAVA, โซลูชันภาษามาร์กอัปที่ขยายได้ (XML), รูปแบบข้อมูลดั้งเดิม และอื่นๆ

เป็นเรื่องยากที่จะสร้างโซลูชันสายข้อมูลที่รองรับภาษาโปรแกรมหลายสิบภาษา และเครื่องมือต่างๆ ที่สนับสนุนการประมวลผลแบบไดนามิกช่วยเพิ่มความซับซ้อน ขณะเลือกโซลูชันสายข้อมูล ตรวจสอบให้แน่ใจว่าได้พิจารณาพารามิเตอร์อินพุต ข้อมูลรันไทม์ และค่าเริ่มต้น และแยกวิเคราะห์องค์ประกอบทั้งหมดเหล่านี้เพื่อทำให้การจัดส่งสายข้อมูลแบบ end-to-end เป็นอัตโนมัติ

เชื้อสายตามรูปแบบ

Pattern-based lineage ใช้รูปแบบเพื่อให้การแสดง lineage แทนการอ่านโค้ดใดๆ การสืบเชื้อสายตามรูปแบบใช้ประโยชน์จากข้อมูลเมตาเกี่ยวกับตาราง รายงาน และคอลัมน์ และกำหนดโปรไฟล์เพื่อสร้างกลุ่มตามความคล้ายคลึงและรูปแบบทั่วไป

คุณไม่ต้องสงสัยเลยว่ามีข้อได้เปรียบของการตรวจสอบข้อมูลแทนที่จะเป็นอัลกอริธึมในเทคนิคนี้ โซลูชันสายข้อมูลของคุณไม่จำเป็นต้องเข้าใจภาษาโปรแกรมและเครื่องมือที่ใช้ในการประมวลผลข้อมูล สามารถใช้ในลักษณะเดียวกันกับเทคโนโลยีฐานข้อมูลใดๆ เช่น Oracle หรือ MySQL แต่ในขณะเดียวกัน เทคนิคนี้ก็ไม่ได้แสดงผลที่ถูกต้องเสมอไป ไม่มีรายละเอียดมากมาย เช่น ตรรกะการเปลี่ยนแปลง

แนวทางนี้เหมาะสำหรับกรณีการใช้งานสายข้อมูลเมื่อไม่สามารถทำความเข้าใจตรรกะในการเขียนโปรแกรมได้เนื่องจากรหัสที่ไม่สามารถเข้าถึงได้หรือไม่พร้อมใช้งาน

เชื้อสายในตนเอง

Lineage ที่มีอยู่ในตัวเอง ติดตามทุกการเคลื่อนไหวและการแปลงข้อมูลภายในสภาพแวดล้อมแบบรวมทุกอย่างที่ให้ตรรกะการประมวลผลข้อมูล การจัดการข้อมูลหลัก และอื่นๆ การติดตามการไหลของข้อมูลและวงจรชีวิตเป็นเรื่องง่าย

ถึงกระนั้น โซลูชันที่มีอยู่ในตัวเองยังคงเป็นเอกสิทธิ์ของสภาพแวดล้อมเฉพาะอย่างใดอย่างหนึ่งและมองไม่เห็นทุกสิ่งภายนอก เมื่อความต้องการใหม่ปรากฏขึ้นและมีการใช้เครื่องมือใหม่ๆ ในการประมวลผลข้อมูล โซลูชันสายข้อมูลที่มีอยู่ในตัวเองอาจไม่เพียงพอในการให้ผลลัพธ์ที่คาดหวัง

Lineage โดยการติดแท็กข้อมูล

ด้วย lineage by data tagging ข้อมูล แต่ละชิ้นที่ย้ายหรือแปลงจะถูกแท็กโดยเอ็นจิ้นการแปลง แท็กทั้งหมดจะถูกอ่านตั้งแต่ต้นจนจบเพื่อสร้างการแสดงเชื้อสาย แม้ว่าจะดูเหมือนเป็นเทคนิคสายข้อมูลที่มีประสิทธิภาพ แต่จะใช้ได้ก็ต่อเมื่อมีเครื่องมือหรือเครื่องมือการแปลงที่สม่ำเสมอเพื่อควบคุมการเคลื่อนไหวของข้อมูล

เทคนิคนี้ไม่รวมการเคลื่อนย้ายข้อมูลภายนอกเอ็นจินการแปลง ทำให้เหมาะสำหรับการดำเนินการสายข้อมูลบนระบบข้อมูลแบบปิด ในบางกรณี นี่อาจไม่ใช่เทคนิคสายข้อมูลที่ต้องการ ตัวอย่างเช่น นักพัฒนาละเว้นจากการเพิ่มคอลัมน์ข้อมูลที่เป็นทางการลงในโมเดลโซลูชันที่จุดสัมผัสทุกจุดสำหรับการเคลื่อนย้ายข้อมูล

Blockchain เป็นโซลูชั่นที่มีศักยภาพในการจัดการความซับซ้อนของสายเลือดโดยการติดแท็กข้อมูล แต่ไม่มีการยอมรับอย่างกว้างขวางเพียงพอที่จะส่งผลกระทบอย่างมีนัยสำคัญต่อวงจรชีวิตของข้อมูลในองค์กร

เชื้อสายคู่มือ

การสืบสายด้วยตนเอง เกี่ยวข้องกับการพูดคุยกับผู้คนเพื่อทำความเข้าใจการไหลของข้อมูลในองค์กรและจัดทำเป็นเอกสาร คุณสามารถสัมภาษณ์เจ้าของแอปพลิเคชัน ผู้เชี่ยวชาญด้านการรวมข้อมูล ผู้ดูแลข้อมูล และอื่นๆ ที่เกี่ยวข้องกับวงจรชีวิตข้อมูล ถัดไป คุณสามารถกำหนดเชื้อสายโดยใช้สเปรดชีตด้วยเทคนิคการทำแผนที่อย่างง่าย

ในบางครั้ง คุณอาจพบข้อมูลที่ขัดแย้งกันหรือพลาดการสัมภาษณ์ใครบางคน ซึ่งนำไปสู่สายข้อมูลที่ไม่เหมาะสม ขณะอ่านโค้ด คุณจะต้องตรวจทานตารางด้วยตนเอง เปรียบเทียบคอลัมน์ และอื่นๆ ทำให้เป็นกระบวนการที่ใช้เวลานานและน่าเบื่อ ปริมาณโค้ดที่เพิ่มขึ้นแบบไดนามิกและความซับซ้อนของโค้ดช่วยเพิ่มความยุ่งยากในสายข้อมูลด้วยตนเอง

โดยไม่คำนึงถึงความท้าทายเหล่านี้ แนวทางนี้พิสูจน์ได้ว่ามีประโยชน์ในการทำความเข้าใจว่าเกิดอะไรขึ้นในสภาพแวดล้อม สายข้อมูลแบบแมนนวลยังพิสูจน์ได้ว่ามีประสิทธิภาพเมื่อรหัสไม่พร้อมใช้งานหรือไม่สามารถเข้าถึงได้

วิธีการใช้ data lineage

การนำ data lineage ไปใช้นั้นขึ้นอยู่กับวัฒนธรรมข้อมูลขององค์กรของคุณ ตรวจสอบให้แน่ใจว่าคุณมีกรอบงานการจัดการข้อมูลที่กำหนดไว้ และสร้างความร่วมมือที่แข็งแกร่งกับผู้เชี่ยวชาญด้านการจัดการข้อมูลและผู้มีส่วนได้ส่วนเสียอื่นๆ เพื่อการนำสายข้อมูลไปใช้ที่ประสบความสำเร็จ

ปฏิบัติตามเจ็ดขั้นตอนเหล่านี้เพื่อใช้สายข้อมูลในองค์กรของคุณให้สำเร็จ

  1. ระบุตัวขับเคลื่อนธุรกิจหลัก: อภิปรายถึงเหตุผลในการดำเนินการตามสายข้อมูลและค้นหาว่าสิ่งเหล่านี้มีความสำคัญต่อการบรรลุวัตถุประสงค์ทางธุรกิจหรือไม่ เหตุผลเหล่านี้อาจรวมถึงการเปลี่ยนแปลงทางธุรกิจ การริเริ่มด้านคุณภาพข้อมูล ข้อกำหนดด้านการได้ยิน หรือข้อกำหนดของกฎหมาย
  2. ผู้บริหารระดับสูงในโครงการ: การนำ data lineage ไปใช้ต้องใช้ทรัพยากรจำนวนมาก (ทั้งด้านบุคลากรและการเงิน) และเวลา ให้แน่ใจว่าคุณได้รับการสนับสนุนจากผู้บริหารระดับสูงเพื่อย้ายโครงการดำเนินการไปสู่ความสำเร็จ คุณสามารถโน้มน้าวผู้บริหารได้ด้วยการอธิบายประโยชน์ของ data lineage และวิธีที่จะช่วยในการปฏิบัติตามกฎระเบียบของอุตสาหกรรม
  3. กำหนดขอบเขตความคิดริเริ่ม: เมื่อผู้บริหารระดับสูงอนุมัติโครงการ ให้ตัดสินใจขอบเขตตามตัวขับเคลื่อนธุรกิจที่ระบุและองค์ประกอบข้อมูลที่สำคัญ (CDE) องค์ประกอบข้อมูลที่สำคัญมีผลกระทบที่สำคัญที่สุดต่อประสิทธิภาพขององค์กรและประสบการณ์ของลูกค้า
  4. กำหนดขอบเขต: ขอบเขตของสายข้อมูลเริ่มต้นด้วยแหล่งข้อมูลและสิ้นสุดที่จุดการใช้งานขั้นสุดท้าย องค์กรขนาดใหญ่สามารถแก้ไขความยาวของสายข้อมูลได้อย่างจำกัด เนื่องจากมีบริษัทในเครือหลายแห่งเพื่อหลีกเลี่ยงความยุ่งยาก
  5. เตรียมข้อกำหนดทางธุรกิจ: ผู้มีส่วนได้ส่วนเสียอาจมีความคาดหวังที่แตกต่างกันสำหรับสายข้อมูล ในขั้นต้นมีผู้มีส่วนได้ส่วนเสียทางธุรกิจและผู้มีส่วนได้ส่วนเสียด้านเทคนิคที่มีความสนใจต่างกัน ผู้มีส่วนได้ส่วนเสียทางธุรกิจสนใจในคุณค่ามากขึ้น สายข้อมูลในระดับแบบจำลองข้อมูลแนวคิด และการวิเคราะห์สาเหตุ ในทางตรงกันข้าม ผู้มีส่วนได้ส่วนเสียด้านเทคนิคมีความสนใจในการวิเคราะห์ผลกระทบ สายการออกแบบข้อมูลเมตา และสายข้อมูลในระดับกายภาพ
  6. แก้ไขวิธีการจัดทำเอกสารสายข้อมูล: คุณสามารถใช้เอกสารสายข้อมูลแบบอธิบายหรือแบบอัตโนมัติก็ได้ ประเมินว่าวิธีใดเหมาะสมกว่าสำหรับองค์กรของคุณ โดยคำนึงถึงเวลาและทรัพยากรที่จะใช้
  7. เลือกซอฟต์แวร์ data lineage ที่เหมาะสม: เลือกโซลูชันซอฟต์แวร์ data lineage ที่เหมาะสมกับเป้าหมายและความคาดหวังของคุณมากที่สุด คุณสามารถสำรวจ   ซอฟต์แวร์การจัดการข้อมูลหลัก   ที่เสนอความสามารถเชื้อสายอัตโนมัติ

แนวทางปฏิบัติที่ดีที่สุดสำหรับสายข้อมูล

Lineage ช่วยให้คุณได้รับข้อมูลที่น่าเชื่อถือและแม่นยำเพื่อสนับสนุนกระบวนการตัดสินใจของบริษัทของคุณ การวางแผนและการดำเนินการเป็นองค์ประกอบสำคัญของการกำกับดูแลข้อมูล คุณต้องแน่ใจว่าข้อมูลของคุณมาจากไหนและจะพาคุณไปที่ใด

มีแนวทางปฏิบัติบางประการที่คุณสามารถพิจารณาได้ในขณะวางแผนและปรับใช้สายข้อมูลในองค์กรของคุณ:

  • แยกสายข้อมูลอัตโนมัติ: ข้อมูลและสายเลือดเป็นเอนทิตีแบบไดนามิก คุณต้องก้าวไปไกลกว่าการจับภาพสายข้อมูลในสเปรดชีตด้วยตนเอง และทำให้กระบวนการเป็นไปโดยอัตโนมัติเพื่อแข่งขันในสภาพแวดล้อมที่คล่องตัว
  • รวมแหล่งข้อมูลเมตา: ระบบจัดการฐานข้อมูล เครื่องมือบิ๊กดาต้า ซอฟต์แวร์ ETL และแอปพลิเคชันที่กำหนดเองอื่นๆ จะสร้างข้อมูลของตนเองเกี่ยวกับข้อมูลที่ประมวลผล รวมข้อมูลเมตานี้ไว้ในสายเลือดของคุณเนื่องจากจะช่วยในการทำความเข้าใจกระแสข้อมูลและการแก้ไข
  • ตรวจสอบแหล่งข้อมูลเมตา: ส่งเสริมให้เจ้าของแอปพลิเคชันและเครื่องมือตรวจสอบแหล่งข้อมูลเมตาที่เกี่ยวข้อง เนื่องจากเป็นผู้ที่เข้าใจความถูกต้องและความเกี่ยวข้องของข้อมูลเมตาอย่างชัดเจน
  • วางแผนการแยกแบบก้าวหน้า: แยกข้อมูลเมตาและสายเลือดในลำดับเดียวกันกับที่ข้อมูลไหลผ่านระบบของคุณ ช่วยลดความยุ่งยากในการเชื่อมต่อแผนที่ ความสัมพันธ์ และการพึ่งพาระหว่างระบบและภายในข้อมูล
  • ตรวจสอบสายข้อมูลแบบ end-to-end: ตรวจสอบ lineage แบบค่อยเป็นค่อยไปโดยเริ่มจากการเชื่อมต่อระดับสูงระหว่างระบบ แล้วเจาะลึกเข้าไปในชุดข้อมูลที่เชื่อมต่อแล้วตามด้วยองค์ประกอบข้อมูลก่อนที่จะตรวจสอบเอกสารการแปลง
  • ใช้ซอฟต์แวร์แค็ตตาล็อกข้อมูล: ใช้ an   ซอฟต์แวร์แคตตาล็อกข้อมูลอัจฉริยะและอัตโนมัติ   เพื่อรวบรวมข้อมูลเชื้อสายจากทุกแหล่ง ซอฟต์แวร์นี้ยังช่วยให้คุณสามารถแยกและสรุปเชื้อสายจากข้อมูลเมตา

ติดตามการไหลของข้อมูลในระดับที่ละเอียด

Data lineage ช่วยให้องค์กรสามารถมองเห็นกระแสข้อมูลได้อย่างละเอียดตลอดวงจรชีวิต และช่วยระบุสาเหตุของข้อผิดพลาด จัดการการกำกับดูแลข้อมูล ดำเนินการวิเคราะห์ผลกระทบ และตัดสินใจทางธุรกิจที่ขับเคลื่อนด้วยข้อมูล

การจัดทำเอกสารสายข้อมูลอาจเป็นเรื่องยาก แต่เป็นประโยชน์สำหรับองค์กรในการทำความเข้าใจและใช้ข้อมูลของตนอย่างมีประสิทธิภาพ

เรียนรู้เพิ่มเติมเกี่ยวกับวิธีรับข้อมูลแบบเรียลไทม์เพื่อตัดสินใจทางธุรกิจเชิงกลยุทธ์ด้วยการจำลองข้อมูลเสมือน