Что такое преемственность данных? Почему важно отслеживать поток данных
Опубликовано: 2021-09-28Некоторые профессионалы рассматривают линию передачи данных как GPS данных.
Это связано с тем, что происхождение данных помогает пользователям получить визуальный обзор пути и преобразований данных. Он документирует, как данные обрабатываются, преобразуются и передаются, чтобы составить значимую информацию, которую предприятия используют для своей деятельности.
Происхождение данных помогает компаниям получить детальное представление о том, как данные передаются от источника к месту назначения. Многие организации используют программное обеспечение для виртуализации данных с линией передачи данных, чтобы помочь им отслеживать свои данные, предоставляя пользователям информацию в режиме реального времени.
Что такое родословная данных?
Происхождение данных — это процесс определения происхождения данных, записи того, как они трансформируются и перемещаются во времени, и визуализации их потока от источников данных к конечным пользователям. Это помогает специалистам по обработке и анализу данных получить детальное представление о динамике данных и позволяет им отслеживать ошибки до их первопричины.
Data lineage информирует инженеров о преобразованиях данных и о том, почему они происходят. Это помогает организациям отслеживать ошибки, выполнять миграцию системы, сближать обнаружение данных и метаданные, а также вносить изменения в процессы с меньшим риском.
Стратегические бизнес-решения зависят от точности данных. Без хорошей передачи данных становится сложно отслеживать процессы данных и проверять их. Происхождение данных позволяет пользователям визуализировать полный поток информации от источника к месту назначения, что упрощает обнаружение и устранение аномалий. С помощью наследования данных пользователи могут воспроизводить определенные части или входные данные потока данных для отладки или создания потерянных выходных данных.
В ситуациях, когда пользователям не нужны подробности о техническом происхождении, они используют данные о происхождении, чтобы получить общее представление о потоке данных. Много системы баз данных использовать происхождение данных для решения задач отладки и проверки.
Что такое происхождение данных?
Происхождение данных — это документирование того, откуда берутся данные и методы их создания.
Хотя происхождение данных и происхождение данных имеют сходство, происхождение данных более полезно для бизнес-пользователей, которым требуется общий обзор того, откуда поступают данные. Напротив, родословная данных включает родословную как бизнес-уровня, так и технического уровня и обеспечивает детальное представление потока данных.
Происхождение данных и управление данными
Управление данными — это набор правил и процедур, которые организации используют для обслуживания и контроля данных. Происхождение данных является важной частью управления данными, поскольку оно информирует о том, как данные передаются от источника к месту назначения.
Предприятия используют разные уровни родословных данных в зависимости от своих потребностей. Более низкие уровни происхождения данных обеспечивают простое визуальное представление о том, как данные передаются внутри организации, без включения конкретных подробностей о преобразованиях, происходящих по мере их перемещения по конвейеру. Самый высокий уровень — это линия передачи данных на уровне атрибутов, которая дает представление о том, как можно оптимизировать поток данных, и о способах улучшения платформ данных.
Организации выбирают уровень преемственности данных на основе своей структуры управления, затрат на внедрение и мониторинг, нормативных требований и влияния, которое это окажет на бизнес.
Понимание происхождения данных является важным аспектом управления метаданными, что делает его важным для хранилище данных и администраторы озера данных. Управление метаданными позволяет просматривать поток данных через различные системы, упрощая поиск всех данных, связанных с конкретным отчетом или процессом извлечения, преобразования, загрузки (ETL).
«Сбор происхождения данных — описания происхождения, структуры и зависимостей данных — автоматически повышает качество предоставляемых метаданных и сокращает объем ручных операций».
Йозеф Виххаузер
Лидер платформы в BMW
Почему важна родословная данных?
Происхождение данных не только помогает устранять проблемы или выполнять миграцию системы, но также позволяет обеспечить конфиденциальность и целостность данных, отслеживая изменения, то, как они были выполнены и кем они были сделаны.
Благодаря происхождению данных ИТ-команды могут визуализировать сквозной путь данных от начала до конца. Это упрощает работу ИТ-специалистов и дает бизнес-пользователям уверенность в принятии эффективных решений.
Инструменты наследования данных помогут вам ответить на следующие вопросы:
- Как изменились данные и каким процессом?
- Кто нес ответственность за изменение данных?
- Когда было внесено изменение?
- Каково было географическое положение человека, который внес изменения?
- Почему было внесено изменение и каков контекст?
Требования к системе передачи данных в первую очередь определяются ролью человека и целью организации. Тем не менее, передача данных может оказать значительное влияние в следующих областях:
- Принятие стратегических решений. Происхождение данных позволяет бизнес-пользователям лучше понимать обрабатываемые данные, просматривая, как они претерпевают преобразования. Эти данные имеют решающее значение для бизнес-операций и улучшения продуктов и услуг.
- Оптимальное использование новых и старых наборов данных. Происхождение данных позволяет компаниям отслеживать различные наборы данных по мере их изменения в связи с развитием методов и технологий сбора данных.
- Миграция данных. Происхождение данных помогает ИТ-специалистам быстро перемещать данные в новое место хранения благодаря пониманию местоположения и жизненного цикла источников данных, что делает проекты миграции менее рискованными.
- Управление данными. Поскольку система передачи данных обеспечивает детальное представление о жизненном цикле данных, она помогает предприятиям управлять рисками, соблюдать отраслевые нормы и проводить аудиты.
Профессионалы рассматривают происхождение данных как практику dataGovOps, где происхождение, тестирование и песочница относятся к методам управления данными.
«Происхождение данных — одна из самых важных технологий, позволяющая «познакомиться» с ландшафтами данных клиентов и понять реализованные преобразования данных».
Вольфганг Штрассер
Консультант по данным в Cubido Business Solutions GMBH
Вольфганг Штрассер добавил: «Необходимость понимания зависимостей между островами данных и системами в организациях жизненно важна. Это требуется не только с технической точки зрения; чем лучше вы знаете, как ваши данные передаются между системами, тем лучше вы реагируете и видите откуда взялась часть информации, а также преобразования, которые были применены на пути к целевой системе. В некоторых наших проектах мы смогли найти системные зависимости, о которых даже заказчик не знал».
Существуют различные способы, которыми передача данных может помочь людям в разных рабочих ролях. Например, разработчик ETL может найти ошибки в задании ETL и проверить любые изменения в полях данных, такие как удаление столбцов, добавление или переименование. Управляющий данными может использовать родословную, чтобы определить наименее и наиболее полезный актив данных в задании ETL. Для бизнес-пользователей это помогает проверить точность отчетов и определить процессы и задания, связанные с созданием неправильных отчетов.
Линия передачи данных также находит свое применение в машинное обучение, где оно используется для переобучения моделей на основе новых или измененных данных. Это также помогает уменьшить дрейф модели. Дрейф модели относится к ухудшению производительности модели из-за изменений в данных и взаимосвязях между входными и выходными переменными.
Крупнозернистая и мелкозернистая линия передачи данных
Ученые-академики иногда по-разному используют крупнозернистую и мелкозернистую линию передачи данных, но эта концепция в основном охватывает уровень передачи данных, который может получить пользователь.
Приблизительное происхождение данных описывает конвейеры данных, базы данных, таблицы и то, как они взаимосвязаны. Как правило, система сбора данных о происхождении накапливает укрупненные сведения о происхождении во время выполнения. Они фиксируют взаимосвязь между конвейерами данных, базами данных и таблицами без подробностей о преобразованиях, используемых для изменения данных. Это помогает им снизить накладные расходы на захват (подробная информация о потоке данных). В ситуации, когда пользователь хочет провести криминалистический анализ в целях отладки, ему придется воспроизвести поток данных, чтобы собрать подробную информацию о происхождении данных.
С другой стороны, детализированное происхождение данных охватывает подробные прикладные преобразования, которые создают или изменяют данные. Активные системы сбора данных о происхождении собирают крупнозернистые или детализированные данные о происхождении во время выполнения. Это обеспечивает отличное воспроизведение и отладку. Однако накладные расходы при захвате высоки из-за объема детализированных данных о происхождении.
Примеры использования линии передачи данных
Происхождение данных помогает организациям отслеживать поток данных на протяжении всего жизненного цикла, видеть зависимости и понимать преобразования. Команды используют детальное представление потока данных и используют его для многих целей.
Выявление основной причины ошибок
Возникает путаница в ситуациях, когда данные о продажах не совпадают с данными финансового отдела, и трудно точно определить, где существует реальная ошибка. Происхождение данных дает разумное объяснение таким случаям. Менеджеры бизнес-аналитики (BI) могут использовать данные о происхождении для отслеживания всего потока данных и просмотра любых изменений, внесенных во время обработки.
Независимо от того, существует ли ошибка, BI-менеджеры могут чувствовать себя уверенно, предоставляя разумное объяснение ситуации. Если есть ошибка, команды могут исправить ее у источника, обеспечивая единообразие данных конечных пользователей для разных команд.
Обновления системы
При обновлении или переходе на новую систему важно понимать, какие наборы данных актуальны, а какие устарели или не существуют. Происхождение данных помогает вам узнать, какие данные вы фактически используете для выполнения бизнес-операций, и ограничить расходы на хранение и управление ненужными данными.
Благодаря происхождению данных вы можете легко планировать и выполнять миграции и обновления системы. Это помогает вам визуализировать источники данных, зависимости и процессы, позволяя вам точно знать, что вам нужно для миграции.

Анализ воздействия
Любой хороший бизнес идентифицирует затронутые отчеты, элементы данных и конечных пользователей до внедрения изменения. Программное обеспечение Data Lineage помогает командам визуализировать нижестоящие объекты данных и измерять влияние изменений.
Происхождение данных позволяет увидеть, как бизнес-пользователи взаимодействуют с данными и как изменение повлияет на них. Это помогает компаниям понять влияние конкретной модификации и позволяет им решить, следует ли им доводить ее до конца.
Методы передачи данных
Организации могут выполнять родословную данных в стратегических наборах данных, используя несколько стандартных методов. Эти методы гарантируют отслеживание каждого преобразования или обработки данных, что позволяет отображать элементы данных на каждом этапе, когда информационные активы проходят через процессы.
Методы происхождения данных собирают и сохраняют метаданные после каждого преобразования данных, которые позже используются для представления происхождения данных.
Родословная путем разбора
Происхождение путем анализа одной из самых продвинутых форм происхождения, которая считывает логику, используемую для обработки данных. Вы можете получить всестороннюю сквозную прослеживаемость с помощью логики обратного проектирования преобразования данных.
Техника Lineage by parsing относительно сложна в развертывании, поскольку требует понимания всех инструментов и языков программирования, используемых для преобразования и обработки данных. Это может включать логику ETL, решения на основе структурированного языка запросов (SQL), решения JAVA, решения на расширяемом языке разметки (XML), устаревшие форматы данных и многое другое.
Сложно создать решение для передачи данных, которое поддерживает дюжину языков программирования, а различные инструменты, поддерживающие динамическую обработку, усложняют его. При выборе решения для наследования данных убедитесь, что оно учитывает входные параметры, информацию о времени выполнения и значения по умолчанию, а также анализирует все эти элементы для автоматизации сквозной доставки наследования данных.
Родословная на основе шаблонов
Происхождение на основе шаблонов использует шаблоны для представления происхождения вместо чтения какого-либо кода. Происхождение на основе шаблонов использует метаданные о таблицах, отчетах и столбцах и профилирует их для создания происхождения на основе общих сходств и шаблонов.
Вы, без сомнения, имеете преимущество в мониторинге данных вместо алгоритмов в этой технике. Ваше решение для обработки данных не обязательно должно понимать языки программирования и инструменты, используемые для обработки данных. Его можно использовать таким же образом в любой технологии баз данных, такой как Oracle или MySQL. Но в то же время эта методика не всегда показывает точные результаты. Многие детали, например логика преобразования, недоступны.
Этот подход подходит для случаев использования линии передачи данных, когда понимание логики программирования невозможно из-за недоступного или недоступного кода.
Автономная родословная
Автономное происхождение отслеживает каждое перемещение и преобразование данных в комплексной среде, которая обеспечивает логику обработки данных, управление основными данными и многое другое. Становится легко отслеживать поток данных и их жизненный цикл.
Тем не менее автономное решение остается эксклюзивным для одной конкретной среды и слепо ко всему за ее пределами. По мере появления новых потребностей и использования новых инструментов для обработки данных автономное решение для передачи данных может не дать ожидаемых результатов.
Происхождение по тегам данных
С происхождением путем тегирования данных каждый фрагмент данных, который перемещается или преобразуется, помечается механизмом преобразования. Затем все теги считываются от начала до конца, чтобы создать представление о происхождении. Хотя это кажется эффективным методом передачи данных, он работает только при наличии согласованного механизма преобразования или инструмента для управления перемещением данных.
Этот метод исключает перемещение данных за пределы механизма преобразования, что делает его подходящим для выполнения наследования данных в закрытых системах данных. В некоторых случаях это может быть не предпочтительным методом наследования данных. Например, разработчики воздерживаются от добавления формальных столбцов данных в модель решения в каждой точке взаимодействия для перемещения данных.
Блокчейн — это одно из потенциальных решений для решения сложностей происхождения путем маркировки данных, но оно не получило достаточно широкого распространения, чтобы оказать существенное влияние на жизненный цикл данных в организациях.
Ручная родословная
Ручная родословная включает в себя общение с людьми, чтобы понять поток данных в организации и документировать его. Вы можете взять интервью у владельцев приложений, специалистов по интеграции данных, распорядителей данных и других лиц, связанных с жизненным циклом данных. Затем вы можете определить происхождение, используя электронные таблицы с простыми методами картирования.
Иногда вы можете найти противоречивую информацию или пропустить интервью с кем-то, что приведет к неправильному происхождению данных. При выполнении кода вам также придется вручную просматривать таблицы, сравнивать столбцы и т. д., что делает этот процесс трудоемким и утомительным. Динамически растущий объем кода и его сложность усложняют ручную передачу данных.
Независимо от этих проблем, этот подход оказывается полезным для понимания того, что происходит в среде. Ручная передача данных также оказывается эффективной, когда код недоступен или недоступен.
Как реализовать передачу данных
Реализация передачи данных сильно зависит от культуры данных вашей организации. Убедитесь, что у вас есть установленная структура управления данными, и наладьте тесное сотрудничество со специалистами по управлению данными и другими заинтересованными сторонами для успешного внедрения линии передачи данных.
Выполните следующие семь шагов, чтобы успешно внедрить передачу данных в вашей организации.
- Определите ключевые бизнес-драйверы: обсудите причины внедрения данных и определите, имеют ли они решающее значение для достижения бизнес-целей. Эти причины могут включать изменения в бизнесе, инициативы по обеспечению качества данных, аудиторские требования или требования законодательства.
- Привлекаемое к проекту старшее руководство: реализация линии передачи данных требует много ресурсов (как человеческих, так и финансовых) и времени. Убедитесь, что у вас есть поддержка высшего руководства для продвижения проекта внедрения к завершению. Вы можете убедить руководство, объяснив преимущества передачи данных и то, как это помогает соблюдать отраслевые нормы.
- Масштаб инициативы: после того, как высшее руководство одобрит проект, определите его масштаб на основе выявленных бизнес-факторов и критических элементов данных (CDE). Важнейшие элементы данных оказывают наиболее значительное влияние на производительность организации и качество обслуживания клиентов.
- Определите область действия. Область действия данных начинается с источников данных и заканчивается в конечной точке использования. Крупные организации могут зафиксировать ограниченную длину линии передачи данных, поскольку у них много дочерних компаний, чтобы избежать осложнений.
- Подготовьте бизнес-требования: у заинтересованных сторон могут быть разные ожидания относительно происхождения данных. Прежде всего, есть заинтересованные стороны бизнеса и технические заинтересованные стороны, которые имеют разные интересы. Заинтересованные стороны бизнеса больше заинтересованы в ценности, происхождении данных на уровнях концептуальной модели данных и анализе первопричин. Напротив, технические заинтересованные стороны заинтересованы в анализе воздействия, происхождении дизайна метаданных и происхождении данных на физическом уровне.
- Исправьте способ документирования происхождения данных: вы можете использовать описательную или автоматизированную документацию происхождения данных. Оцените, какой способ больше подходит для вашей организации, учитывая время и ресурсы, которые он потребует.
- Выберите подходящее программное обеспечение для передачи данных: выберите программное решение для передачи данных, которое наилучшим образом соответствует вашим целям и ожиданиям. Вы можете изучить программное обеспечение для управления мастер-данными который предлагает возможности автоматизированного происхождения.
Лучшие практики передачи данных
Lineage помогает вам получать достоверные и точные данные для поддержки процесса принятия решений в вашей компании. Планирование и внедрение — важнейший элемент управления данными. Вы должны быть уверены, откуда поступают ваши данные и куда они вас ведут.
Есть несколько методов, которые вы можете учитывать при планировании и реализации данных в вашей организации:
- Автоматизируйте извлечение данных о происхождении: данные и их происхождение являются динамическим объектом. Вам нужно выйти за рамки ручного сбора данных в электронных таблицах и автоматизировать процесс, чтобы конкурировать в гибкой среде.
- Включите источник метаданных: системы управления базами данных, инструменты для работы с большими данными, программное обеспечение ETL и другие специализированные приложения создают свои собственные данные об обрабатываемых ими данных. Включите эти метаданные в свою родословную, поскольку они помогают понять поток данных и модификации.
- Проверяйте источники метаданных: поощряйте владельцев приложений и инструментов проверять соответствующие источники метаданных, поскольку именно они четко понимают точность и актуальность метаданных.
- Планируйте постепенное извлечение: извлекайте метаданные и происхождение в том же порядке, в котором данные проходят через вашу систему. Это упрощает сопоставление соединений, отношений и зависимостей между системами и внутри данных.
- Подтверждение сквозного происхождения данных: постепенно проверяйте происхождение, начиная с высокоуровневых соединений между системами, а затем углубляйтесь в связанные наборы данных, за которыми следуют элементы данных, прежде чем проверять документацию по преобразованиям.
- Внедрить программное обеспечение каталога данных: принять интеллектуальное и автоматизированное программное обеспечение каталога данных собрать данные о происхождении из всех источников. Это программное обеспечение также позволяет вам извлекать и делать выводы о происхождении из метаданных.
Отслеживайте поток данных на детальном уровне
Происхождение данных позволяет организациям получать подробную информацию о потоке данных на протяжении всего жизненного цикла и помогает им выявлять первопричины ошибок, управлять управлением данными, проводить анализ последствий и принимать бизнес-решения на основе данных.
Документирование происхождения данных может быть сложной задачей, но организациям полезно эффективно понимать и использовать свои данные.
Узнайте больше о том, как получать данные в режиме реального времени для принятия стратегических бизнес-решений с помощью виртуализации данных.