Что такое предварительная обработка данных? 4 важных шага, чтобы сделать это правильно

Опубликовано: 2021-08-06

Реальные данные в большинстве случаев неполны, зашумлены и противоречивы.

С экспоненциально растущим объемом генерации данных и увеличением числа разнородных источников данных вероятность сбора аномальных или неверных данных достаточно высока.

Но только высококачественные данные могут привести к точным моделям и, в конечном счете, к точным прогнозам. Следовательно, очень важно обрабатывать данные для достижения наилучшего возможного качества. Этот шаг обработки данных называется предварительной обработкой данных , и это один из важнейших шагов в науке о данных. машинное обучение и искусственный интеллект.

Что такое предварительная обработка данных?

Предварительная обработка данных — это процесс преобразования необработанных данных в полезный и понятный формат. Реальные или необработанные данные обычно имеют непоследовательное форматирование, человеческие ошибки, а также могут быть неполными. Предварительная обработка данных решает такие проблемы и делает наборы данных более полными и эффективными для выполнения анализа данных.

Это критически важный процесс, который может повлиять на успех проектов интеллектуального анализа данных и машинного обучения. Это ускоряет извлечение знаний из наборов данных и в конечном итоге может повлиять на производительность моделей машинного обучения.

45%

времени специалиста по данным тратится на задачи подготовки данных.

Источник: Датанами

Другими словами, предварительная обработка данных преобразует данные в форму, с которой компьютеры могут легко работать. Это упрощает анализ или визуализацию данных и повышает точность и скорость алгоритмов машинного обучения, которые обучаются на данных.

Зачем нужна предварительная обработка данных?

Как вы знаете, база данных представляет собой набор точек данных. Точки данных также называются наблюдениями, выборками данных, событиями и записями.

Каждый образец описывается с помощью различных характеристик, также известных как функции или атрибуты . Предварительная обработка данных необходима для эффективного построения моделей с этими функциями.

При сборе данных может возникнуть множество проблем. Возможно, вам придется агрегировать данные из разных источников данных, что приведет к несоответствию форматов данных, таких как целое число и число с плавающей запятой.

Совет: используйте возможности автоматизации программное обеспечение для машинного обучения и попрощайтесь с этими утомительными задачами.

Если вы собираете данные из двух или более независимых наборов данных, поле «пол» может иметь два разных значения для мужчин: «мужчина» и «мужчина». Аналогичным образом, если вы агрегируете данные из десяти разных наборов данных, поле, присутствующее в восьми из них, может отсутствовать в двух остальных.

Предварительно обрабатывая данные, мы упрощаем их интерпретацию и использование. Этот процесс устраняет несоответствия или дубликаты данных, которые в противном случае могут отрицательно сказаться на точности модели. Предварительная обработка данных также гарантирует отсутствие неправильных или отсутствующих значений из-за человеческого фактора или ошибок. Короче говоря, использование методов предварительной обработки данных делает базу данных более полной и точной.

Характеристики качественных данных

Для алгоритмов машинного обучения нет ничего важнее качества данные тренировки. Их эффективность или точность зависит от того, насколько релевантными, репрезентативными и исчерпывающими являются данные.

Прежде чем рассматривать, как данные предварительно обрабатываются, давайте рассмотрим некоторые факторы, влияющие на качество данных.

Точность: как следует из названия, точность означает, что информация верна. Устаревшая информация, опечатки и избыточность могут повлиять на точность набора данных.
Непротиворечивость: Данные не должны иметь противоречий. Несогласованные данные могут дать вам разные ответы на один и тот же вопрос.
Полнота: в наборе данных не должно быть неполных полей или пустых полей. Эта характеристика позволяет специалистам по данным проводить точный анализ, поскольку у них есть доступ к полной картине ситуации, описываемой данными.
Валидность: набор данных считается действительным, если выборки данных отображаются в правильном формате, находятся в пределах указанного диапазона и имеют правильный тип. Неверные наборы данных трудно систематизировать и анализировать.
Своевременность: данные должны собираться, как только происходит событие, которое они представляют. Со временем каждый набор данных становится менее точным и полезным, поскольку он не отражает текущую реальность. Таким образом, актуальность и актуальность данных являются важнейшей характеристикой качества данных.

Четыре этапа предварительной обработки данных

Для моделей машинного обучения данные — это корм.

Неполный обучающий набор может привести к непредвиденным последствиям, таким как предвзятость, что приведет к несправедливому преимуществу или невыгоде для определенной группы людей. Неполные или противоречивые данные также могут негативно повлиять на результаты проектов интеллектуального анализа данных. Для решения таких задач используется процесс предварительной обработки данных.

Существует четыре этапа обработки данных: очистка, интеграция, редукция и преобразование.

1. Очистка данных

Очистка или очистка данных — это процесс очистки наборов данных путем учета пропущенных значений, удаления выбросов, исправления несогласованных точек данных и сглаживания зашумленных данных. По сути, цель очистки данных — предложить полные и точные образцы для моделей машинного обучения.

Методы, используемые при очистке данных, зависят от предпочтений специалиста по данным и проблемы, которую он пытается решить. Вот краткий обзор проблем, которые решаются во время очистки данных, и используемых методов.

Отсутствующие значения

Проблема отсутствия значений данных довольно распространена. Это может произойти во время сбора данных или из-за определенного правила проверки данных. В таких случаях вам необходимо собрать дополнительные выборки данных или поискать дополнительные наборы данных.

Проблема с отсутствующими значениями также может возникнуть, когда вы объединяете два или более наборов данных для формирования большего набора данных. Если не все поля присутствуют в обоих наборах данных, лучше удалить такие поля перед объединением.

Вот несколько способов учета недостающих данных:

Вручную заполните недостающие значения. Это может быть утомительным и трудоемким подходом и не рекомендуется для больших наборов данных.
Используйте стандартное значение для замены отсутствующего значения данных. Вы можете использовать глобальную константу, такую как «неизвестно» или «Н/Д», чтобы заменить отсутствующее значение. Несмотря на простой подход, он не является надежным.
Заполните пропущенное значение наиболее вероятным значением. Чтобы предсказать вероятное значение, вы можете использовать такие алгоритмы, как логистическая регрессия или деревья решений.
Используйте центральную тенденцию, чтобы заменить отсутствующее значение. Центральная тенденция — это тенденция значения группироваться вокруг своего среднего значения, моды или медианы.

Если 50 процентов значений для какой-либо строки или столбца в базе данных отсутствуют, лучше удалить всю строку или столбец, если только невозможно заполнить значения любым из вышеперечисленных методов.

Зашумленные данные

Большое количество бессмысленных данных называется шумом . Точнее, это случайная дисперсия измеряемой переменной или данных с неправильными значениями атрибутов. Шум включает в себя дубликаты или полудупликаты точек данных, сегменты данных, не представляющие ценности для конкретного исследовательского процесса, или нежелательные информационные поля.

Например, если вам нужно предсказать, умеет ли человек водить машину, информация о цвете его волос, росте или весе не будет иметь значения.

Выброс можно рассматривать как шум, хотя некоторые считают его достоверной точкой данных. Предположим, вы тренируете алгоритм для обнаружения черепах на картинках. Набор данных изображений может содержать изображения черепах, ошибочно обозначенных как черепахи. Это можно считать шумом.

Однако может быть изображение черепахи, которое больше похоже на черепаху, чем на черепаху. Этот образец можно считать выбросом и не обязательно шумом. Это потому, что мы хотим научить алгоритм всем возможным способам обнаружения черепах, поэтому отклонение от группы необходимо.

Для числовых значений можно использовать точечную диаграмму или ящичковую диаграмму, чтобы определить выбросы.

Ниже приведены некоторые методы, используемые для решения проблемы шума:

Регрессия: регрессионный анализ может помочь определить переменные, оказывающие влияние. Это позволит вам работать только с основными функциями, а не анализировать большие объемы данных. Для сглаживания данных можно использовать как линейную регрессию, так и множественную линейную регрессию.
Биннинг: методы биннинга можно использовать для сбора отсортированных данных. Они сглаживают отсортированное значение, просматривая значения вокруг него. Затем отсортированные значения делятся на «ячейки», что означает сортировку данных на более мелкие сегменты того же размера. Существуют различные методы бинирования, включая сглаживание по средним значениям бинов и сглаживание по медианам бинов.
Кластеризация: Алгоритмы кластеризации, такие как кластеризация k-средних, могут использоваться для группировки данных и обнаружения выбросов в процессе.

2. Интеграция данных

Поскольку данные собираются из различных источников, интеграция данных является важной частью подготовки данных. Интеграция может привести к нескольким противоречивым и избыточным точкам данных, что в конечном итоге приведет к моделям с меньшей точностью.

Вот несколько подходов к интеграции данных:

Консолидация данных: данные физически собираются и хранятся в одном месте. Наличие всех данных в одном месте повышает эффективность и производительность. Этот шаг обычно включает использование программное обеспечение хранилища данных.
Виртуализация данных. В этом подходе интерфейс обеспечивает унифицированное представление данных из нескольких источников в режиме реального времени. Другими словами, данные можно рассматривать с одной точки зрения.
Распространение данных: включает копирование данных из одного места в другое с помощью определенных приложений. Этот процесс может быть синхронным или асинхронным и обычно управляется событиями.

3. Сокращение данных

Как следует из названия, сокращение данных используется для уменьшения объема данных и, таким образом, снижения затрат, связанных с добычей данных или анализом данных.

Он предлагает сжатое представление набора данных. Хотя этот шаг уменьшает объем, он поддерживает целостность исходных данных. Этот этап предварительной обработки данных особенно важен при работе с большими данными, поскольку объем задействованных данных может быть гигантским.

Ниже приведены некоторые методы, используемые для сокращения данных.

Снижение размерности

Уменьшение размерности , также известное как уменьшение размерности, уменьшает количество объектов или входных переменных в наборе данных.

Количество признаков или входных переменных набора данных называется его размерностью. Чем больше число функций, тем сложнее визуализировать обучающий набор данных и создать прогностическую модель.

В некоторых случаях большинство этих атрибутов коррелированы, а значит, избыточны; поэтому алгоритмы уменьшения размерности можно использовать для уменьшения количества случайных величин и получения набора основных переменных.

Есть два сегмента уменьшения размерности: выбор признаков и извлечение признаков.

При выборе признаков мы пытаемся найти подмножество исходного набора признаков. Это позволяет нам получить меньшее подмножество, которое можно использовать для визуализации проблемы с помощью моделирования данных. С другой стороны, извлечение признаков уменьшает данные в многомерном пространстве до менее размерного пространства или, другими словами, в пространство с меньшим числом измерений.

Ниже приведены некоторые способы выполнения уменьшения размерности:

Анализ главных компонентов (PCA): Статистический метод, используемый для извлечения нового набора переменных из большого набора переменных. Вновь извлеченные переменные называются главными компонентами. Этот метод работает только для объектов с числовыми значениями.
Фильтр с высокой корреляцией: метод, используемый для поиска высококоррелированных функций и их удаления; в противном случае пара сильно коррелированных переменных может увеличить мультиколлинеарность в наборе данных.
Соотношение отсутствующих значений: этот метод удаляет атрибуты, имеющие отсутствующие значения, превышающие указанный порог.
Фильтр низкой дисперсии: включает удаление нормализованных атрибутов, дисперсия которых меньше порогового значения, поскольку незначительные изменения в данных приводят к уменьшению объема информации.
Случайный лес: этот метод используется для оценки важности каждой функции в наборе данных, что позволяет нам сохранить только самые важные функции.

Другие методы уменьшения размерности включают факторный анализ, анализ независимых компонентов и линейный дискриминантный анализ (LDA).

Выбор подмножества функций

Выбор подмножества функций — это процесс выбора подмножества функций или атрибутов, которые вносят наибольший вклад или являются наиболее важными.

Предположим, вы пытаетесь предсказать, сдаст или не сдаст экзамен студент, просматривая исторические данные о похожих студентах. У вас есть набор данных с четырьмя функциями: номер списка, общее количество баллов, учебные часы и внеклассные занятия.

В этом случае броски не влияют на успеваемость учащихся и могут быть устранены. Новое подмножество будет иметь всего три функции и будет более эффективным, чем исходный набор.

Такой подход к сокращению объема данных может помочь в создании более быстрых и экономичных моделей машинного обучения. Выбор подмножества атрибутов также может быть выполнен на этапе преобразования данных.

Уменьшение численности

Уменьшение количества — это процесс замены исходных данных меньшей формой представления данных. Есть два способа сделать это: параметрический и непараметрический методы.

Параметрические методы используют модели для представления данных. Для создания таких моделей используются логлинейные и регрессионные методы. Напротив, непараметрические методы сохраняют сокращенные представления данных, используя кластеризацию, гистограммы, агрегирование кубов данных и выборку данных.

4. Преобразование данных

Преобразование данных — это процесс преобразования данных из одного формата в другой. По сути, он включает в себя методы преобразования данных в соответствующие форматы, из которых компьютер может эффективно учиться.

Например, единицами измерения скорости могут быть мили в час, метры в секунду или километры в час. Поэтому набор данных может хранить значения скорости автомобиля в разных единицах измерения. Прежде чем передать эти данные алгоритму, нам нужно преобразовать данные в одну и ту же единицу.

Ниже приведены некоторые стратегии преобразования данных.

Сглаживание

Этот статистический подход используется для удаления шума из данных с помощью алгоритмов. Это помогает выделить наиболее ценные функции в наборе данных и предсказать закономерности. Это также включает удаление выбросов из набора данных, чтобы сделать закономерности более заметными.

Агрегация

Агрегация относится к объединению данных из нескольких источников и представлению их в унифицированном формате для интеллектуального анализа или анализа данных. Агрегирование данных из различных источников для увеличения количества точек данных имеет важное значение, поскольку только тогда у модели ML будет достаточно примеров для обучения.

Дискретность

Дискретизация включает преобразование непрерывных данных в наборы меньших интервалов. Например, более эффективно размещать людей в таких категориях, как «подросток», «молодой взрослый», «средний возраст» или «пожилой», чем использовать непрерывные значения возраста.

Обобщение

Обобщение включает преобразование признаков данных низкого уровня в признаки данных высокого уровня. Например, категориальные атрибуты, такие как домашний адрес, могут быть обобщены до определений более высокого уровня, таких как город или штат.

Нормализация

Нормализация относится к процессу преобразования всех переменных данных в определенный диапазон. Другими словами, он используется для масштабирования значений атрибута так, чтобы они попадали в меньший диапазон, например, от 0 до 1. Десятичное масштабирование, нормализация минимум-максимум и нормализация z-оценки — это некоторые методы нормализации данных.

Особенности строительства

Построение признаков включает в себя создание новых признаков из заданного набора признаков. Этот метод упрощает исходный набор данных и упрощает анализ, добычу или визуализацию данных.

Генерация иерархии понятий

Генерация иерархии понятий позволяет вам создать иерархию между функциями, хотя она и не указана. Например, если у вас есть набор данных адресов домов, содержащий данные об улице, городе, штате и стране, этот метод можно использовать для организации данных в иерархической форме.

Точные данные, точные результаты

Алгоритмы машинного обучения как дети. Они практически не понимают, что хорошо, а что плохо. Подобно тому, как дети начинают повторять нецензурную брань, перенятую от взрослых, неточные или противоречивые данные легко влияют на модели машинного обучения. Ключевым моментом является предоставление им высококачественных и точных данных, для которых предварительная обработка данных является важным шагом.

Об алгоритмах машинного обучения обычно говорят как о трудолюбивых. Но есть алгоритм, который часто называют ленивым. Он называется алгоритмом k-ближайших соседей и является отличным алгоритмом классификации.