Исследовательский анализ данных: влияние на науку о данных

Опубликовано: 2022-05-25

Американский математик Джон Тьюки первоначально разработал исследовательский анализ данных (EDA) в 1970-х годах. До сих пор методы EDA продолжают широко использоваться в процессе обнаружения данных. Помимо формального моделирования или проверки гипотез, EDA открывает широкие возможности для лучшего понимания переменных набора данных и их взаимосвязей. Это также помогает определить, подходит ли статистический метод, который рассматривался для анализа данных, или нет.

Что такое исследовательский анализ данных?

Исследовательский анализ данных (EDA) широко используется учеными-данными при анализе и исследовании наборов данных, суммировании основных характеристик данных для метода визуализации. Это помогает Data Scientist обнаруживать шаблоны данных, выявлять аномалии, проверять гипотезы и / или предположения.

Таким образом, простым способом его можно определить как метод, который помогает Data Scientist определить наилучшие способы манипулирования данным источником данных, чтобы получить ответ, необходимый в качестве цели.

Насколько важен исследовательский анализ данных для науки о данных

Основная цель EDA — помочь глубоко изучить набор данных, прежде чем делать какие-либо предположения, выявить очевидные ошибки, лучше понять закономерности в наборе данных, выявить выбросы и/или аномальные события и, что не менее важно, выяснить захватывающие отношения между переменными.

Исследовательский анализ данных чрезвычайно важен для анализа данных в области науки о данных. Во-первых, EDA используется для обеспечения того, чтобы результаты, которые получают специалисты по данным, были действительными и применимыми к любым желаемым целям. Во-вторых, EDA помогает заинтересованным сторонам убедиться, что они всегда задают правильные вопросы. Это также помогает ответить на вопросы о стандартных отклонениях, категориальных переменных и доверительных интервалах. Наконец, после того, как EDA завершена и получена информация, ее функции можно использовать для более сложного анализа данных или моделирования, включая машинное обучение.

Типы исследовательского анализа данных

Ну, есть в основном четыре типа EDA:

  • Одномерный неграфический:

Одномерный неграфический анализ — самая простая форма анализа данных. здесь он состоит всего из одной переменной. Будучи единственной переменной, она не связана с причинами или отношениями. Вместо этого основная цель одномерного анализа состоит в том, чтобы описать данные и найти в них закономерности.

  • Одномерный графический

Неграфические методы не могут дать полной картины данных. Поэтому здесь необходимы графические методы. Общие типы одномерной графики:

  1. Графики «стебель-листья»: на них показаны все значения данных и форма распределения.
  2. Гистограммы гистограммы: в которой каждая полоса представляет частоту (количество) или пропорцию (количество/общее количество) случаев для диапазона значений.
  3. Коробчатые диаграммы: графически отображают пятизначную сводку минимума, первого квартиля, медианы, третьего квартиля и максимума.
  • Многомерный неграфический

Многомерные данные возникают из более чем одной переменной. Как правило, многомерные неграфические методы EDA показывают взаимосвязь между двумя или более переменными данных посредством перекрестных таблиц или статистики.

  • Многомерная графика

Многомерные данные используют графику при отображении взаимосвязей между двумя или более наборами данных. Наиболее часто используемый график представляет собой сгруппированную гистограмму или гистограмму, где каждая группа представляет один уровень одной из переменных, а каждая полоса в группе представляет уровни другой переменной.

Другие распространенные типы многомерной графики включают в себя:

  • Точечная диаграмма: используется для построения точек данных по горизонтальной и вертикальной оси, чтобы показать, насколько одна переменная зависит от другой.
  • Многомерная диаграмма: представляет собой графическое представление отношений между факторами и откликом.
  • График выполнения: Линейный график данных, построенных во времени.
  • Пузырьковая диаграмма: это визуализация данных, которая отображает несколько кругов (пузырьков) на двумерном графике.
  • Тепловая карта: представляет собой графическое представление данных, где значения обозначены цветом.

Инструменты исследовательского анализа данных

Существует множество инструментов для исследовательского анализа данных. Одними из самых популярных являются R, Python и SAS. Тем не менее, у каждого есть свои сильные и слабые стороны, поэтому важно выбрать правильный инструмент для работы.

R — отличный инструмент для визуализации данных. Он имеет широкий спектр графиков и диаграмм, которые можно использовать для изучения данных. Он также имеет множество статистических функций, которые можно использовать для выполнения более сложных анализов.

Python — еще один отличный инструмент для EDA. Он имеет многие из тех же функций, что и R, но также более удобен для пользователя. В результате Python — отличный выбор для новичков, которые хотят начать работу с анализом данных.

SAS — это мощный статистический пакет программного обеспечения, который можно использовать для EDA. SAS дороже, чем R и Python, но стоит вложений, если вам нужно выполнять более сложные вычисления.

QuestionPro и исследовательский анализ данных

Вы всегда можете получить свои данные из другого источника данных, и QuestionPro определенно может помочь вам собрать данные опроса из нескольких каналов. Но что происходит, когда вы хотите выйти за рамки уже собранных данных? Вот где вступает в действие исследовательский анализ данных.

Встроенные инструменты анализа QuestionPro упрощают начало работы с EDA. Вы можете быстро просматривать сводную статистику по своим данным, создавать интерактивные визуализации и многое другое. А поскольку QuestionPro интегрируется с R, вы можете использовать все мощные статистические инструменты, которые предлагает R.

Поэтому, если вы готовы вывести анализ данных на новый уровень, QuestionPro — один из идеальных инструментов.

Вывод

Наконец, мы можем сказать, что исследовательский анализ данных — это проверенная методология, которая может помочь специалистам по данным разобраться в сложных наборах данных. Используя визуализацию и другие методы, вы можете выявить закономерности и взаимосвязи, которые иначе не смогли бы обнаружить.

Таким образом, EDA является неотъемлемой частью любого анализа данных, и мы надеемся, что эта статья дала вам отличное введение в эту тему.

Узнайте больше о QuestionPro и информации об исследовательском анализе данных, зарегистрировавшись на Questionpro.com .

Авторы: Мусаддик Шейх и Абхишек Пачаури