Eksploracyjna analiza danych: wpływ na naukę o danych
Opublikowany: 2022-05-25Amerykański matematyk John Tukey Pierwotnie opracował eksploracyjną analizę danych (EDA) w latach siedemdziesiątych. Do dziś techniki EDA nadal są szeroko stosowaną metodą w procesie odkrywania danych. Poza formalnym modelowaniem lub testowaniem hipotez, EDA otwiera szerokie drzwi do lepszego zrozumienia zmiennych zestawu danych i ich relacji. Pomaga również określić, czy technika statystyczna, która została uwzględniona w analizie danych, jest odpowiednia, czy nie.
Co to jest eksploracyjna analiza danych?
Eksploracyjna Analiza Danych (EDA) jest szeroko stosowana przez Data Scientists podczas analizowania i badania zbiorów danych, podsumowując główne cechy danych metodą wizualizacji. Pomaga naukowcowi ds. danych wykrywać wzorce danych, anomalie Spot, testować hipotezy i/lub założenia.
Tak więc w prosty sposób można ją zdefiniować jako metodę, która pomaga Data Scientistowi określić najlepsze sposoby manipulowania danym źródłem danych, aby uzyskać odpowiedź, która jest potrzebna jako cel.
Jak ważna jest eksploracyjna analiza danych to nauka o danych
Podstawowym celem EDA jest pomoc w dogłębnym przyjrzeniu się zbiorowi danych przed przyjęciem jakichkolwiek założeń, zidentyfikowanie oczywistych błędów, lepsze zrozumienie wzorców w zbiorze danych, ustalenie wartości odstających i/lub nietypowych zdarzeń, a także, co nie mniej ważne, poznaj ekscytujące relacje między zmiennymi.
Eksploracyjna analiza danych jest niezwykle ważna dla analizy danych na arenie Data Science. Po pierwsze, EDA służy do zapewnienia, że wyniki uzyskiwane przez naukowców zajmujących się danymi są prawidłowe i mają zastosowanie do wszelkich pożądanych celów. Po drugie, EDA pomaga zainteresowanym stronom upewnić się, że zawsze zadają właściwe pytania. Pomaga również odpowiedzieć na pytania dotyczące odchyleń standardowych, zmiennych kategorycznych i przedziałów ufności. Wreszcie, po ukończeniu EDA i spostrzeżeniu, jego funkcje można wykorzystać do bardziej wyrafinowanej analizy lub modelowania danych, w tym uczenia maszynowego.
Eksploracyjna analiza danych Rodzaje
Cóż, istnieją przede wszystkim cztery rodzaje EDA:
Jednowymiarowe niegraficzne:
Univariate Non Graphical to najprostsza forma analizy danych. tutaj składa się tylko z jednej zmiennej. Będąc pojedynczą zmienną, nie zajmuje się przyczynami ani relacjami. Zamiast tego głównym celem analizy jednowymiarowej jest opisanie danych i znalezienie w nich wzorców.
Jednowymiarowa grafika
Metody niegraficzne nie zapewniają pełnego obrazu danych. Dlatego wymagane są tutaj metody graficzne. Typowe typy grafiki jednowymiarowej to:
- Wykresy łodygi i liści: Pokazują wszystkie wartości danych i kształt rozkładu.
- Histogramy wykresu słupkowego: w którym każdy słupek reprezentuje częstotliwość (liczba) lub proporcję (liczba/całkowita liczba) przypadków dla zakresu wartości.
- Wykresy pudełkowe: przedstawiają graficznie pięciocyfrowe podsumowanie minimum, pierwszego kwartyla, mediany, trzeciego kwartyla i maksimum.
Wielowymiarowa niegraficzna
Dane wielowymiarowe pochodzą z więcej niż jednej zmiennej. Ogólnie rzecz biorąc, wielowymiarowe niegraficzne techniki EDA pokazują związek między dwiema lub większą liczbą zmiennych danych poprzez tabele krzyżowe lub statystyki.

Graficzny wielowymiarowy
Dane wielowymiarowe wykorzystują grafikę podczas wyświetlania relacji między co najmniej dwoma zestawami danych. Najczęściej używana grafika to zgrupowany wykres słupkowy lub wykres słupkowy, w którym każda grupa reprezentuje jeden poziom jednej ze zmiennych, a każdy słupek w grupie reprezentuje poziomy drugiej zmiennej.
Inne popularne typy grafiki wielowymiarowej obejmują:
- Wykres punktowy: służy do wykreślania punktów danych na osi poziomej i pionowej, aby pokazać, w jakim stopniu jedna zmienna jest pod wpływem innej.
- Wykres wielowymiarowy: jest graficzną reprezentacją relacji między czynnikami a odpowiedzią.
- Uruchom wykres: Jest wykresem liniowym danych wykreślonych w czasie.
- Wykres bąbelkowy: to wizualizacja danych, która wyświetla wiele okręgów (bąbelków) na wykresie dwuwymiarowym.
- Mapa cieplna: to graficzna reprezentacja danych, w której wartości są przedstawione kolorami.
Eksploracyjna analiza danych Narzędzia
Dostępnych jest wiele narzędzi do eksploracyjnej analizy danych. Niektóre z najpopularniejszych to R, Python i SAS. Jednak każdy ma swoje mocne i słabe strony, dlatego wybór odpowiedniego narzędzia do pracy jest niezbędny.
R to doskonałe narzędzie do wizualizacji danych. Posiada szeroką gamę wykresów i wykresów, które można wykorzystać do eksploracji danych. Posiada również wiele funkcji statystycznych, które można wykorzystać do wykonywania bardziej zaawansowanych analiz.
Python to kolejne świetne narzędzie dla EDA. Ma wiele takich samych funkcji jak R, ale jest też bardziej przyjazny dla użytkownika. W rezultacie Python jest doskonałym wyborem dla początkujących, którzy chcą rozpocząć analizę danych.
SAS to potężny pakiet oprogramowania statystycznego, którego można używać w EDA. SAS jest droższy niż R i Python, ale warto zainwestować, jeśli potrzebujesz wykonać bardziej złożone obliczenia.
QuestionPro i eksploracyjna analiza danych
Zawsze możesz mieć swoje dane z innego źródła danych, a QuestionPro z pewnością pomoże Ci zebrać dane z ankiety z wielu kanałów. Ale co się dzieje, gdy chcesz wyjść poza dane, które już zostały zebrane? I tu pojawia się eksploracyjna analiza danych.
Wbudowane narzędzia analityczne QuestionPro ułatwiają rozpoczęcie pracy z EDA. Możesz szybko wyświetlić podsumowujące statystyki swoich danych, tworzyć interaktywne wizualizacje i nie tylko. A ponieważ QuestionPro integruje się z R, możesz korzystać ze wszystkich potężnych narzędzi statystycznych oferowanych przez R.
Więc jeśli jesteś gotowy, aby przenieść analizę danych na wyższy poziom, QuestionPro jest jednym z doskonałych narzędzi.
Wniosek
Wreszcie możemy powiedzieć, że eksploracyjna analiza danych jest sprawdzoną metodologią, która może pomóc naukowcom zajmującym się danymi zrozumieć złożone zbiory danych. Korzystając z wizualizacji i innych metod, możesz odkryć wzorce i relacje, których nie udałoby ci się znaleźć w inny sposób.
Dlatego EDA jest istotną częścią każdej analizy danych i mamy nadzieję, że ten artykuł stanowi świetne wprowadzenie do tematu.
Dowiedz się więcej o QuestionPro i informacje na temat eksploracyjnej analizy danych, rejestrując się na Questionpro.com
Autorzy: Musaddiq Shaikh i Abhishek Pachauri