Analiza exploratorie a datelor: Impactul asupra științei datelor
Publicat: 2022-05-25Matematicianul american John Tukey a dezvoltat inițial analiza exploratorie a datelor (EDA) în anii 1970. Și astăzi, tehnicile EDA continuă să fie o metodă utilizată pe scară largă în procesul de descoperire a datelor. Dincolo de modelarea formală sau testarea ipotezelor, EDA deschide o ușă largă pentru o mai bună înțelegere a variabilelor setului de date și a relațiilor lor. De asemenea, ajută la determinarea dacă Tehnica statistică care a fost luată în considerare pentru analiza datelor este adecvată sau nu.
Ce este analiza exploratorie a datelor?
Analiza exploratorie a datelor (EDA) este utilizată pe scară largă de oamenii de știință ai datelor în timp ce analizează și investighează seturi de date, rezumând principalele caracteristici ale datelor la metoda de vizualizare. Îl ajută pe Data Scientist să descopere modele de date, anomalii identificate, testare de ipoteze și/sau presupuneri.
Deci, într-un mod simplu, poate fi definită ca o metodă care îl ajută pe Data Scientist să determine cele mai bune modalități de a manipula sursa de date dată pentru a obține răspunsul care este necesar ca scop.
Cât de importantă este analiza exploratorie a datelor
Scopul principal al EDA este de a ajuta la analiza profundă a setului de date înainte de a face ipoteze, de a identifica erori evidente, de a obține o mai bună înțelegere a tiparelor din setul de date, de a descoperi valori aberante și/sau evenimente anormale și, nu în ultimul rând, de a aflați relațiile interesante dintre variabile.
Analiza exploratorie a datelor este extrem de importantă pentru analiza datelor în arena științei datelor. În primul rând, EDA este utilizat pentru a se asigura că rezultatele pe care oamenii de știință le produc sunt valide și aplicabile oricăror obiective dorite. În al doilea rând, EDA ajută părțile interesate să se asigure că pun mereu întrebările potrivite. De asemenea, ajută la răspunsul la întrebările despre abaterile standard, variabilele categoriale și intervalele de încredere. În cele din urmă, odată ce EDA este complet și s-au extras informații, caracteristicile sale pot fi apoi utilizate pentru o analiză sau modelare mai sofisticată a datelor, inclusiv învățarea automată.
Analiza exploratorie a datelor Tipuri
Ei bine, există în primul rând patru tipuri de EDA:
Negrafic univariat:
Univariate Non Graphical este cea mai simplă formă de analiză a datelor. aici este format dintr-o singură variabilă. Fiind o singură variabilă, nu se ocupă de cauze sau relații. În schimb, scopul principal al analizei univariate este de a descrie datele și de a găsi modele în cadrul acestora.
Grafic univariat
Metodele non-grafice nu pot oferi o imagine completă a datelor. Prin urmare, aici sunt necesare metode grafice. Tipurile comune de grafice univariate sunt:
- Grafice cu tulpini și frunze: acestea arată toate valorile datelor și forma distribuției.
- Histograme o diagramă cu bare: în care fiecare bară reprezintă frecvența (numărarea) sau proporția (numărarea/numărarea totală) cazurilor pentru un interval de valori.
- Diagrame cu casete: descrieți grafic rezumatul cu cinci numere de minim, prima cuartilă, mediană, a treia cuartilă și maxim.
Multivariate negrafice
Datele multivariate provin din mai multe variabile. În general, tehnicile EDA multivariate non-grafice arată relația dintre două sau mai multe variabile de date prin tabelare încrucișată sau statistici.

Grafic multivariat
Datele multivariate folosesc grafice în timp ce afișează relațiile dintre două sau mai multe seturi de date. Cel mai utilizat grafic este un diagramă cu bare grupate sau o diagramă cu bare, fiecare grup reprezentând un nivel al uneia dintre variabile și fiecare bară dintr-un grup reprezentând nivelurile celeilalte variabile.
Alte tipuri comune de grafice multivariate includ:
- Graficul de dispersie: este folosit pentru a reprezenta punctele de date pe o axă orizontală și pe o axă verticală pentru a arăta cât de mult este afectată o variabilă de alta.
- Diagrama multivariată: este o reprezentare grafică a relațiilor dintre factori și un răspuns.
- Run chart: Este un grafic cu linii de date trasate în timp.
- Diagrama cu bule: este o vizualizare de date care afișează mai multe cercuri (bule) într-un diagramă bidimensional.
- Harta termică: este o reprezentare grafică a datelor în care valorile sunt reprezentate prin culoare.
Instrumente exploratorii de analiză a datelor
Există multe instrumente disponibile pentru analiza exploratorie a datelor. Unele dintre cele mai populare sunt R, Python și SAS. Cu toate acestea, fiecare are punctele sale forte și punctele sale slabe, așa că alegerea instrumentului potrivit pentru muncă este esențială.
R este un instrument excelent pentru vizualizarea datelor. Are o mare varietate de diagrame și diagrame care pot fi folosite pentru a explora date. Are, de asemenea, o mulțime de funcții statistice care pot fi folosite pentru a efectua analize mai avansate.
Python este un alt instrument excelent pentru EDA. Are multe dintre aceleași caracteristici ca R, dar este și mai ușor de utilizat. Ca rezultat, Python este o alegere excelentă pentru începătorii care doresc să înceapă cu analiza datelor.
SAS este un puternic pachet de software statistic care poate fi utilizat pentru EDA. SAS este mai scump decât R și Python, dar merită investiția dacă trebuie să efectuați calcule mai complexe.
QuestionPro și analiza exploratorie a datelor
Puteți avea oricând datele dvs. dintr-o sursă de date diferită, iar QuestionPro vă poate ajuta cu siguranță să culegeți datele sondajului de pe mai multe canale. Dar ce se întâmplă atunci când doriți să mergeți dincolo de datele care au fost deja colectate? Aici intervine analiza exploratorie a datelor.
Instrumentele de analiză încorporate ale QuestionPro facilitează începerea cu EDA. Puteți vedea rapid statistici rezumate pentru datele dvs., puteți crea vizualizări interactive și multe altele. Și pentru că QuestionPro se integrează cu R, puteți folosi toate instrumentele statistice puternice oferite de R.
Deci, dacă sunteți gata să vă duceți analiza datelor la următorul nivel, QuestionPro este unul dintre instrumentele perfecte.
Concluzie
În cele din urmă, putem spune că analiza exploratorie a datelor este o metodologie dovedită care îi poate ajuta pe oamenii de știință ai datelor să înțeleagă seturi de date complexe. Folosind vizualizări și alte metode, puteți descoperi tipare și relații pe care altfel nu le-ați fi găsit.
Prin urmare, EDA este o parte esențială a oricărei analize de date și sperăm că acest articol v-a oferit o introducere excelentă a subiectului.
Aflați mai multe despre QuestionPro și informații despre analiza exploratorie a datelor înregistrându-vă la Questionpro.com
Autori: Musaddiq Shaikh & Abhishek Pachauri