Înțelegerea științei datelor, a analizei datelor și a datelor mari

Publicat: 2022-09-11

Data Science, Data Analytics și Big Data

DOAR O ALTA ZI

Alarma ta se stinge la 5:30 marți dimineața. Te speli pe dinți și pornești gheizerul. Apoi, în timp ce așteptați să se încălzească fierul de călcat, vă verificați e-mailurile, dar se întrerupe curentul. Te descurci cu o cămașă încrețită. Pentru că cafeaua și pâinea prăjită sunt greu de făcut fără energie pentru soțul/soția, o modificare de ultimă oră a meniului de dimineață: fulgi de porumb și lapte rece. Decizi să sari peste sala și să mergi direct la duș.

Te urci în mașină și începi drumul spre serviciu exact la 8:15 dimineața, după un mic dejun scurt și o conversație grăbită. Pe drum, te confrunți cu o aglomerație de trafic fără sfârșit, fără nicio ieșire. O conversație cu un coleg de navetă dezvăluie că are loc o procesiune, iar una dintre benzi a fost oprită.

Când o altă reclamă pentru o casă nouă de lux este difuzată la radio, promițând o mașină de 15 minute până la serviciu, te întrebi ce s-a întâmplat cu zilele când acest drum era pustiu. Apoi auziți o nouă melodie de la Bollywood și începeți să fredonați.

În cele din urmă, după o oră și jumătate de trafic agonizant, ajungi la serviciu exact la timp pentru întâlnirea zilnică, dar ești frustrat și obosit din cauza navetei lungi.

CITEȘTE ȘI: 13 strategii SEO eficiente de implementat în 2021

CUM SUNT LUCRURILE

Aceasta este o zi obișnuită în India pentru mulți angajați de birou. Se ridică, se îmbracă și se îndreaptă spre muncă. Ei iau câteva decizii pe parcurs, dar în mare parte merg cu fluxul. De obicei sunt reactivi și, din păcate, sunt preocupați doar să treacă peste zi.

Totuși, nu trebuie să fie așa.

IMAGINEAZĂ-ȚI ASTA

Este marți dimineața și, în loc de ora 5:30, alarma se stinge la ora 5:10. Ați aflat despre întreruperile planificate de curent și v-ați ajustat programul în consecință. Pornești fierul de călcat și apoi gheizerul de îndată ce te trezești. În timp ce te speli pe dinți, soțul tău a început deja să facă French Toast în prăjitor de pâine. Poți mirosi ceașca fierbinte de cafea care te așteaptă când termini de călcat cămașa.

Curentul se oprește brusc fără preaviz. Zâmbești în timp ce ieși pe ușă pentru alergarea de dimineață.

CITEȘTE ȘI|: Cum se face analiza concurenței SEO?

Aveți un mic dejun minunat și cald și o cafea cu o discuție distractivă după antrenament și duș. Apoi te pregătești și pleci în jurul orei 8:30

Urmați un traseu puțin mai lung, dar ajungeți la serviciu în mai puțin de 40 de minute, oferindu-vă mult timp înainte de întâlnirea zilnică.

CE ESTE DIFERIT?

Ai mers cu fluxul în primul scenariu. Ai făcut lucruri pentru că era a doua natură pentru tine. Te-ai mulțumit cu status quo-ul. Înainte de a vă planifica ziua, nu ați reușit să luați în considerare numeroase variabile, cum ar fi întreruperea curentului și blocajul de trafic care v-au făcut să întârziați. Ați folosit o tehnică standard pentru un scenariu unic și pentru rezultatele standard așteptate.

În cel de-al doilea scenariu, ați analizat diferiții factori care ar putea avea un impact asupra rutinei dvs. și ați ajustat programul în consecință. Pentru că erai conștient de pană de curent, te-ai trezit cu câteva minute mai devreme decât de obicei pentru a porni gheizerul și fierul de călcat.

CITEȘTE ȘI: Inteligența artificială: o abordare modernă.

Soțul tău a pornit și prăjitorul de pâine și aparatul de cafea cu câteva minute înainte. Apoi, după ce ai luat în calcul condițiile de trafic din ziua respectivă, ai ales să mergi pe alt traseu.

Ai fapte din care ai tras concluzii. Ca rezultat, ți-ai ajustat acțiunile și rezultatul a fost considerabil mai bun. Ați folosit puterea analizei, oricât de neintenționat.

Bună ziua și bun venit în domeniul științei datelor.

CE ESTE DATA SCIENCE?

Știința datelor se referă la aplicarea instrumentelor și tehnicilor de la matematică, statistică, computere și expertiză în domeniu la colectarea, procesarea, manipularea și interpretarea datelor.

data science
știința datelor

Cu alte cuvinte, știința datelor este procesul de utilizare a datelor pentru a rezolva probleme. Acesta acoperă totul, de la colectarea datelor până la obținerea de informații din informațiile pe care le-ați adunat.

APLICAREA DATA SCIENCE

Să aruncăm o privire la narațiunea pe care tocmai ai citit-o.

Ipotetic, ați evitat repetarea scenariului 1 utilizând informațiile adunate dintr-o investigație a motivului pentru care diminețile voastre au fost atât de grăbite, pentru a vă fluidiza zilele și a le face mai bune și mai luminoase.

Pentru a începe, trebuie să vă întrebați: „De ce am nevoie pentru a avea o zi fantastică?”

Următoarele variabile sunt probabil să apară pe listă:

  • Electricitate
  • Dormi
  • Apa fierbinte
  • Haine
  • Mic dejun
  • Transport
  • Trafic

Această confluență de variabile dictează tipul de date pe care va trebui să le adunați, procesați, tăiați și evaluați pentru a obține informații despre cum să vă îmbunătățiți rutina zilnică. Știința datelor vă va ajuta să determinați influența combinată a fiecărei variabile (punct de date).

seo-toolsOpens in a new tab.
instrumente seo

DATE SAU „BIG DATA”?

Am analizat șapte criterii în exemplul nostru simplu de rutină de dimineață. Cunoștințele dobândite ca urmare îți pot face ziua mult mai bună.

Dar dacă ai căuta ceva mai mult? Ce se întâmplă dacă ai avea un model suficient de complicat pentru a lua în considerare fiecare parametru semnificativ (în loc de doar șapte)?

Big Data
Date mare

Nu te-ai mai ocupa doar de date; ai avea de-a face cu Big Data.

Conform Wikipedia Opens in a new tab. , big data este definită după cum urmează:

„Datele mari” se referă la culegeri de date care sunt atât de masive sau complicate încât programele tipice de procesare a datelor sunt insuficiente pentru a le gestiona. Analiza, captarea, conservarea datelor, căutarea, partajarea, stocarea, transportul, vizualizarea, interogarea și confidențialitatea informațiilor sunt toate provocări. Cuvântul face de obicei aluzie la utilizarea analizei predictive sau a altor abordări avansate pentru a extrage valoare din date, mai degrabă decât la o dimensiune specifică a unui set de date.”

Cu alte cuvinte, Big Data înseamnă lucrul cu seturi mari de date și extragerea de informații din acestea. Abordările tradiționale nu funcționează cu aceste seturi de date, deoarece sunt atât de mari. Va trebui să colectați, să analizați, să stocați și să procesați date folosind proceduri concepute corespunzător.

În general, cu cât setul de date este mai mare, cu atât rezultatele sunt mai bune - atâta timp cât setul de date este de o calitate acceptabilă.

Într-o afacere de comerț electronic, de exemplu, site-ul web colectează o mulțime de date, inclusiv site-uri de referință, timpul petrecut pe site, rata de respingere, pagina de destinație și fluxul de vizitatori. Ei țin evidența acestor informații de la persoană la persoană, ceea ce înseamnă că, în decurs de câțiva ani, vor putea compila un set mare de date pe care abordările standard nu îl vor putea gestiona. Atunci își dau seama că lucrează cu „Big Data”.

Ca rezultat, în exemplul nostru de rutină de dimineață, ați putea avea un set de date foarte mare, cu mult mai mulți parametri de procesat și evaluat. Este posibil să fi adunat informații de la zeci de mii sau poate milioane de oameni din orașul tău. Este posibil să fi strâns aceste informații de-a lungul unei perioade de timp și să fi documentat o serie de aspecte suplimentare, cum ar fi vremea, ora din zi, actualizările de trafic, tweet-uri, venitul gospodăriei și așa mai departe, pe care le-ați putea utiliza în studiu.

O altă abordare pentru a pune în perspectivă dimensiunea seturilor de date este de a lua în considerare faptul că un set de date de dimensiune standard ar putea fi la fel de gros ca un ziar zilnic.

Aveți nevoie de 50 de depozite pline cu directoare telefonice pentru a tipări un set de date „big data”.

Instrumentele și procedurile tradiționale nu vor fi suficiente atunci când se lucrează cu cantități atât de mari de date: este necesar un software specializat creat special în acest scop.

ANALIZEAZĂ ASTA

După ce ați adunat toate aceste informații despre dimineața dvs., va trebui să le investigați și să le cercetați pentru a vă crea concluziile; aceasta este cunoscută sub denumirea de analiză a datelor. Puteți extrapola din exemplul nostru că vizionarea „Saas bhi kabhi bahun thi” luni seara vă face să vă treziți mai târziu în dimineața de marți. Ca alternativă, să vă spălați rufele sâmbătă, mai degrabă decât duminică, vă va permite să aveți o cămașă suplimentară călcată marți.

Dar dacă ați dori să căutați în numeroase seturi de date modele mai cuprinzătoare și complicate? Atunci te-ai implica în analiza datelor.

Data Analytics
Analiza datelor
 Aplicarea unei serii de proceduri (algoritmi) sau transformări pentru a obține informații din seturi de date procesate este cunoscută sub denumirea de analiză a datelor.

Veți examina interacțiunea complicată a detaliilor specifice în exemplul nostru de rutină de dimineață. De exemplu, dacă comparați temperatura zilnică cu utilizarea mașinii, este posibil să descoperiți că temperatura are un impact considerabil asupra utilizării mașinii. Cu o investigație suplimentară, veți afla că acest model simplu este valabil doar în lunile de vară. În sezonul ploios, oamenii își folosesc cel mai mult mașinile. Cu aceste informații, puteți vedea că precipitațiile de a doua zi sunt de așteptat să fie mai mari decât media, ceea ce înseamnă că traficul ar fi mai intens.

Aceasta este analiza datelor în acțiune. La locul de muncă, analiza datelor este folosită pentru a decide să plecați mai devreme decât de obicei, deoarece traficul va fi mai mare.

CONCLUZIE

Cuvintele la modă din industrie, cum ar fi analitica, datele mari și știința datelor, sunt frecvent și greșit folosite în mod interschimbabil. Analiza datelor este una dintre operațiunile de bază care adaugă valoare datelor pe care le colectați, în timp ce știința datelor este domeniul în care ați opera. Și aveți de-a face cu date mari atunci când aveți de-a face cu cantități mari de date care nu pot fi procesate folosind instrumente și metode obișnuite.

Ce părere aveți despre definiția noastră? Este la fel cu al tău? Funcționează exemplele unei „rutine zilnice”? Aveți un exemplu personal pe care ați dori să-l împărtășiți? Vă rugăm să vă împărtășiți gândurile în zona de comentarii.