Zrozumienie nauki o danych, analizy danych i Big Data

Opublikowany: 2022-09-11

Nauka o danych, analiza danych i Big Data

PO PROSTU KOLEJNY DZIEŃ

Twój budzik włączy się o 5:30 we wtorek rano. Myjesz zęby i włączasz gejzer. Następnie, czekając, aż żelazko się nagrzeje, sprawdzasz pocztę, ale zasilanie gaśnie. Zadowalasz się pogniecioną koszulą. Ponieważ kawa i tosty są trudne do zrobienia bez prądu dla współmałżonka, w ostatniej chwili zmiana w porannym menu: płatki kukurydziane i zimne mleko. Postanawiasz pominąć siłownię i iść prosto pod prysznic.

Wsiadasz do samochodu i rozpoczynasz podróż do pracy dokładnie o 8:15, po krótkim śniadaniu i pospiesznej rozmowie. Po drodze napotykasz niekończące się korki bez wyjścia. Z rozmowy z kolegą dojeżdżającym do pracy wynika, że ​​odbywa się procesja, a jeden z pasów został zatrzymany.

Kiedy w radiu pojawia się kolejna reklama nowego luksusowego domu, obiecująca 15 minut jazdy do pracy, zastanawiasz się, co się stało z czasami, gdy ta droga była pusta. Potem słyszysz nową gorącą piosenkę Bollywood i zaczynasz nucić.

W końcu, po półtorej godziny męczącego ruchu, docierasz do pracy w sam raz na codzienne spotkanie, ale jesteś sfrustrowany i zmęczony długim dojazdem.

PRZECZYTAJ RÓWNIEŻ: 13 skutecznych strategii SEO do wdrożenia w 2021 r.

JAKIE SĄ RZECZY?

Dla wielu pracowników biurowych to normalny dzień w Indiach. Wstają, ubierają się i idą do pracy. Po drodze podejmują kilka decyzji, ale w większości płyną z prądem. Zwykle są reaktywne i, niestety, zajmują się tylko przetrwaniem dnia.

Jednak nie musi tak być.

WYOBRAŹ TO SOBIE

Jest wtorek rano, a zamiast 5:30 alarm włącza się o 5:10. Dowiedziałeś się o planowanych przerwach w dostawie prądu i odpowiednio dostosowałeś swój harmonogram. Po przebudzeniu włączasz żelazko, a następnie gejzer. Kiedy myjesz zęby, twój małżonek już zaczął robić francuskie tosty w tosterze. Gdy skończysz prasować koszulę, poczujesz zapach gorącej filiżanki kawy.

Prąd nagle wyłącza się bez powiadomienia. Uśmiechasz się, wychodząc za drzwi na poranny bieg.

PRZECZYTAJ TAKŻE|: Jak przeprowadzić analizę konkurencji SEO?

Po treningu i prysznicu masz wspaniałe, gorące śniadanie i kawę z zabawną dyskusją. Następnie przygotowujesz się i wychodzisz około 8:30?

Jedziesz nieco dłuższą trasą, ale docierasz do pracy w mniej niż 40 minut, co daje Ci mnóstwo czasu przed codziennym spotkaniem.

CO ZA RÓŻNICA?

Poszedłeś z prądem w pierwszym scenariuszu. Robiłeś rzeczy, bo to była dla ciebie druga natura. Byłeś zadowolony ze status quo. Przed planowaniem dnia nie uwzględniłeś wielu czynników, takich jak przerwa w dostawie prądu i korki, które spowodowały spóźnienie. Użyłeś standardowej techniki do jedynego w swoim rodzaju scenariusza i oczekiwanych standardowych wyników.

W drugim scenariuszu przeanalizowałeś różne czynniki, które mogą mieć wpływ na twoją rutynę i odpowiednio dostosowałeś swój plan zajęć. Ponieważ zdawałeś sobie sprawę z przerwy w dostawie prądu, wstałeś kilka minut wcześniej niż zwykle, aby włączyć gejzer i żelazko.

PRZECZYTAJ RÓWNIEŻ: Sztuczna inteligencja: nowoczesne podejście.

Twój współmałżonek również uruchomił toster i ekspres do kawy kilka minut wcześniej. Następnie, po uwzględnieniu warunków ruchu na dany dzień, wybrałeś inną trasę.

Masz fakty, z których wyciągałeś wnioski. W rezultacie dostosowałeś swoje działania, a wynik był znacznie lepszy. Skorzystałeś z mocy analityki, jednak nieumyślnie.

Witam i witam w świecie nauki o danych.

CZYM JEST NAUKA O DANYCH?

Nauka o danych odnosi się do stosowania narzędzi i technik od matematyki, statystyki, komputerów i wiedzy specjalistycznej do gromadzenia, przetwarzania, manipulacji i interpretacji danych.

data science
nauka o danych

Innymi słowy, nauka o danych to proces wykorzystywania danych do rozwiązywania problemów. Obejmuje wszystko, od zbierania danych po uzyskiwanie wglądu w zebrane informacje.

ZASTOSOWANIE NAUKI O DANYCH

Przyjrzyjmy się narracji, którą właśnie przeczytałeś.

Hipotetycznie uniknąłeś powtórki scenariusza 1, wykorzystując spostrzeżenia zebrane podczas dochodzenia, dlaczego twoje poranki były tak pospieszne, aby usprawnić swoje dni i uczynić je lepszymi i jaśniejszymi.

Na początek musisz zadać sobie pytanie: „Czego potrzebuję, aby mieć fantastyczny dzień?”

Na liście prawdopodobnie pojawią się następujące zmienne:

  • Elektryczność
  • Spać
  • Gorąca woda
  • Odzież
  • Śniadanie
  • Transport
  • Ruch drogowy

Ta konfluencja zmiennych dyktuje rodzaj danych, które należy zbierać, przetwarzać, przycinać i oceniać, aby uzyskać wgląd w to, jak poprawić codzienną rutynę. Nauka o danych pomoże Ci określić łączny wpływ każdej zmiennej (punktu danych).

seo-toolsOpens in a new tab.
seo-narzędzia

DANE CZY „WIELKIE DANE”?

Przeanalizowaliśmy siedem kryteriów w naszym prostym przykładzie porannej rutyny. Zdobyta w ten sposób wiedza może sprawić, że Twój dzień będzie o wiele lepszy.

Ale co, gdybyś szukał czegoś więcej? Co by było, gdybyś miał model, który byłby wystarczająco skomplikowany, aby uwzględnić każdy istotny parametr (a nie tylko siedem)?

Big Data
Big Data

Nie będziesz już miał do czynienia z danymi; miałbyś do czynienia z Big Data.

Według Wikipedii Opens in a new tab. , duże zbiory danych definiuje się w następujący sposób:

„Big data” odnosi się do zbiorów danych, które są tak ogromne lub skomplikowane, że typowe programy do przetwarzania danych nie są w stanie ich obsłużyć. Analiza, przechwytywanie, przechowywanie danych, wyszukiwanie, udostępnianie, przechowywanie, transport, wizualizacja, zapytania i prywatność informacji to wyzwania. Słowo to zwykle odnosi się do wykorzystania analityki predykcyjnej lub innych zaawansowanych podejść do wydobywania wartości z danych, a nie do określonego rozmiaru zbioru danych”.

Innymi słowy, big data polega na pracy z dużymi zestawami danych i wydobywaniu z nich szczegółowych informacji. Tradycyjne podejścia nie działają z tymi zestawami danych, ponieważ są one tak duże. Będziesz musiał zbierać, analizować, przechowywać i przetwarzać dane przy użyciu odpowiednio zaprojektowanych procedur.

Ogólnie rzecz biorąc, im większy zbiór danych, tym lepsze wyniki — o ile zbiór danych ma akceptowalną jakość.

Na przykład w branży e-commerce witryna zbiera mnóstwo danych, w tym witryny odsyłające, czas spędzony w witrynie, współczynnik odrzuceń, stronę docelową i przepływ użytkowników. Śledzą te informacje indywidualnie, co oznacza, że ​​w ciągu kilku lat będą w stanie skompilować duży zbiór danych, z którym standardowe podejścia nie będą w stanie obsłużyć. Wtedy zdają sobie sprawę, że pracują z „Big Data”.

W rezultacie, w naszym porannym przykładzie, możesz mieć bardzo duży zestaw danych z dużo większą liczbą parametrów do przetworzenia i oceny. Być może zebrałeś informacje od dziesiątek tysięcy, a może milionów ludzi w Twoim mieście. Być może zebrałeś te informacje przez pewien czas i udokumentowałeś szereg dodatkowych aspektów, takich jak pogoda, pora dnia, aktualizacje ruchu, tweety, dochód gospodarstwa domowego itd., które możesz wykorzystać w swoim badaniu.

Innym podejściem do spojrzenia na rozmiar zestawów danych z perspektywy jest rozważenie, że zestaw danych o standardowym rozmiarze może być tak gruby, jak gazeta codzienna.

Potrzebujesz 50 magazynów pełnych książek telefonicznych, aby wydrukować zbiór danych „dużych zbiorów danych”.

Tradycyjne narzędzia i procedury nie wystarczą przy tak dużych ilościach danych: potrzebne jest specjalistyczne oprogramowanie stworzone specjalnie do tego celu.

ANALIZY TEGO

Po zebraniu wszystkich informacji o swoim poranku musisz je zbadać i zbadać, aby sformułować wnioski; nazywa się to analizą danych. Możesz ekstrapolować z naszego przykładu, że oglądanie „Saas bhi kabhi bahun thi” w poniedziałek wieczorem powoduje, że budzisz się później we wtorkowe poranki. Ewentualnie pranie w sobotę zamiast w niedzielę pozwoli ci mieć dodatkową wyprasowaną koszulę we wtorek.

Ale co by było, gdybyś chciał przeszukać wiele zbiorów danych w poszukiwaniu bardziej kompleksowych, skomplikowanych wzorców? Wtedy zajmowałbyś się analizą danych.

Data Analytics
Analityka danych
 Stosowanie szeregu procedur (algorytmów) lub przekształceń w celu uzyskania wglądu z przetworzonych zbiorów danych jest znane jako analiza danych.

Zbadałbyś skomplikowaną interakcję poszczególnych szczegółów w naszym porannym przykładzie. Na przykład, jeśli porównasz dzienną temperaturę do użytkowania samochodu, może się okazać, że temperatura ma znaczący wpływ na użytkowanie samochodu. Po dokładniejszym zbadaniu dowiesz się, że ten prosty model jest ważny tylko w miesiącach letnich. W porze deszczowej ludzie najczęściej korzystają ze swoich samochodów. Dzięki tym informacjom możesz zauważyć, że spodziewane opady deszczu następnego dnia będą większe niż średnie, co oznacza, że ​​ruch będzie większy.

To jest analiza danych w akcji. W pracy analityka danych służy do podejmowania decyzji o odejściu wcześniej niż zwykle, ponieważ ruch będzie wyższy.

WNIOSEK

Hasła branżowe, takie jak analityka, big data i data science są często i niesłusznie używane zamiennie. Analiza danych to jedna z podstawowych operacji, które dodają wartości do gromadzonych danych, natomiast data science to dziedzina, w której byś działał. A z dużymi danymi masz do czynienia, gdy masz do czynienia z dużymi ilościami danych, których nie można przetworzyć przy użyciu typowych narzędzi i metod.

Co myślisz o naszej definicji? Czy jest taki sam jak twój? Czy przykłady „codziennej rutyny” działają? Czy masz osobisty przykład, którym chciałbyś się podzielić? Podziel się swoimi przemyśleniami w obszarze komentarzy.