Co to jest wstępne przetwarzanie danych? 4 kluczowe kroki, aby zrobić to dobrze

Opublikowany: 2021-08-06

Dane ze świata rzeczywistego są w większości przypadków niekompletne, zaszumione i niespójne.

Wraz z wykładniczo rosnącą generacją danych i rosnącą liczbą heterogenicznych źródeł danych prawdopodobieństwo zebrania nieprawidłowych lub niepoprawnych danych jest dość wysokie.

Ale tylko wysokiej jakości dane mogą prowadzić do dokładnych modeli i ostatecznie dokładnych prognoz. Dlatego tak ważne jest przetwarzanie danych w jak najlepszej jakości. Ten etap przetwarzania danych nazywa się wstępnym przetwarzaniem danych i jest jednym z podstawowych etapów nauki o danych, uczenie maszynowe i sztuczna inteligencja.

Co to jest wstępne przetwarzanie danych?

Wstępne przetwarzanie danych to proces przekształcania nieprzetworzonych danych w użyteczny, zrozumiały format. Dane rzeczywiste lub surowe zwykle mają niespójne formatowanie, błędy ludzkie, a także mogą być niekompletne. Wstępne przetwarzanie danych rozwiązuje takie problemy i sprawia, że zestawy danych są pełniejsze i wydajniejsze do przeprowadzania analizy danych.

To kluczowy proces, który może wpłynąć na powodzenie projektów eksploracji danych i uczenia maszynowego. Przyspiesza odkrywanie wiedzy z zestawów danych i może ostatecznie wpłynąć na wydajność modeli uczenia maszynowego.

45%

czasu analityka danych poświęca się na zadania związane z przygotowaniem danych.

Źródło: Datanami

Innymi słowy, wstępne przetwarzanie danych polega na przekształcaniu danych w formę, na której komputery mogą z łatwością pracować. Ułatwia analizę lub wizualizację danych oraz zwiększa dokładność i szybkość algorytmów uczenia maszynowego, które szkolą się na danych.

Dlaczego wymagane jest wstępne przetwarzanie danych?

Jak wiesz, baza danych to zbiór punktów danych. Punkty danych są również nazywane obserwacjami, próbkami danych, zdarzeniami i rekordami.

Każda próbka jest opisana przy użyciu innych cech, znanych również jako cechy lub atrybuty . Wstępne przetwarzanie danych jest niezbędne do skutecznego budowania modeli z tymi funkcjami.

Podczas zbierania danych mogą pojawić się liczne problemy. Może być konieczne agregowanie danych z różnych źródeł danych, co prowadzi do niezgodności formatów danych, takich jak liczba całkowita i zmiennoprzecinkowa.

Wskazówka: skorzystaj z możliwości automatyzacji oprogramowanie do uczenia maszynowego i pożegnaj się z tymi żmudnymi zadaniami.

Jeśli agregujesz dane z co najmniej dwóch niezależnych zestawów danych, pole płeć może mieć dwie różne wartości dla mężczyzn: mężczyzna i mężczyzna. Podobnie, jeśli agregujesz dane z dziesięciu różnych zestawów danych, w pozostałych dwóch może brakować pola występującego w ośmiu z nich.

Przetwarzając dane, ułatwiamy ich interpretację i wykorzystanie. Ten proces eliminuje niespójności lub duplikaty danych, które w przeciwnym razie mogą negatywnie wpłynąć na dokładność modelu. Wstępne przetwarzanie danych zapewnia również, że nie ma żadnych niepoprawnych lub brakujących wartości z powodu błędu ludzkiego lub błędów. Krótko mówiąc, zastosowanie technik wstępnego przetwarzania danych sprawia, że baza danych jest bardziej kompletna i dokładna.

Charakterystyka danych jakościowych

W przypadku algorytmów uczenia maszynowego nic nie jest ważniejsze niż jakość dane treningowe. Ich wydajność lub dokładność zależy od tego, jak istotne, reprezentatywne i wyczerpujące są dane.

Zanim przyjrzymy się wstępnemu przetwarzaniu danych, przyjrzyjmy się niektórym czynnikom wpływającym na jakość danych.

Dokładność: Jak sama nazwa wskazuje, dokładność oznacza, że informacje są poprawne. Nieaktualne informacje, literówki i nadmiarowość mogą wpływać na dokładność zestawu danych.
Spójność: dane nie powinny mieć sprzeczności. Niespójne dane mogą dać różne odpowiedzi na to samo pytanie.
Kompletność: zestaw danych nie powinien zawierać niekompletnych pól ani brakować pustych pól. Ta cecha umożliwia analitykom danych przeprowadzanie dokładnych analiz, ponieważ mają oni dostęp do pełnego obrazu sytuacji opisanej przez dane.
Ważność: zestaw danych jest uważany za ważny, jeśli próbki danych są wyświetlane w poprawnym formacie, mieszczą się w określonym zakresie i są właściwego typu. Nieprawidłowe zbiory danych są trudne do zorganizowania i przeanalizowania.
Terminowość: Dane należy gromadzić natychmiast po wystąpieniu zdarzenia, które reprezentują. W miarę upływu czasu każdy zestaw danych staje się mniej dokładny i użyteczny, ponieważ nie odzwierciedla aktualnej rzeczywistości. W związku z tym aktualność i istotność danych jest krytyczną cechą jakości danych.

Cztery etapy wstępnego przetwarzania danych

W przypadku modeli uczenia maszynowego dane są paszą.

Niekompletny zestaw szkoleniowy może prowadzić do niezamierzonych konsekwencji, takich jak stronniczość, prowadząc do nieuczciwej przewagi lub niekorzystnej sytuacji określonej grupy osób. Niekompletne lub niespójne dane mogą również negatywnie wpłynąć na wyniki projektów eksploracji danych. Do rozwiązania takich problemów wykorzystywany jest proces wstępnego przetwarzania danych.

Istnieją cztery etapy przetwarzania danych: czyszczenie, integracja, redukcja i transformacja.

1. Czyszczenie danych

Czyszczenie lub czyszczenie danych to proces czyszczenia zestawów danych poprzez uwzględnianie brakujących wartości, usuwanie wartości odstających, korygowanie niespójnych punktów danych i wygładzanie zaszumionych danych. Zasadniczo motywem czyszczenia danych jest oferowanie kompletnych i dokładnych próbek modeli uczenia maszynowego.

Techniki stosowane w czyszczeniu danych są specyficzne dla preferencji badaczy danych i problemu, który próbują rozwiązać. Oto krótkie spojrzenie na problemy rozwiązywane podczas czyszczenia danych i związane z tym techniki.

Brakujące wartości

Problem brakujących wartości danych jest dość powszechny. Może się to zdarzyć podczas zbierania danych lub z powodu określonej zasady walidacji danych. W takich przypadkach musisz zebrać dodatkowe próbki danych lub poszukać dodatkowych zestawów danych.

Problem brakujących wartości może również wystąpić, gdy połączysz dwa lub więcej zestawów danych w celu utworzenia większego zestawu danych. Jeśli nie wszystkie pola są obecne w obu zestawach danych, lepiej je usunąć przed scaleniem.

Oto kilka sposobów uzupełnienia brakujących danych:

Uzupełnij ręcznie brakujące wartości. Może to być żmudne i czasochłonne podejście i nie jest zalecane w przypadku dużych zestawów danych.
Użyj wartości standardowej, aby zastąpić brakującą wartość danych. Możesz użyć stałej globalnej, takiej jak „nieznane” lub „nie dotyczy”, aby zastąpić brakującą wartość. Chociaż jest to proste podejście, nie jest niezawodne.
Uzupełnij brakującą wartość najbardziej prawdopodobną wartością. Aby przewidzieć prawdopodobną wartość, możesz użyć algorytmów takich jak regresja logistyczna lub drzewa decyzyjne.
Użyj centralnej tendencji do zastępowania brakującej wartości. Tendencja centralna to tendencja wartości do grupowania się wokół jej średniej, trybu lub mediany.

Jeśli brakuje 50 procent wartości dowolnego wiersza lub kolumny w bazie danych, lepiej usunąć cały wiersz lub kolumnę, chyba że można wypełnić wartości przy użyciu dowolnej z powyższych metod.

Zaszumione dane

Duża ilość bezsensownych danych nazywana jest szumem . Dokładniej jest to losowa wariancja mierzonej zmiennej lub dane o nieprawidłowych wartościach atrybutów. Szum obejmuje duplikaty lub półduplikaty punktów danych, segmenty danych bez wartości dla określonego procesu badawczego lub niepożądane pola informacyjne.

Na przykład, jeśli chcesz przewidzieć, czy dana osoba może prowadzić, informacje o kolorze włosów, wzroście lub wadze będą nieistotne.

Wartość odstającą można traktować jako szum, chociaż niektórzy uważają ją za ważny punkt danych. Załóżmy, że uczysz algorytmu wykrywania żółwi na zdjęciach. Zbiór danych obrazów może zawierać obrazy żółwi błędnie oznaczonych jako żółwie lądowe. Można to uznać za hałas.

Jednak może istnieć obraz żółwia, który bardziej przypomina żółwia niż żółwia. Próbkę tę można uznać za odstającą i niekoniecznie za szum. Dzieje się tak dlatego, że chcemy nauczyć algorytm wszystkich możliwych sposobów wykrywania żółwi, więc odejście od grupy jest niezbędne.

W przypadku wartości liczbowych można użyć wykresu punktowego lub wykresu skrzynkowego, aby zidentyfikować wartości odstające.

Oto kilka metod wykorzystywanych do rozwiązania problemu hałasu:

Regresja: Analiza regresji może pomóc w określeniu zmiennych, które mają wpływ. Umożliwi to pracę tylko z podstawowymi funkcjami zamiast analizowania dużych ilości danych. Do wygładzania danych można użyć zarówno regresji liniowej, jak i wielokrotnej regresji liniowej.
Binning: Metody binning mogą być używane do zbierania posortowanych danych. Wygładzają posortowaną wartość, patrząc na wartości wokół niej. Posortowane wartości są następnie dzielone na „pojemniki”, co oznacza sortowanie danych na mniejsze segmenty o tym samym rozmiarze. Istnieją różne techniki binningu, w tym wygładzanie za pomocą bin i wygładzanie za pomocą median bin.
Grupowanie: Algorytmy grupowania, takie jak grupowanie k-średnich, mogą być używane do grupowania danych i wykrywania wartości odstających w procesie.

2. Integracja danych

Ponieważ dane są zbierane z różnych źródeł, integracja danych jest kluczowym elementem przygotowania danych. Integracja może prowadzić do kilku niespójnych i nadmiarowych punktów danych, ostatecznie prowadząc do modeli o mniejszej dokładności.

Oto kilka podejść do integracji danych:

Konsolidacja danych: dane są fizycznie gromadzone i przechowywane w jednym miejscu. Posiadanie wszystkich danych w jednym miejscu zwiększa wydajność i produktywność. Ten krok zazwyczaj obejmuje użycie oprogramowanie hurtowni danych.
Wirtualizacja danych: w tym podejściu interfejs zapewnia ujednolicony widok danych w czasie rzeczywistym z wielu źródeł. Innymi słowy, dane można przeglądać z jednego punktu widzenia.
Propagacja danych: obejmuje kopiowanie danych z jednej lokalizacji do drugiej za pomocą określonych aplikacji. Ten proces może być synchroniczny lub asynchroniczny i zwykle jest sterowany zdarzeniami.

3. Redukcja danych

Jak sama nazwa wskazuje, redukcja danych służy do zmniejszenia ilości danych, a tym samym do obniżenia kosztów związanych z eksploracją danych lub analizą danych.

Oferuje skróconą reprezentację zbioru danych. Chociaż ten krok zmniejsza objętość, zachowuje integralność oryginalnych danych. Ten etap wstępnego przetwarzania danych jest szczególnie ważny podczas pracy z dużymi danymi, ponieważ ilość danych, które są w nim zawarte, byłaby gigantyczna.

Poniżej przedstawiono niektóre techniki stosowane do redukcji danych.

Redukcja wymiarowości

Redukcja wymiarów , znana również jako redukcja wymiarów, zmniejsza liczbę funkcji lub zmiennych wejściowych w zbiorze danych.

Liczba cech lub zmiennych wejściowych zbioru danych nazywana jest jego wymiarowością. Im większa liczba funkcji, tym bardziej kłopotliwa jest wizualizacja zestawu danych uczących i stworzenie modelu predykcyjnego.

W niektórych przypadkach większość tych atrybutów jest skorelowana, a więc zbędna; dlatego algorytmy redukcji wymiarowości można wykorzystać do zmniejszenia liczby zmiennych losowych i uzyskania zestawu zmiennych głównych.

Istnieją dwa segmenty redukcji wymiarowości: wybór cech i ekstrakcja cech.

W doborze funkcji staramy się znaleźć podzbiór oryginalnego zestawu funkcji. Dzięki temu możemy uzyskać mniejszy podzbiór, który można wykorzystać do wizualizacji problemu za pomocą modelowania danych. Z drugiej strony, wyodrębnianie cech redukuje dane w przestrzeni wielowymiarowej do przestrzeni o niższych wymiarach, czyli przestrzeni o mniejszej liczbie wymiarów.

Poniżej przedstawiono kilka sposobów wykonywania redukcji wymiarowości:

Analiza głównych składowych (PCA): technika statystyczna wykorzystywana do wyodrębniania nowego zestawu zmiennych z dużego zestawu zmiennych. Nowo wyodrębnione zmienne nazywane są składnikami głównymi. Ta metoda działa tylko w przypadku elementów o wartościach liczbowych.
Filtr wysokiej korelacji: technika używana do znajdowania wysoce skorelowanych cech i ich usuwania; w przeciwnym razie para silnie skorelowanych zmiennych może zwiększyć współliniowość w zbiorze danych.
Stosunek braków danych: ta metoda usuwa atrybuty, w których braki danych przekraczają określony próg.
Filtr niskiej wariancji: obejmuje usuwanie znormalizowanych atrybutów o wariancji mniejszej niż wartość progowa, ponieważ drobne zmiany danych przekładają się na mniej informacji.
Las losowy: Ta technika służy do oceny ważności każdej funkcji w zestawie danych, co pozwala nam zachować tylko najważniejsze funkcje.

Inne techniki redukcji wymiarowości obejmują analizę czynnikową, analizę składowych niezależnych i liniową analizę dyskryminacyjną (LDA).

Wybór podzbioru funkcji

Wybór podzbioru cech to proces wyboru podzbioru cech lub atrybutów, które mają największy udział lub są najważniejsze.

Załóżmy, że próbujesz przewidzieć, czy uczeń zda, czy nie, patrząc na dane historyczne podobnych uczniów. Masz zestaw danych z czterema funkcjami: liczbą rzutów, sumą ocen, godzinami nauki i zajęciami pozalekcyjnymi.

W takim przypadku liczby rzutów nie wpływają na wyniki uczniów i mogą zostać wyeliminowane. Nowy podzbiór będzie miał tylko trzy funkcje i będzie bardziej wydajny niż oryginalny zestaw.

Takie podejście do redukcji danych może pomóc w tworzeniu szybszych i bardziej opłacalnych modeli uczenia maszynowego. Wybór podzbioru atrybutów można również przeprowadzić na etapie transformacji danych.

Redukcja liczebności

Redukcja liczebności to proces zastępowania oryginalnych danych mniejszą formą reprezentacji danych. Można to zrobić na dwa sposoby: parametryczne i nieparametryczne.

Metody parametryczne wykorzystują modele do reprezentacji danych. Do tworzenia takich modeli wykorzystywane są metody log-liniowe i regresyjne. Natomiast metody nieparametryczne przechowują zredukowane reprezentacje danych przy użyciu grupowania, histogramów, agregacji kostki danych i próbkowania danych.

4. Transformacja danych

Transformacja danych to proces konwersji danych z jednego formatu na inny. Zasadniczo obejmuje metody przekształcania danych do odpowiednich formatów, z których komputer może się efektywnie uczyć.

Na przykład jednostkami prędkości mogą być mile na godzinę, metry na sekundę lub kilometry na godzinę. Dlatego zbiór danych może przechowywać wartości prędkości samochodu w różnych jednostkach jako takie. Przed wprowadzeniem tych danych do algorytmu musimy przekształcić je w tę samą jednostkę.

Poniżej przedstawiono niektóre strategie transformacji danych.

Wygładzanie

To statystyczne podejście służy do usuwania szumu z danych za pomocą algorytmów. Pomaga wyróżnić najcenniejsze funkcje w zestawie danych i przewidzieć wzorce. Obejmuje to również eliminację wartości odstających ze zbioru danych, aby wzorce były bardziej widoczne.

Zbiór

Agregacja odnosi się do gromadzenia danych z wielu źródeł i przedstawiania ich w ujednoliconym formacie do eksploracji lub analizy danych. Agregacja danych z różnych źródeł w celu zwiększenia liczby punktów danych jest niezbędna, ponieważ tylko wtedy model ML będzie miał wystarczająco dużo przykładów, z których można się uczyć.

Dyskretyzacja

Dyskretyzacja polega na konwersji danych ciągłych na zestawy mniejszych interwałów. Na przykład skuteczniejsze jest umieszczanie osób w kategoriach takich jak „nastolatek”, „młody dorosły”, „w średnim wieku” lub „senior” niż używanie ciągłych wartości wieku.

Uogólnienie

Generalizacja obejmuje konwersję funkcji danych niskiego poziomu na funkcje danych wysokiego poziomu. Na przykład atrybuty kategoryczne, takie jak adres domowy, można uogólnić na definicje wyższego poziomu, takie jak miasto lub stan.

Normalizacja

Normalizacja odnosi się do procesu konwersji wszystkich zmiennych danych do określonego zakresu. Innymi słowy, służy do skalowania wartości atrybutu tak, aby mieściły się w mniejszym zakresie, na przykład od 0 do 1. Skalowanie dziesiętne, normalizacja min-maks i normalizacja z-score to niektóre metody normalizacji danych.

Konstrukcja funkcji

Konstrukcja cech polega na konstruowaniu nowych cech z podanego zestawu cech. Ta metoda upraszcza oryginalny zestaw danych i ułatwia analizowanie, wydobywanie lub wizualizację danych.

Generowanie hierarchii koncepcji

Generowanie hierarchii koncepcji umożliwia tworzenie hierarchii między funkcjami, chociaż nie jest ona określona. Na przykład, jeśli masz zestaw danych adresu domu zawierający dane o ulicy, mieście, stanie i kraju, ta metoda może służyć do organizowania danych w postaci hierarchicznej.

Dokładne dane, dokładne wyniki

Algorytmy uczenia maszynowego są jak dzieci. Nie mają pojęcia, co jest korzystne, a co niekorzystne. Na przykład, jak dzieci zaczynają powtarzać wulgarny język przejęty od dorosłych, niedokładne lub niespójne dane łatwo wpływają na modele ML. Kluczem jest dostarczenie im wysokiej jakości, dokładnych danych, dla których wstępne przetwarzanie danych jest niezbędnym krokiem.

Algorytmy uczenia maszynowego są zwykle nazywane ciężkimi pracownikami. Ale istnieje algorytm, który często jest określany jako leniwy. Nazywa się to algorytmem k-najbliższego sąsiada i jest doskonałym algorytmem klasyfikacji.