Was ist Datenvorverarbeitung? 4 entscheidende Schritte, um es richtig zu machen

Veröffentlicht: 2021-08-06

Daten aus der realen Welt sind in den meisten Fällen unvollständig, verrauscht und inkonsistent.

Mit der exponentiell wachsenden Datengenerierung und der zunehmenden Anzahl heterogener Datenquellen ist die Wahrscheinlichkeit, anomale oder falsche Daten zu sammeln, ziemlich hoch.

Aber nur qualitativ hochwertige Daten können zu genauen Modellen und letztendlich zu genauen Vorhersagen führen. Daher ist es entscheidend, Daten für die bestmögliche Qualität zu verarbeiten. Dieser Schritt der Datenverarbeitung wird als Datenvorverarbeitung bezeichnet und ist einer der wesentlichen Schritte in der Datenwissenschaft. maschinelles Lernen und künstliche Intelligenz.

Was ist Datenvorverarbeitung?

Die Datenvorverarbeitung ist der Prozess der Umwandlung von Rohdaten in ein nützliches, verständliches Format. Reale oder Rohdaten haben normalerweise eine inkonsistente Formatierung, menschliche Fehler und können auch unvollständig sein. Die Datenvorverarbeitung löst solche Probleme und macht Datensätze vollständiger und effizienter, um Datenanalysen durchzuführen.

Dies ist ein entscheidender Prozess, der den Erfolg von Data-Mining- und Machine-Learning-Projekten beeinflussen kann. Es beschleunigt die Wissensentdeckung aus Datensätzen und kann sich letztendlich auf die Leistung von Modellen für maschinelles Lernen auswirken.

45%

der Zeit eines Datenwissenschaftlers wird für Datenvorbereitungsaufgaben aufgewendet.

Quelle: Datanami

Mit anderen Worten, die Datenvorverarbeitung wandelt Daten in eine Form um, die Computer leicht bearbeiten können. Es erleichtert die Datenanalyse oder -visualisierung und erhöht die Genauigkeit und Geschwindigkeit der maschinellen Lernalgorithmen, die auf den Daten trainieren.

Warum ist eine Datenvorverarbeitung erforderlich?

Wie Sie wissen, ist eine Datenbank eine Sammlung von Datenpunkten. Datenpunkte werden auch als Beobachtungen, Datenstichproben, Ereignisse und Aufzeichnungen bezeichnet.

Jede Probe wird anhand unterschiedlicher Merkmale beschrieben, die auch als Merkmale oder Attribute bezeichnet werden . Die Datenvorverarbeitung ist unerlässlich, um Modelle mit diesen Funktionen effektiv zu erstellen.

Bei der Datenerfassung können zahlreiche Probleme auftreten. Möglicherweise müssen Sie Daten aus verschiedenen Datenquellen aggregieren, was zu nicht übereinstimmenden Datenformaten führt, z. B. Integer und Float.

Tipp: Nutzen Sie die Automatisierungsfunktionen von Software für maschinelles Lernen und verabschieden Sie sich von diesen mühsamen Aufgaben.

Wenn Sie Daten aus zwei oder mehr unabhängigen Datensätzen aggregieren, kann das Geschlechtsfeld zwei verschiedene Werte für Männer haben: Mann und Mann. Wenn Sie Daten aus zehn verschiedenen Datensätzen aggregieren, fehlt möglicherweise ein Feld, das in acht von ihnen vorhanden ist, in den restlichen zwei.

Durch die Vorverarbeitung von Daten erleichtern wir die Interpretation und Nutzung. Dieser Prozess eliminiert Inkonsistenzen oder Duplikate in Daten, die sich ansonsten negativ auf die Genauigkeit eines Modells auswirken können. Die Datenvorverarbeitung stellt auch sicher, dass es keine falschen oder fehlenden Werte aufgrund menschlicher Fehler oder Fehler gibt. Kurz gesagt, der Einsatz von Datenvorverarbeitungstechniken macht die Datenbank vollständiger und genauer.

Merkmale von Qualitätsdaten

Für maschinelle Lernalgorithmen ist nichts wichtiger als Qualität Trainingsdaten. Ihre Leistung oder Genauigkeit hängt davon ab, wie relevant, repräsentativ und umfassend die Daten sind.

Bevor wir uns ansehen, wie Daten vorverarbeitet werden, wollen wir uns einige Faktoren ansehen, die zur Datenqualität beitragen.

Genauigkeit: Wie der Name schon sagt, bedeutet Genauigkeit, dass die Informationen korrekt sind. Veraltete Informationen, Tippfehler und Redundanzen können die Genauigkeit eines Datensatzes beeinträchtigen.
Konsistenz: Die Daten sollten keine Widersprüche aufweisen. Inkonsistente Daten können Ihnen unterschiedliche Antworten auf dieselbe Frage geben.
Vollständigkeit: Der Datensatz sollte keine unvollständigen Felder oder keine leeren Felder enthalten. Diese Eigenschaft ermöglicht es Data Scientists, genaue Analysen durchzuführen, da sie Zugriff auf ein vollständiges Bild der Situation haben, die die Daten beschreiben.
Gültigkeit: Ein Datensatz gilt als gültig, wenn die Datenbeispiele im richtigen Format erscheinen, innerhalb eines bestimmten Bereichs liegen und vom richtigen Typ sind. Ungültige Datensätze sind schwer zu organisieren und zu analysieren.
Aktualität: Daten sollten erhoben werden, sobald das Ereignis, das sie darstellen, eintritt. Mit der Zeit wird jeder Datensatz weniger genau und nützlich, da er nicht die aktuelle Realität darstellt. Daher ist die Aktualität und Relevanz von Daten ein entscheidendes Datenqualitätsmerkmal.

Die vier Stufen der Datenvorverarbeitung

Für maschinelle Lernmodelle sind Daten Futter.

Ein unvollständiger Trainingssatz kann zu unbeabsichtigten Folgen wie Voreingenommenheit führen, was zu einem unfairen Vorteil oder Nachteil für eine bestimmte Personengruppe führt. Unvollständige oder inkonsistente Daten können sich ebenfalls negativ auf das Ergebnis von Data-Mining-Projekten auswirken. Um solche Probleme zu lösen, wird der Prozess der Datenvorverarbeitung verwendet.

Es gibt vier Phasen der Datenverarbeitung: Bereinigung, Integration, Reduktion und Transformation.

1. Datenreinigung

Datenbereinigung oder Bereinigung ist der Prozess der Bereinigung von Datensätzen, indem fehlende Werte berücksichtigt, Ausreißer entfernt, inkonsistente Datenpunkte korrigiert und verrauschte Daten geglättet werden. Im Wesentlichen besteht das Motiv hinter der Datenbereinigung darin, vollständige und genaue Muster für maschinelle Lernmodelle anzubieten.

Die bei der Datenbereinigung verwendeten Techniken sind spezifisch für die Vorlieben des Datenwissenschaftlers und das Problem, das er zu lösen versucht. Hier ist ein kurzer Blick auf die Probleme, die während der Datenbereinigung gelöst werden, und die damit verbundenen Techniken.

Fehlende Werte

Das Problem fehlender Datenwerte ist weit verbreitet. Dies kann während der Datenerfassung oder aufgrund einer bestimmten Datenvalidierungsregel passieren. In solchen Fällen müssen Sie zusätzliche Datenproben sammeln oder nach zusätzlichen Datensätzen suchen.

Das Problem fehlender Werte kann auch auftreten, wenn Sie zwei oder mehr Datensätze zu einem größeren Datensatz verketten. Wenn nicht alle Felder in beiden Datensätzen vorhanden sind, ist es besser, solche Felder vor dem Zusammenführen zu löschen.

Hier sind einige Möglichkeiten, um fehlende Daten zu berücksichtigen:

Füllen Sie die fehlenden Werte manuell aus. Dies kann ein mühsamer und zeitaufwändiger Ansatz sein und wird für große Datasets nicht empfohlen.
Verwenden Sie einen Standardwert, um den fehlenden Datenwert zu ersetzen. Sie können eine globale Konstante wie „unknown“ oder „N/A“ verwenden, um den fehlenden Wert zu ersetzen. Obwohl es sich um einen einfachen Ansatz handelt, ist er nicht narrensicher.
Ergänze den fehlenden Wert mit dem wahrscheinlichsten Wert. Um den wahrscheinlichen Wert vorherzusagen, können Sie Algorithmen wie verwenden logistische Regression oder Entscheidungsbäume.
Verwenden Sie eine zentrale Tendenz, um den fehlenden Wert zu ersetzen. Die zentrale Tendenz ist die Tendenz eines Werts, sich um seinen Mittelwert, Modus oder Median zu gruppieren.

Wenn 50 Prozent der Werte für eine der Zeilen oder Spalten in der Datenbank fehlen, ist es besser, die gesamte Zeile oder Spalte zu löschen, es sei denn, es ist möglich, die Werte mit einer der oben genannten Methoden zu füllen.

Verrauschte Daten

Eine große Menge bedeutungsloser Daten wird als Rauschen bezeichnet. Genauer gesagt handelt es sich um die zufällige Abweichung einer Messgröße oder Daten mit falschen Attributwerten. Rauschen umfasst Duplikate oder Halbduplikate von Datenpunkten, Datensegmente ohne Wert für einen bestimmten Forschungsprozess oder unerwünschte Informationsfelder.

Wenn Sie beispielsweise vorhersagen müssen, ob eine Person Auto fahren kann, sind Informationen über ihre Haarfarbe, Größe oder ihr Gewicht irrelevant.

Ein Ausreißer kann als Rauschen behandelt werden, obwohl einige ihn für einen gültigen Datenpunkt halten. Angenommen, Sie trainieren einen Algorithmus, um Schildkröten in Bildern zu erkennen. Der Bilddatensatz kann Bilder von Schildkröten enthalten, die fälschlicherweise als Landschildkröten bezeichnet wurden. Dies kann als Rauschen angesehen werden.

Es kann jedoch ein Schildkrötenbild geben, das eher wie eine Schildkröte als wie eine Schildkröte aussieht. Diese Probe kann als Ausreißer und nicht unbedingt als Rauschen betrachtet werden. Das liegt daran, dass wir dem Algorithmus alle Möglichkeiten beibringen wollen, Schildkröten zu erkennen, und daher ist das Abweichen von der Gruppe unerlässlich.

Bei numerischen Werten können Sie ein Streudiagramm oder ein Boxdiagramm verwenden, um Ausreißer zu identifizieren.

Im Folgenden sind einige Methoden aufgeführt, die verwendet werden, um das Problem des Rauschens zu lösen:

Regression: Die Regressionsanalyse kann helfen, die Variablen zu bestimmen, die einen Einfluss haben. Auf diese Weise können Sie nur mit den wesentlichen Funktionen arbeiten, anstatt große Datenmengen zu analysieren. Sowohl die lineare Regression als auch die multiple lineare Regression können zum Glätten der Daten verwendet werden.
Binning: Binning-Methoden können für eine Sammlung sortierter Daten verwendet werden. Sie glätten einen sortierten Wert, indem sie die Werte um ihn herum betrachten. Die sortierten Werte werden dann in „Bins“ unterteilt, was bedeutet, dass die Daten in kleinere Segmente gleicher Größe sortiert werden. Es gibt verschiedene Techniken für das Binning, einschließlich Glätten durch Bin-Mittel und Glätten durch Bin-Mediane.
Clustering: Clustering-Algorithmen wie k-Means-Clustering können verwendet werden, um Daten zu gruppieren und dabei Ausreißer zu erkennen.

2. Datenintegration

Da Daten aus verschiedenen Quellen gesammelt werden, ist die Datenintegration ein entscheidender Teil der Datenaufbereitung. Die Integration kann zu mehreren inkonsistenten und redundanten Datenpunkten führen, was letztendlich zu Modellen mit geringerer Genauigkeit führt.

Hier sind einige Ansätze zur Datenintegration:

Datenkonsolidierung: Daten werden physisch zusammengeführt und an einem einzigen Ort gespeichert. Alle Daten an einem Ort zu haben, steigert die Effizienz und Produktivität. Dieser Schritt beinhaltet normalerweise die Verwendung von Data-Warehouse-Software.
Datenvirtualisierung: Bei diesem Ansatz bietet eine Schnittstelle eine einheitliche Echtzeitansicht von Daten aus mehreren Quellen. Mit anderen Worten, Daten können aus einer einzigen Perspektive betrachtet werden.
Datenverbreitung: Beinhaltet das Kopieren von Daten von einem Ort zum anderen mit Hilfe bestimmter Anwendungen. Dieser Prozess kann synchron oder asynchron erfolgen und ist in der Regel ereignisgesteuert.

3. Datenreduktion

Wie der Name schon sagt, dient die Datenreduktion dazu, die Datenmenge zu reduzieren und dadurch die mit Data Mining oder Datenanalyse verbundenen Kosten zu reduzieren.

Es bietet eine komprimierte Darstellung des Datensatzes. Dieser Schritt reduziert zwar das Volumen, bewahrt aber die Integrität der Originaldaten. Dieser Datenvorverarbeitungsschritt ist besonders wichtig, wenn mit Big Data gearbeitet wird, da die Datenmenge gigantisch wäre.

Im Folgenden sind einige Techniken aufgeführt, die zur Datenreduktion verwendet werden.

Dimensionsreduktion

Dimensionsreduktion , auch bekannt als Dimensionsreduktion, reduziert die Anzahl von Features oder Eingabevariablen in einem Dataset.

Die Anzahl der Merkmale oder Eingabevariablen eines Datensatzes wird als seine Dimensionalität bezeichnet. Je höher die Anzahl der Merkmale, desto schwieriger ist es, den Trainingsdatensatz zu visualisieren und ein Vorhersagemodell zu erstellen.

In einigen Fällen sind die meisten dieser Attribute korreliert und daher redundant; Daher können Dimensionsreduktionsalgorithmen verwendet werden, um die Anzahl der Zufallsvariablen zu reduzieren und einen Satz von Hauptvariablen zu erhalten.

Es gibt zwei Segmente der Dimensionsreduktion: Merkmalsauswahl und Merkmalsextraktion.

Bei der Merkmalsauswahl versuchen wir, eine Teilmenge des ursprünglichen Satzes von Merkmalen zu finden. Dadurch erhalten wir eine kleinere Teilmenge, die zur Visualisierung des Problems mithilfe der Datenmodellierung verwendet werden kann. Andererseits reduziert die Merkmalsextraktion die Daten in einem hochdimensionalen Raum auf einen niederdimensionalen Raum, oder mit anderen Worten, einen Raum mit einer geringeren Anzahl von Dimensionen.

Im Folgenden finden Sie einige Möglichkeiten zur Dimensionsreduktion:

Hauptkomponentenanalyse (PCA): Eine statistische Technik, die verwendet wird, um einen neuen Satz von Variablen aus einem großen Satz von Variablen zu extrahieren. Die neu extrahierten Variablen werden als Hauptkomponenten bezeichnet. Diese Methode funktioniert nur für Features mit numerischen Werten.
Hochkorrelationsfilter: Eine Technik, die verwendet wird, um stark korrelierte Merkmale zu finden und sie zu entfernen; Andernfalls kann ein Paar stark korrelierter Variablen die Multikollinearität im Datensatz erhöhen.
Verhältnis fehlender Werte: Dieses Verfahren entfernt Attribute mit fehlenden Werten über einem festgelegten Schwellenwert.
Low-Varianz-Filter: Beinhaltet das Entfernen normalisierter Attribute mit einer Varianz von weniger als einem Schwellenwert, da geringfügige Änderungen in den Daten zu weniger Informationen führen.
Random Forest: Diese Technik wird verwendet, um die Wichtigkeit jedes Merkmals in einem Datensatz zu bewerten, sodass wir nur die wichtigsten Merkmale behalten können.

Andere Techniken zur Dimensionsreduktion umfassen Faktorenanalyse, unabhängige Komponentenanalyse und lineare Diskriminanzanalyse (LDA).

Auswahl von Feature-Subsets

Die Auswahl von Teilmengen von Merkmalen ist der Prozess der Auswahl einer Teilmenge von Merkmalen oder Attributen, die am meisten beitragen oder am wichtigsten sind.

Angenommen, Sie versuchen vorherzusagen, ob ein Schüler bestehen oder durchfallen wird, indem Sie sich historische Daten ähnlicher Schüler ansehen. Sie haben einen Datensatz mit vier Merkmalen: Rollennummer, Gesamtnoten, Lernstunden und außerschulische Aktivitäten.

In diesem Fall haben Rollennummern keinen Einfluss auf die Leistung der Schüler und können eliminiert werden. Das neue Subset wird nur drei Funktionen haben und effizienter sein als das ursprüngliche Set.

Dieser Ansatz zur Datenreduktion kann dazu beitragen, schnellere und kostengünstigere Modelle für maschinelles Lernen zu erstellen. Die Auswahl der Attributteilmenge kann auch im Datentransformationsschritt durchgeführt werden.

Zahlenreduzierung

Numerositätsreduktion ist der Prozess des Ersetzens der ursprünglichen Daten durch eine kleinere Form der Datendarstellung. Dazu gibt es zwei Möglichkeiten: parametrische und nicht-parametrische Methoden.

Parametrische Methoden verwenden Modelle zur Datendarstellung. Log-lineare und Regressionsmethoden werden verwendet, um solche Modelle zu erstellen. Im Gegensatz dazu speichern nichtparametrische Methoden reduzierte Datendarstellungen unter Verwendung von Clustering, Histogrammen, Datenwürfelaggregation und Datenabtastung.

4. Datentransformation

Datentransformation ist der Prozess der Konvertierung von Daten von einem Format in ein anderes. Im Wesentlichen handelt es sich um Methoden zur Transformation von Daten in geeignete Formate, aus denen der Computer effizient lernen kann.

Die Geschwindigkeitseinheiten können beispielsweise Meilen pro Stunde, Meter pro Sekunde oder Kilometer pro Stunde sein. Daher kann ein Datensatz als solcher Werte der Geschwindigkeit eines Autos in verschiedenen Einheiten speichern. Bevor wir diese Daten einem Algorithmus zuführen, müssen wir die Daten in dieselbe Einheit umwandeln.

Im Folgenden sind einige Strategien für die Datentransformation aufgeführt.

Glättung

Dieser statistische Ansatz wird verwendet, um mit Hilfe von Algorithmen Rauschen aus den Daten zu entfernen. Es hilft, die wertvollsten Merkmale in einem Datensatz hervorzuheben und Muster vorherzusagen. Es beinhaltet auch das Eliminieren von Ausreißern aus dem Datensatz, um die Muster besser sichtbar zu machen.

Anhäufung

Aggregation bezieht sich auf das Poolen von Daten aus mehreren Quellen und deren Präsentation in einem einheitlichen Format für Data Mining oder Analyse. Das Aggregieren von Daten aus verschiedenen Quellen, um die Anzahl der Datenpunkte zu erhöhen, ist unerlässlich, da das ML-Modell nur dann über genügend Beispiele verfügt, aus denen es lernen kann.

Diskretisierung

Bei der Diskretisierung werden kontinuierliche Daten in Sätze kleinerer Intervalle umgewandelt. Beispielsweise ist es effizienter, Personen in Kategorien wie „Teenager“, „junger Erwachsener“, „mittleres Alter“ oder „Senior“ einzuordnen, als kontinuierliche Alterswerte zu verwenden.

Verallgemeinerung

Die Verallgemeinerung beinhaltet das Umwandeln von Datenmerkmalen auf niedriger Ebene in Datenmerkmale auf hoher Ebene. Beispielsweise können kategoriale Attribute wie die Heimatadresse auf Definitionen höherer Ebene wie Stadt oder Bundesland verallgemeinert werden.

Normalisierung

Normalisierung bezieht sich auf den Prozess der Konvertierung aller Datenvariablen in einen bestimmten Bereich. Mit anderen Worten, es wird verwendet, um die Werte eines Attributs so zu skalieren, dass es in einen kleineren Bereich fällt, z. B. 0 bis 1. Dezimal-Skalierung, Min-Max-Normalisierung und Z-Score-Normalisierung sind einige Methoden der Datennormalisierung.

Feature-Konstruktion

Die Konstruktion von Merkmalen umfasst die Konstruktion neuer Merkmale aus dem gegebenen Satz von Merkmalen. Diese Methode vereinfacht das ursprüngliche Dataset und erleichtert das Analysieren, Mining oder Visualisieren der Daten.

Generierung von Konzepthierarchien

Mit der Konzepthierarchiegenerierung können Sie eine Hierarchie zwischen Features erstellen, obwohl dies nicht angegeben ist. Wenn Sie beispielsweise einen Hausadressen-Datensatz haben, der Daten über Straße, Stadt, Bundesland und Land enthält, kann diese Methode verwendet werden, um die Daten in hierarchischer Form zu organisieren.

Genaue Daten, genaue Ergebnisse

Algorithmen für maschinelles Lernen sind wie Kinder. Sie haben wenig bis gar kein Verständnis dafür, was günstig oder ungünstig ist. So wie Kinder anfangen, Schimpfwörter zu wiederholen, die von Erwachsenen aufgegriffen wurden, beeinflussen ungenaue oder inkonsistente Daten leicht ML-Modelle. Der Schlüssel liegt darin, sie mit qualitativ hochwertigen, genauen Daten zu versorgen, für die die Datenvorverarbeitung ein wesentlicher Schritt ist.

Algorithmen für maschinelles Lernen werden normalerweise als harte Arbeiter bezeichnet. Aber es gibt einen Algorithmus, der oft als faul bezeichnet wird. Er wird k-nächster-Nachbar-Algorithmus genannt und ist ein ausgezeichneter Klassifizierungsalgorithmus.