Che cos'è la preelaborazione dei dati? 4 passaggi cruciali per farlo bene

Pubblicato: 2021-08-06

I dati del mondo reale sono nella maggior parte dei casi incompleti, rumorosi e incoerenti.

Con la generazione di dati in crescita esponenziale e il numero crescente di fonti di dati eterogenee, la probabilità di raccogliere dati anomali o errati è piuttosto alta.

Ma solo dati di alta qualità possono portare a modelli accurati e, in definitiva, previsioni accurate. Pertanto, è fondamentale elaborare i dati per la migliore qualità possibile. Questa fase di elaborazione dei dati è chiamata preelaborazione dei dati ed è una delle fasi essenziali nella scienza dei dati, apprendimento automatico e intelligenza artificiale.

Che cos'è la preelaborazione dei dati?

La preelaborazione dei dati è il processo di trasformazione dei dati grezzi in un formato utile e comprensibile. I dati del mondo reale o grezzi di solito hanno una formattazione incoerente, errori umani e possono anche essere incompleti. La preelaborazione dei dati risolve tali problemi e rende i set di dati più completi ed efficienti per eseguire l'analisi dei dati.

È un processo cruciale che può influenzare il successo dei progetti di data mining e machine learning. Rende più veloce il rilevamento della conoscenza dai set di dati e può in definitiva influenzare le prestazioni dei modelli di apprendimento automatico.

45%

del tempo di un data scientist è dedicato alle attività di preparazione dei dati.

Fonte: Datanami

In altre parole, la preelaborazione dei dati sta trasformando i dati in un modulo su cui i computer possono lavorare facilmente. Semplifica l'analisi o la visualizzazione dei dati e aumenta la precisione e la velocità degli algoritmi di apprendimento automatico che si addestrano sui dati.

Perché è necessaria la preelaborazione dei dati?

Come sapete, un database è una raccolta di punti dati. I punti dati sono anche chiamati osservazioni, campioni di dati, eventi e record.

Ogni campione è descritto utilizzando caratteristiche diverse, note anche come caratteristiche o attributi . La preelaborazione dei dati è essenziale per creare modelli efficaci con queste funzionalità.

Durante la raccolta dei dati possono sorgere numerosi problemi. Potrebbe essere necessario aggregare i dati da diverse origini dati, portando a formati di dati non corrispondenti, come interi e float.

Suggerimento: utilizza le funzionalità di automazione di software di apprendimento automatico e dire addio a quei compiti noiosi.

Se stai aggregando i dati da due o più set di dati indipendenti, il campo del sesso potrebbe avere due valori diversi per gli uomini: uomo e uomo. Allo stesso modo, se stai aggregando dati da dieci set di dati diversi, un campo presente in otto di essi potrebbe mancare negli altri due.

Preelaborando i dati, semplifichiamo l'interpretazione e l'utilizzo. Questo processo elimina le incoerenze o i duplicati nei dati, che altrimenti potrebbero influire negativamente sull'accuratezza di un modello. La preelaborazione dei dati garantisce inoltre che non vi siano valori errati o mancanti a causa di errori umani o bug. In breve, l'utilizzo di tecniche di preelaborazione dei dati rende il database più completo e accurato.

Caratteristiche dei dati di qualità

Per gli algoritmi di apprendimento automatico, niente è più importante della qualità dati di allenamento. La loro prestazione o accuratezza dipende da quanto siano rilevanti, rappresentativi e completi i dati.

Prima di esaminare la modalità di preelaborazione dei dati, esaminiamo alcuni fattori che contribuiscono alla qualità dei dati.

Precisione: come suggerisce il nome, accuratezza significa che le informazioni sono corrette. Informazioni obsolete, errori di battitura e ridondanze possono influire sull'accuratezza di un set di dati.
Coerenza: i dati non dovrebbero avere contraddizioni. Dati incoerenti possono darti risposte diverse alla stessa domanda.
Completezza: il set di dati non deve avere campi incompleti o mancare di campi vuoti. Questa caratteristica consente ai data scientist di eseguire analisi accurate in quanto hanno accesso a un quadro completo della situazione descritta dai dati.
Validità: un set di dati è considerato valido se i campioni di dati vengono visualizzati nel formato corretto, si trovano all'interno di un intervallo specificato e sono del tipo corretto. I set di dati non validi sono difficili da organizzare e analizzare.
Tempestività: i dati dovrebbero essere raccolti non appena si verifica l'evento che rappresentano. Con il passare del tempo, ogni set di dati diventa meno accurato e utile in quanto non rappresenta la realtà attuale. Pertanto, l'attualità e la pertinenza dei dati è una caratteristica fondamentale della qualità dei dati.

Le quattro fasi della preelaborazione dei dati

Per i modelli di machine learning, i dati sono foraggio.

Un set di formazione incompleto può portare a conseguenze indesiderate come pregiudizi, portando a un vantaggio o uno svantaggio ingiusti per un particolare gruppo di persone. Anche i dati incompleti o incoerenti possono influire negativamente sull'esito dei progetti di data mining. Per risolvere tali problemi, viene utilizzato il processo di preelaborazione dei dati.

Ci sono quattro fasi di elaborazione dei dati: pulizia, integrazione, riduzione e trasformazione.

1. Pulizia dei dati

La pulizia o la pulizia dei dati è il processo di pulizia dei set di dati tenendo conto dei valori mancanti, rimuovendo i valori anomali, correggendo punti dati incoerenti e uniformando i dati rumorosi. In sostanza, il motivo alla base della pulizia dei dati è offrire campioni completi e accurati per i modelli di apprendimento automatico.

Le tecniche utilizzate nella pulizia dei dati sono specifiche per le preferenze del data scientist e per il problema che stanno cercando di risolvere. Ecco una rapida occhiata ai problemi che vengono risolti durante la pulizia dei dati e alle tecniche coinvolte.

Valori mancanti

Il problema dei valori dei dati mancanti è abbastanza comune. Può accadere durante la raccolta dei dati oa causa di alcune regole specifiche di convalida dei dati. In questi casi, è necessario raccogliere campioni di dati aggiuntivi o cercare set di dati aggiuntivi.

Il problema dei valori mancanti può sorgere anche quando si concatenano due o più set di dati per formare un set di dati più grande. Se non tutti i campi sono presenti in entrambi i set di dati, è meglio eliminare tali campi prima dell'unione.

Ecco alcuni modi per tenere conto dei dati mancanti:

Compila manualmente i valori mancanti. Questo può essere un approccio noioso e dispendioso in termini di tempo e non è consigliato per set di dati di grandi dimensioni.
Utilizzare un valore standard per sostituire il valore dei dati mancanti. È possibile utilizzare una costante globale come "sconosciuto" o "N/D" per sostituire il valore mancante. Sebbene sia un approccio semplice, non è infallibile.
Riempi il valore mancante con il valore più probabile. Per prevedere il valore probabile, puoi utilizzare algoritmi come regressione logistica o alberi decisionali.
Utilizzare una tendenza centrale per sostituire il valore mancante. La tendenza centrale è la tendenza di un valore a raggrupparsi attorno alla sua media, moda o mediana.

Se manca il 50 percento dei valori per una qualsiasi delle righe o colonne nel database, è meglio eliminare l'intera riga o colonna a meno che non sia possibile riempire i valori utilizzando uno dei metodi precedenti.

Dati rumorosi

Una grande quantità di dati privi di significato è chiamata rumore . Più precisamente, è la varianza casuale in una variabile misurata o dati con valori di attributo errati. Il rumore include duplicati o semiduplicati di punti dati, segmenti di dati privi di valore per un processo di ricerca specifico o campi di informazioni non desiderati.

Ad esempio, se devi prevedere se una persona può guidare, le informazioni sul colore dei capelli, l'altezza o il peso saranno irrilevanti.

Un valore anomalo può essere trattato come rumore, sebbene alcuni lo considerino un punto dati valido. Supponiamo di addestrare un algoritmo per rilevare le tartarughe nelle immagini. Il set di dati dell'immagine può contenere immagini di tartarughe erroneamente etichettate come tartarughe. Questo può essere considerato rumore.

Tuttavia, può esserci l'immagine di una tartaruga che assomiglia più a una tartaruga che a una tartaruga. Quel campione può essere considerato un valore anomalo e non necessariamente un rumore. Questo perché vogliamo insegnare all'algoritmo tutti i modi possibili per rilevare le tartarughe, quindi la deviazione dal gruppo è essenziale.

Per i valori numerici, è possibile utilizzare un grafico a dispersione o un box plot per identificare i valori anomali.

Di seguito sono riportati alcuni metodi utilizzati per risolvere il problema del rumore:

Regressione: l'analisi di regressione può aiutare a determinare le variabili che hanno un impatto. Ciò ti consentirà di lavorare solo con le funzionalità essenziali invece di analizzare grandi volumi di dati. Sia la regressione lineare che la regressione lineare multipla possono essere utilizzate per uniformare i dati.
Binning: i metodi di binning possono essere utilizzati per una raccolta di dati ordinati. Smussano un valore ordinato osservando i valori intorno ad esso. I valori ordinati vengono quindi divisi in "bin", che significa ordinare i dati in segmenti più piccoli della stessa dimensione. Esistono diverse tecniche per il binning, incluso lo smoothing con i mezzi bin e lo smoothing con le mediane bin.
Clustering: gli algoritmi di clustering come il clustering k-means possono essere utilizzati per raggruppare i dati e rilevare i valori anomali nel processo.

2. Integrazione dei dati

Poiché i dati vengono raccolti da varie fonti, l'integrazione dei dati è una parte cruciale della preparazione dei dati. L'integrazione può portare a diversi punti dati incoerenti e ridondanti, portando alla fine a modelli con una precisione inferiore.

Ecco alcuni approcci per integrare i dati:

Consolidamento dei dati: i dati vengono fisicamente riuniti e archiviati in un unico luogo. Avere tutti i dati in un unico posto aumenta l'efficienza e la produttività. Questo passaggio in genere prevede l'utilizzo software di data warehouse.
Virtualizzazione dei dati: in questo approccio, un'interfaccia fornisce una vista unificata e in tempo reale dei dati provenienti da più origini. In altre parole, i dati possono essere visualizzati da un unico punto di vista.
Propagazione dei dati: comporta la copia dei dati da una posizione all'altra con l'aiuto di applicazioni specifiche. Questo processo può essere sincrono o asincrono e di solito è guidato da eventi.

3. Riduzione dei dati

Come suggerisce il nome, la riduzione dei dati viene utilizzata per ridurre la quantità di dati e quindi ridurre i costi associati al data mining o all'analisi dei dati.

Offre una rappresentazione condensata del set di dati. Sebbene questo passaggio riduca il volume, mantiene l'integrità dei dati originali. Questa fase di preelaborazione dei dati è particolarmente cruciale quando si lavora con i big data poiché la quantità di dati coinvolti sarebbe enorme.

Di seguito sono elencate alcune tecniche utilizzate per la riduzione dei dati.

Riduzione dimensionale

La riduzione della dimensionalità , nota anche come riduzione della dimensione, riduce il numero di funzioni o variabili di input in un set di dati.

Il numero di caratteristiche o variabili di input di un set di dati è chiamato dimensionalità. Maggiore è il numero di funzionalità, più problematico è visualizzare il set di dati di addestramento e creare un modello predittivo.

In alcuni casi, la maggior parte di questi attributi sono correlati, quindi ridondanti; pertanto, gli algoritmi di riduzione della dimensionalità possono essere utilizzati per ridurre il numero di variabili casuali e ottenere un insieme di variabili principali.

Esistono due segmenti di riduzione della dimensionalità: selezione delle caratteristiche ed estrazione delle caratteristiche.

Nella selezione delle funzionalità , proviamo a trovare un sottoinsieme dell'insieme originale di funzionalità. Questo ci consente di ottenere un sottoinsieme più piccolo che può essere utilizzato per visualizzare il problema utilizzando la modellazione dei dati. D'altra parte, l' estrazione delle caratteristiche riduce i dati in uno spazio dimensionale elevato in uno spazio dimensionale inferiore, o in altre parole, spazio con un numero minore di dimensioni.

Di seguito sono riportati alcuni modi per eseguire la riduzione della dimensionalità:

Analisi delle componenti principali (PCA): una tecnica statistica utilizzata per estrarre un nuovo insieme di variabili da un ampio insieme di variabili. Le nuove variabili estratte sono chiamate componenti principali. Questo metodo funziona solo per le funzioni con valori numerici.
Filtro ad alta correlazione: una tecnica utilizzata per trovare caratteristiche altamente correlate e rimuoverle; in caso contrario, una coppia di variabili altamente correlate può aumentare la multicollinearità nel set di dati.
Rapporto valori mancanti: questo metodo rimuove gli attributi con valori mancanti superiori a una soglia specificata.
Filtro a bassa varianza: comporta la rimozione di attributi normalizzati con varianza inferiore a un valore di soglia poiché modifiche minori nei dati si traducono in meno informazioni.
Foresta casuale: questa tecnica viene utilizzata per valutare l'importanza di ciascuna funzionalità in un set di dati, consentendoci di mantenere solo le principali funzionalità più importanti.

Altre tecniche di riduzione della dimensionalità includono l'analisi fattoriale, l'analisi delle componenti indipendenti e l'analisi discriminante lineare (LDA).

Selezione di sottoinsiemi di funzioni

La selezione del sottoinsieme di caratteristiche è il processo di selezione di un sottoinsieme di caratteristiche o attributi che contribuiscono maggiormente o che sono i più importanti.

Supponiamo che tu stia cercando di prevedere se uno studente passerà o meno guardando i dati storici di studenti simili. Hai un set di dati con quattro caratteristiche: numero di ruolo, voti totali, ore di studio e attività extracurriculari.

In questo caso, i numeri dei ruoli non influiscono sulle prestazioni degli studenti e possono essere eliminati. Il nuovo sottoinsieme avrà solo tre caratteristiche e sarà più efficiente del set originale.

Questo approccio alla riduzione dei dati può aiutare a creare modelli di machine learning più veloci ed economici. La selezione del sottoinsieme di attributi può essere eseguita anche nella fase di trasformazione dei dati.

Riduzione della numerosità

La riduzione della numerosità è il processo di sostituzione dei dati originali con una forma più piccola di rappresentazione dei dati. Esistono due modi per eseguire questa operazione: metodi parametrici e non parametrici.

I metodi parametrici utilizzano modelli per la rappresentazione dei dati. I metodi log-lineari e di regressione vengono utilizzati per creare tali modelli. Al contrario, i metodi non parametrici archiviano le rappresentazioni dei dati ridotte utilizzando il clustering, gli istogrammi, l'aggregazione di cubi di dati e il campionamento dei dati.

4. Trasformazione dei dati

La trasformazione dei dati è il processo di conversione dei dati da un formato all'altro. In sostanza, implica metodi per trasformare i dati in formati appropriati da cui il computer può imparare in modo efficiente.

Ad esempio, le unità di velocità possono essere miglia orarie, metri al secondo o chilometri orari. Pertanto un set di dati può memorizzare valori della velocità di un'auto in diverse unità in quanto tali. Prima di fornire questi dati a un algoritmo, dobbiamo trasformare i dati nella stessa unità.

Di seguito sono riportate alcune strategie per la trasformazione dei dati.

Levigante

Questo approccio statistico viene utilizzato per rimuovere il rumore dai dati con l'aiuto di algoritmi. Aiuta a evidenziare le caratteristiche più preziose in un set di dati e a prevedere i modelli. Implica anche l'eliminazione dei valori anomali dal set di dati per rendere i modelli più visibili.

Aggregazione

L'aggregazione si riferisce al raggruppamento di dati da più origini e alla loro presentazione in un formato unificato per il data mining o l'analisi. L'aggregazione dei dati da varie fonti per aumentare il numero di punti dati è essenziale poiché solo allora il modello ML avrà abbastanza esempi da cui imparare.

Discretizzazione

La discretizzazione implica la conversione di dati continui in insiemi di intervalli più piccoli. Ad esempio, è più efficiente inserire le persone in categorie come "adolescenti", "giovani adulti", "mezza età" o "anziani" rispetto all'utilizzo di valori di età continui.

Generalizzazione

La generalizzazione implica la conversione di funzionalità di dati di basso livello in funzionalità di dati di alto livello. Ad esempio, attributi categoriali come l'indirizzo di casa possono essere generalizzati a definizioni di livello superiore come città o stato.

Normalizzazione

La normalizzazione si riferisce al processo di conversione di tutte le variabili di dati in un intervallo specifico. In altre parole, viene utilizzato per ridimensionare i valori di un attributo in modo che rientri in un intervallo più piccolo, ad esempio da 0 a 1. Il ridimensionamento decimale, la normalizzazione min-max e la normalizzazione del punteggio z sono alcuni metodi di normalizzazione dei dati.

Costruzione caratteristica

La costruzione di funzionalità implica la costruzione di nuove funzionalità dall'insieme di funzionalità specificato. Questo metodo semplifica il set di dati originale e semplifica l'analisi, l'estrazione o la visualizzazione dei dati.

Generazione della gerarchia dei concetti

La generazione della gerarchia dei concetti consente di creare una gerarchia tra le funzioni, sebbene non sia specificata. Ad esempio, se si dispone di un set di dati dell'indirizzo di casa contenente dati su strada, città, stato e paese, questo metodo può essere utilizzato per organizzare i dati in forme gerarchiche.

Dati accurati, risultati accurati

Gli algoritmi di apprendimento automatico sono come i bambini. Hanno poca o nessuna comprensione di ciò che è favorevole o sfavorevole. Come il modo in cui i bambini iniziano a ripetere il linguaggio volgare ripreso dagli adulti, dati imprecisi o incoerenti influenzano facilmente i modelli ML. La chiave è fornire loro dati accurati e di alta qualità, per i quali la preelaborazione dei dati è un passaggio essenziale.

Di solito si parla di algoritmi di apprendimento automatico come di grandi lavoratori. Ma c'è un algoritmo che è spesso etichettato come pigro. Si chiama algoritmo k-nearest neighbor ed è un eccellente algoritmo di classificazione.