Che cosa sono i dati di allenamento? Come viene utilizzato nell'apprendimento automatico
Pubblicato: 2021-07-30I modelli di machine learning sono validi quanto i dati su cui sono stati addestrati.
Senza dati di allenamento di alta qualità, anche i più efficienti apprendimento automatico gli algoritmi non funzioneranno.
La necessità di dati di qualità, accurati, completi e pertinenti inizia all'inizio del processo di formazione. Solo se l'algoritmo è alimentato con buoni dati di addestramento può facilmente raccogliere le funzionalità e trovare le relazioni di cui ha bisogno per prevedere in futuro.
Più precisamente, la qualità dei dati di addestramento è l'aspetto più significativo dell'apprendimento automatico (e dell'intelligenza artificiale) di qualsiasi altro. Se introduci gli algoritmi di machine learning (ML) ai dati corretti, li stai configurando per la precisione e il successo.
Cosa sono i dati di allenamento?
I dati di addestramento sono il set di dati iniziale utilizzato per addestrare gli algoritmi di apprendimento automatico. I modelli creano e perfezionano le proprie regole utilizzando questi dati. È un insieme di campioni di dati utilizzati per adattare i parametri di un modello di apprendimento automatico all'addestramento mediante l'esempio.
I dati di addestramento sono anche noti come set di dati di addestramento, set di apprendimento e set di addestramento. È un componente essenziale di ogni modello di machine learning e li aiuta a fare previsioni accurate o a svolgere un'attività desiderata.
In poche parole, i dati di addestramento costruiscono il modello di apprendimento automatico. Insegna come appare l'output atteso. Il modello analizza ripetutamente il set di dati per comprenderne a fondo le caratteristiche e adeguarsi per prestazioni migliori.
In un senso più ampio, i dati di addestramento possono essere classificati in due categorie: dati etichettati e dati non etichettati .
Cosa sono i dati etichettati?
I dati etichettati sono un gruppo di campioni di dati etichettati con una o più etichette significative. Sono anche chiamati dati annotati e le sue etichette identificano caratteristiche, proprietà, classificazioni o oggetti contenuti specifici.
Ad esempio, le immagini dei frutti possono essere contrassegnate come mele, banane o uva .
I dati di addestramento etichettati vengono utilizzati in apprendimento supervisionato. Consente ai modelli ML di apprendere le caratteristiche associate a etichette specifiche, che possono essere utilizzate per classificare punti dati più recenti. Nell'esempio sopra, ciò significa che un modello può utilizzare dati immagine etichettati per comprendere le caratteristiche di frutti specifici e utilizzare queste informazioni per raggruppare nuove immagini.
L'etichettatura o l'annotazione dei dati è un processo che richiede tempo poiché gli esseri umani devono etichettare o etichettare i punti dati. La raccolta di dati etichettati è impegnativa e costosa. Non è facile archiviare i dati etichettati rispetto ai dati senza etichetta.
Cosa sono i dati senza etichetta?
Come previsto, i dati senza etichetta sono l'opposto dei dati etichettati. Sono dati grezzi o dati che non sono contrassegnati da etichette per identificare classificazioni, caratteristiche o proprietà. È usato in apprendimento automatico senza supervisione e i modelli ML devono trovare modelli o somiglianze nei dati per giungere a conclusioni.
Tornando all'esempio precedente di mele , banane e uva , nei dati di addestramento senza etichetta, le immagini di quei frutti non verranno etichettate. Il modello dovrà valutare ogni immagine osservandone le caratteristiche, come colore e forma.
Dopo aver analizzato un numero considerevole di immagini, il modello sarà in grado di differenziare nuove immagini (nuovi dati) nei tipi di frutta di mele , banane o uva . Naturalmente, il modello non saprebbe che quel particolare frutto è chiamato mela. Conosce invece le caratteristiche necessarie per identificarlo.
Esistono modelli ibridi che utilizzano una combinazione di apprendimento automatico supervisionato e non supervisionato.
Come vengono utilizzati i dati di addestramento nell'apprendimento automatico
A differenza degli algoritmi di apprendimento automatico, gli algoritmi di programmazione tradizionali seguono una serie di istruzioni per accettare i dati di input e fornire l'output. Non si basano sui dati storici e ogni azione che fanno è basata su regole. Ciò significa anche che non migliorano nel tempo, il che non è il caso dell'apprendimento automatico.
Per i modelli di machine learning, i dati storici sono foraggi. Proprio come gli esseri umani fanno affidamento sulle esperienze passate per prendere decisioni migliori, i modelli ML esaminano il loro set di dati di addestramento con le osservazioni passate per fare previsioni.
Le previsioni potrebbero includere la classificazione delle immagini come nel caso di riconoscimento delle immagini o comprensione del contesto di una frase come nell'elaborazione del linguaggio naturale (PNL).
Pensa a un data scientist come a un insegnante, all'algoritmo di apprendimento automatico come allo studente e al set di dati di formazione come alla raccolta di tutti i libri di testo.
L'aspirazione dell'insegnante è che lo studente debba esibirsi bene negli esami e anche nel mondo reale. Nel caso degli algoritmi ML, i test sono come gli esami. I libri di testo (set di dati di formazione) contengono diversi esempi del tipo di domande che verranno poste durante l'esame.
Suggerimento: controlla l'analisi dei big data per sapere come vengono raccolti, strutturati, puliti e analizzati i big data.
Naturalmente, non conterrà tutti gli esempi di domande che verranno poste durante l'esame, né tutti gli esempi inclusi nel libro di testo verranno richiesti durante l'esame. I libri di testo possono aiutare a preparare lo studente insegnando loro cosa aspettarsi e come rispondere.
Nessun libro di testo potrà mai essere completamente completo. Con il passare del tempo, il tipo di domande poste cambierà e quindi è necessario modificare le informazioni incluse nei libri di testo. Nel caso di algoritmi ML, il training set dovrebbe essere aggiornato periodicamente per includere nuove informazioni.
In breve, il training dei dati è un libro di testo che aiuta i data scientist a dare agli algoritmi di ML un'idea di cosa aspettarsi. Sebbene il set di dati di addestramento non contenga tutti i possibili esempi, creerà algoritmi in grado di fare previsioni.
Dati di addestramento vs. dati di test vs. dati di convalida
I dati di addestramento vengono utilizzati nell'addestramento del modello o, in altre parole, sono i dati utilizzati per adattarsi al modello. Al contrario, i dati di test vengono utilizzati per valutare le prestazioni o l'accuratezza del modello. È un campione di dati utilizzato per effettuare una valutazione imparziale dell'adattamento del modello finale ai dati di addestramento.
Un set di dati di addestramento è un set di dati iniziale che insegna ai modelli ML a identificare i modelli desiderati o a eseguire un'attività particolare. Un set di dati di test viene utilizzato per valutare l'efficacia della formazione o la precisione del modello.
Una volta che un algoritmo ML è stato addestrato su un determinato set di dati e se lo si testa sullo stesso set di dati, è più probabile che abbia un'accuratezza elevata perché il modello sa cosa aspettarsi. Se il set di dati di addestramento contiene tutti i possibili valori che il modello potrebbe incontrare in futuro, tutto bene.
Ma non è mai così. Un set di dati di addestramento non può mai essere completo e non può insegnare tutto ciò che un modello potrebbe incontrare nel mondo reale. Pertanto, per valutare l'accuratezza del modello viene utilizzato un set di dati di test, contenente punti dati invisibili .
Poi ci sono i dati di convalida . Si tratta di un set di dati utilizzato per valutazioni frequenti durante la fase di addestramento. Sebbene il modello veda questo set di dati occasionalmente, non ne apprende . Il set di convalida viene anche definito set di sviluppo o set di sviluppo. Aiuta a proteggere i modelli da overfitting e underfitting.
Sebbene i dati di convalida siano separati dai dati di addestramento, i data scientist potrebbero riservare una parte dei dati di addestramento per la convalida. Ma, naturalmente, questo significa automaticamente che i dati di convalida sono stati tenuti lontani durante l'addestramento.
Suggerimento: se si dispone di una quantità limitata di dati, è possibile utilizzare una tecnica denominata convalida incrociata per stimare le prestazioni del modello. Questo metodo prevede la partizione casuale dei dati di addestramento in più sottoinsiemi e la riservazione di uno per la valutazione.
Molti usano i termini "dati di prova" e "dati di convalida" in modo intercambiabile. La principale differenza tra i due è che i dati di convalida vengono utilizzati per convalidare il modello durante l'addestramento, mentre il set di test viene utilizzato per testare il modello dopo il completamento dell'addestramento.

Il set di dati di convalida offre al modello il primo assaggio di dati invisibili. Tuttavia, non tutti i data scientist eseguono un controllo iniziale utilizzando i dati di convalida. Potrebbero saltare questa parte e passare direttamente ai dati di test.
Cosa c'è di umano nel circuito?
Human in the loop si riferisce alle persone coinvolte nella raccolta e nella preparazione dei dati di formazione.
I dati grezzi vengono raccolti da più fonti, inclusi dispositivi IoT, piattaforme di social media, siti Web e feedback dei clienti. Una volta raccolti, le persone coinvolte nel processo determinerebbero gli attributi cruciali dei dati che sono buoni indicatori del risultato che si desidera prevedere il modello.
I dati vengono preparati pulindoli, tenendo conto dei valori mancanti, rimuovendo i valori anomali, contrassegnando i punti dati e caricandoli in luoghi idonei per l'addestramento di algoritmi ML. Ci saranno anche diversi cicli di controlli di qualità; come sapete, etichette errate possono influire in modo significativo sull'accuratezza del modello.
Cosa rende buoni i dati di allenamento?
I dati di alta qualità si traducono in modelli di machine learning accurati.
Dati di bassa qualità possono influire in modo significativo sull'accuratezza dei modelli, il che può portare a gravi perdite finanziarie. È quasi come dare a uno studente un libro di testo contenente informazioni sbagliate e aspettarsi che eccelli nell'esame.
Di seguito sono elencate le quattro caratteristiche principali dei dati di addestramento di qualità.
Pertinente
I dati devono essere rilevanti per l'attività in corso. Ad esempio, se vuoi addestrare a visione computerizzata algoritmo per veicoli autonomi, probabilmente non avrai bisogno di immagini di frutta e verdura. Invece, avresti bisogno di un set di dati di addestramento contenente foto di strade, marciapiedi, pedoni e veicoli.
Rappresentante
I dati di addestramento dell'IA devono avere i punti dati o le caratteristiche che l'applicazione è creata per prevedere o classificare. Naturalmente, il set di dati non può mai essere assoluto, ma deve avere almeno gli attributi che l'applicazione di intelligenza artificiale dovrebbe riconoscere.
Ad esempio, se il modello ha lo scopo di riconoscere i volti all'interno delle immagini, deve essere alimentato con dati diversi contenenti i volti di persone di varie etnie. Ciò ridurrà il problema del pregiudizio dell'IA e il modello non sarà prevenuto nei confronti di una particolare razza, genere o gruppo di età.
Uniforme
Tutti i dati devono avere lo stesso attributo e devono provenire dalla stessa origine.
Supponiamo che il tuo progetto di apprendimento automatico miri a prevedere il tasso di abbandono esaminando le informazioni sui clienti. Per questo, avrai un database di informazioni sui clienti che include nome del cliente, indirizzo, numero di ordini, frequenza degli ordini e altre informazioni rilevanti. Si tratta di dati storici e possono essere utilizzati come dati di allenamento.
Una parte dei dati non può contenere informazioni aggiuntive, come l'età o il sesso. Ciò renderà i dati di addestramento incompleti e il modello impreciso. In breve, l'uniformità è un aspetto critico della qualità dei dati di addestramento.
Completo
Ancora una volta, i dati di allenamento non possono mai essere assoluti. Ma dovrebbe essere un set di dati di grandi dimensioni che rappresenta la maggior parte dei casi d'uso del modello. I dati di addestramento devono avere un numero sufficiente di esempi che consentano al modello di apprendere in modo appropriato. Deve contenere campioni di dati del mondo reale in quanto aiuterà ad addestrare il modello a capire cosa aspettarsi.
Se stai pensando ai dati di allenamento come valori inseriti in un gran numero di righe e colonne, mi dispiace, ti sbagli. Potrebbe essere qualsiasi tipo di dati come testo, immagini, audio o video.
Cosa influisce sulla qualità dei dati di allenamento?
Gli esseri umani sono creature altamente sociali, ma ci sono alcuni pregiudizi che potremmo aver scelto da bambini e che richiedono uno sforzo costante e consapevole per sbarazzarci di. Sebbene sfavorevoli, tali pregiudizi possono influenzare le nostre creazioni e le applicazioni di apprendimento automatico non sono diverse.
Per i modelli ML, i dati di addestramento sono l'unico libro che vengono letti. La loro performance o accuratezza dipenderà da quanto sia completo, pertinente e rappresentativo il libro stesso.
Detto questo, tre fattori influenzano la qualità dei dati di allenamento:
Persone: le persone che addestrano il modello hanno un impatto significativo sulla sua accuratezza o prestazioni. Se sono di parte, influenzeranno naturalmente il modo in cui taggano i dati e, in definitiva, il funzionamento del modello ML.
Processi: il processo di etichettatura dei dati deve prevedere severi controlli di qualità in atto. Ciò aumenterà significativamente la qualità dei dati di allenamento.
Strumenti: strumenti incompatibili o obsoleti possono peggiorare la qualità dei dati. L'utilizzo di un robusto software di etichettatura dei dati può ridurre i costi e i tempi associati al processo.
Dove ottenere i dati di allenamento
Esistono diversi modi per ottenere i dati di allenamento. La scelta delle fonti può variare a seconda della portata del progetto di machine learning, del budget e del tempo a disposizione. Le seguenti sono le tre fonti principali per la raccolta dei dati.
Dati di addestramento open source
La maggior parte degli sviluppatori ML amatoriali e delle piccole imprese che non possono permettersi la raccolta o l'etichettatura dei dati si basano su dati di formazione open source. È una scelta facile in quanto è già raccolto e gratuito. Tuttavia, molto probabilmente dovrai modificare o annotare nuovamente tali set di dati per adattarli alle tue esigenze di formazione. ImageNet, Kaggle e Google Dataset Search sono alcuni esempi di set di dati open source.
Internet e IoT
La maggior parte delle aziende di medie dimensioni raccoglie dati utilizzando Internet e dispositivi IoT. Telecamere, sensori e altri dispositivi intelligenti aiutano a raccogliere dati grezzi, che verranno puliti e annotati in seguito. Questo metodo di raccolta dei dati sarà specificamente adattato ai requisiti del tuo progetto di apprendimento automatico, a differenza dei set di dati open source. Tuttavia, pulire, standardizzare ed etichettare i dati è un processo che richiede tempo e molte risorse.
Dati di allenamento artificiale
Come suggerisce il nome, i dati di addestramento artificiale sono dati creati artificialmente utilizzando modelli di apprendimento automatico. Sono anche chiamati dati sintetici ed è una scelta eccellente se hai bisogno di dati di addestramento di buona qualità con funzionalità specifiche per l'addestramento di un algoritmo. Naturalmente, questo metodo richiederà grandi quantità di risorse computazionali e molto tempo.
Quanti dati di allenamento sono sufficienti?
Non esiste una risposta specifica a quanti dati di addestramento sono dati di addestramento sufficienti. Dipende dall'algoritmo che stai addestrando: risultato previsto, applicazione, complessità e molti altri fattori.
Supponiamo di voler addestrare un classificatore di testo che classifichi le frasi in base all'occorrenza dei termini "gatto" e "cane" e dei loro sinonimi come "gattino", "gattino", "gatta", "cucciolo" o "cagnolino" . Ciò potrebbe non richiedere un set di dati di grandi dimensioni poiché ci sono solo pochi termini da abbinare e ordinare.
Ma se si trattasse di un classificatore di immagini che classificasse le immagini come "gatti" e "cani", il numero di punti dati necessari nel set di dati di addestramento aumenterebbe in modo significativo. In breve, molti fattori entrano in gioco per decidere quali dati di allenamento sono dati di allenamento sufficienti.
La quantità di dati richiesti cambierà a seconda dell'algoritmo utilizzato.
Per contesto, il deep learning, un sottoinsieme dell'apprendimento automatico, richiede milioni di punti dati per addestrare le reti neurali artificiali (ANN). Al contrario, gli algoritmi di apprendimento automatico richiedono solo migliaia di punti dati. Ma ovviamente, questa è una generalizzazione inverosimile poiché la quantità di dati necessari varia a seconda dell'applicazione.
Più alleni il modello, più preciso diventa. Quindi è sempre meglio avere una grande quantità di dati come dati di addestramento.
Spazzatura dentro, spazzatura fuori
La frase "spazzatura dentro, spazzatura fuori" è una delle frasi più antiche e più utilizzate nella scienza dei dati. Anche con il tasso di generazione dei dati in crescita esponenziale, è ancora vero.
La chiave è fornire dati rappresentativi di alta qualità agli algoritmi di apprendimento automatico. In questo modo è possibile migliorare significativamente la precisione dei modelli. I dati di addestramento di buona qualità sono fondamentali anche per la creazione di applicazioni di apprendimento automatico imparziali.
Vi siete mai chiesti di cosa sarebbero capaci i computer con un'intelligenza simile a quella umana? L'equivalente informatico dell'intelligenza umana è noto come intelligenza artificiale generale e dobbiamo ancora concludere se sarà l'invenzione più grande o più pericolosa di sempre.