Ce sunt datele de antrenament? Cum este folosit în Machine Learning
Publicat: 2021-07-30Modelele de învățare automată sunt la fel de bune ca și datele pe care sunt instruiți.
Fără date de antrenament de înaltă calitate, chiar și cele mai eficiente învățare automată algoritmii nu vor funcționa.
Nevoia de date de calitate, exacte, complete și relevante începe de la începutul procesului de formare. Numai dacă algoritmul este alimentat cu date bune de antrenament poate prelua cu ușurință caracteristicile și poate găsi relații pe care trebuie să le prezică pe linie.
Mai precis, datele de formare de calitate sunt cel mai important aspect al învățării automate (și al inteligenței artificiale) decât oricare altul. Dacă introduceți algoritmii de învățare automată (ML) în datele potrivite, îi configurați pentru acuratețe și succes.
Ce sunt datele de antrenament?
Datele de antrenament sunt setul de date inițial utilizat pentru a antrena algoritmi de învățare automată. Modelele își creează și își perfecționează regulile folosind aceste date. Este un set de mostre de date utilizate pentru a se potrivi parametrilor unui model de învățare automată pentru a-l antrena prin exemplu.
Datele de antrenament sunt cunoscute și ca set de date de antrenament, set de învățare și set de antrenament. Este o componentă esențială a fiecărui model de învățare automată și îi ajută să facă predicții precise sau să îndeplinească o sarcină dorită.
Mai simplu spus, datele de antrenament construiesc modelul de învățare automată. Învață cum arată rezultatul așteptat. Modelul analizează setul de date în mod repetat pentru a înțelege în profunzime caracteristicile acestuia și pentru a se ajusta pentru o performanță mai bună.
Într-un sens mai larg, datele de antrenament pot fi clasificate în două categorii: date etichetate și date neetichetate .
Ce sunt datele etichetate?
Datele etichetate sunt un grup de mostre de date etichetate cu una sau mai multe etichete semnificative. Se mai numește și date adnotate, iar etichetele sale identifică caracteristici specifice, proprietăți, clasificări sau obiecte conținute.
De exemplu, imaginile fructelor pot fi etichetate ca mere, banane sau struguri .
Datele de antrenament etichetate sunt utilizate în învăţare supravegheată. Permite modelelor ML să învețe caracteristicile asociate cu anumite etichete, care pot fi folosite pentru a clasifica puncte de date mai noi. În exemplul de mai sus, aceasta înseamnă că un model poate folosi date de imagine etichetate pentru a înțelege caracteristicile unor fructe specifice și poate utiliza aceste informații pentru a grupa imagini noi.
Etichetarea sau adnotarea datelor este un proces care consumă mult timp, deoarece oamenii trebuie să eticheteze sau să eticheteze punctele de date. Colectarea datelor etichetate este provocatoare și costisitoare. Nu este ușor să stocați date etichetate în comparație cu datele neetichetate.
Ce sunt datele neetichetate?
După cum era de așteptat, datele neetichetate sunt opusul datelor etichetate. Sunt date brute sau date care nu sunt etichetate cu nicio etichetă pentru identificarea clasificărilor, caracteristicilor sau proprietăților. Este folosit în învățarea automată nesupravegheată, iar modelele ML trebuie să găsească modele sau asemănări în date pentru a ajunge la concluzii.
Revenind la exemplul anterior de mere , banane și struguri , în datele de antrenament neetichetate, imaginile acelor fructe nu vor fi etichetate. Modelul va trebui să evalueze fiecare imagine uitându-se la caracteristicile sale, cum ar fi culoarea și forma.
După analizarea unui număr considerabil de imagini, modelul va putea diferenția imagini noi (date noi) în tipurile de fructe de mere , banane sau struguri . Desigur, modelul nu ar ști că acel fruct se numește măr. În schimb, cunoaște caracteristicile necesare pentru a-l identifica.
Există modele hibride care utilizează o combinație de învățare automată supravegheată și nesupravegheată.
Cum sunt utilizate datele de antrenament în învățarea automată
Spre deosebire de algoritmii de învățare automată, algoritmii tradiționali de programare urmează un set de instrucțiuni pentru a accepta datele de intrare și a furniza rezultate. Ei nu se bazează pe date istorice și fiecare acțiune pe care o fac se bazează pe reguli. Acest lucru înseamnă, de asemenea, că acestea nu se îmbunătățesc în timp, ceea ce nu este cazul învățării automate.
Pentru modelele de învățare automată, datele istorice sunt furaje. Așa cum oamenii se bazează pe experiențele anterioare pentru a lua decizii mai bune, modelele ML își analizează setul de date de antrenament cu observații anterioare pentru a face predicții.
Predicțiile ar putea include imagini de clasificare ca în cazul recunoașterea imaginilor sau înțelegerea contextului unei propoziții ca în procesarea limbajului natural (NLP).
Gândiți-vă la un cercetător de date ca la un profesor, la algoritmul de învățare automată ca la student și la setul de date de formare ca la o colecție a tuturor manualelor.
Aspirația profesorului este ca elevul să aibă rezultate bune la examene și, de asemenea, în lumea reală. În cazul algoritmilor ML, testarea este ca și examenele. Manualele (setul de date de instruire) conțin câteva exemple de tipul de întrebări care vor fi adresate la examen.
Sfat: consultați analiza Big Data pentru a ști cum sunt colectate, structurate, curățate și analizate datele mari.
Desigur, nu va conține toate exemplele de întrebări care vor fi adresate la examen și nici toate exemplele incluse în manual nu vor fi solicitate în cadrul examenului. Manualele pot ajuta la pregătirea elevului, învățându-l la ce să se aștepte și cum să răspundă.
Niciun manual nu poate fi vreodată complet complet. Pe măsură ce trece timpul, tipul de întrebări adresate se va schimba și, prin urmare, informațiile incluse în manuale trebuie modificate. În cazul algoritmilor ML, setul de antrenament ar trebui actualizat periodic pentru a include informații noi.
Pe scurt, datele de antrenament sunt un manual care îi ajută pe oamenii de știință de date să ofere algoritmilor ML o idee despre ce să se aștepte. Deși setul de date de antrenament nu conține toate exemplele posibile, va face algoritmi capabili să facă predicții.
Date de antrenament vs. date de testare vs. date de validare
Datele de antrenament sunt folosite în antrenamentul modelului sau, cu alte cuvinte, sunt datele folosite pentru a se potrivi modelului. Dimpotrivă, datele de testare sunt folosite pentru a evalua performanța sau acuratețea modelului. Este un eșantion de date folosit pentru a face o evaluare imparțială a modelului final de potrivire pe datele de antrenament.
Un set de date de antrenament este un set de date inițial care învață modelele ML să identifice modelele dorite sau să efectueze o anumită sarcină. Un set de date de testare este utilizat pentru a evalua cât de eficient a fost antrenamentul sau cât de precis este modelul.
Odată ce un algoritm ML este antrenat pe un anumit set de date și dacă îl testați pe același set de date, este mai probabil să aibă o precizie ridicată, deoarece modelul știe la ce să se aștepte. Dacă setul de date de antrenament conține toate valorile posibile pe care modelul le-ar putea întâlni în viitor, totul bine și bine.
Dar nu este niciodată cazul. Un set de date de antrenament nu poate fi niciodată cuprinzător și nu poate preda tot ceea ce un model ar putea întâlni în lumea reală. Prin urmare, un set de date de testare, care conține puncte de date nevăzute , este utilizat pentru a evalua acuratețea modelului.
Apoi sunt datele de validare . Acesta este un set de date utilizat pentru evaluarea frecventă în timpul fazei de instruire. Deși modelul vede acest set de date ocazional, nu învață din el. Setul de validare este denumit și setul de dezvoltare sau setul de dezvoltare. Ajută la protejarea modelelor de supraajustări și subajustări.
Deși datele de validare sunt separate de datele de antrenament, oamenii de știință ar putea rezerva o parte din datele de antrenament pentru validare. Dar, desigur, acest lucru înseamnă automat că datele de validare au fost ținute departe în timpul antrenamentului.
Sfat: dacă aveți o cantitate limitată de date, o tehnică numită validare încrucișată poate fi utilizată pentru a estima performanța modelului. Această metodă implică împărțirea aleatorie a datelor de antrenament în mai multe subseturi și rezervarea unuia pentru evaluare.
Mulți folosesc termenii „date de testare” și „date de validare” în mod interschimbabil. Principala diferență dintre cele două este că datele de validare sunt folosite pentru a valida modelul în timpul antrenamentului, în timp ce setul de testare este folosit pentru a testa modelul după finalizarea antrenamentului.
Setul de date de validare oferă modelului primul gust de date nevăzute. Cu toate acestea, nu toți oamenii de știință de date efectuează o verificare inițială folosind date de validare. Ei ar putea sări peste această parte și să treacă direct la testarea datelor.

Ce este umanul în buclă?
Human in the loop se referă la persoanele implicate în colectarea și pregătirea datelor de formare.
Datele brute sunt colectate din mai multe surse, inclusiv dispozitive IoT, platforme de social media, site-uri web și feedback-ul clienților. Odată colectate, persoanele implicate în proces vor determina atributele cruciale ale datelor care sunt indicatori buni ai rezultatului pe care doriți să-l prezică modelul.
Datele sunt pregătite prin curățarea lor, luarea în considerare a valorilor lipsă, eliminarea valorii aberante, etichetarea punctelor de date și încărcarea lor în locuri adecvate pentru antrenarea algoritmilor ML. Vor fi, de asemenea, mai multe runde de verificări de calitate; după cum știți, etichetele incorecte pot afecta în mod semnificativ acuratețea modelului.
Ce face ca datele de antrenament să fie bune?
Datele de înaltă calitate se traduc în modele precise de învățare automată.
Datele de calitate scăzută pot afecta în mod semnificativ acuratețea modelelor, ceea ce poate duce la pierderi financiare grave. Este aproape ca și cum ai oferi unui student un manual care conține informații greșite și te-ai aștepta să exceleze la examen.
Următoarele sunt cele patru trăsături principale ale datelor de formare de calitate.
Relevant
Datele trebuie să fie relevante pentru sarcina în cauză. De exemplu, dacă vrei să antrenezi un viziune computerizată algoritm pentru vehicule autonome, probabil că nu veți avea nevoie de imagini cu fructe și legume. În schimb, veți avea nevoie de un set de date de antrenament care să conțină fotografii ale drumurilor, trotuarelor, pietonilor și vehiculelor.
Reprezentant
Datele de antrenament AI trebuie să aibă punctele de date sau caracteristicile pe care aplicația este făcută să le prezică sau să le clasifice. Desigur, setul de date nu poate fi niciodată absolut, dar trebuie să aibă cel puțin atributele pe care aplicația AI este menită să le recunoască.
De exemplu, dacă modelul este menit să recunoască fețele din imagini, acesta trebuie să fie alimentat cu date diverse care conțin fețele oamenilor din diverse etnii. Acest lucru va reduce problema părtinirii AI, iar modelul nu va fi afectat de o anumită rasă, gen sau grup de vârstă.
Uniformă
Toate datele ar trebui să aibă același atribut și trebuie să provină din aceeași sursă.
Să presupunem că proiectul dvs. de învățare automată urmărește să prezică rata de pierdere analizând informațiile despre clienți. Pentru aceasta, veți avea o bază de date cu informații despre clienți care include numele clientului, adresa, numărul de comenzi, frecvența comenzilor și alte informații relevante. Acestea sunt date istorice și pot fi folosite ca date de antrenament.
O parte a datelor nu poate avea informații suplimentare, cum ar fi vârsta sau sexul. Acest lucru va face ca datele de antrenament să fie incomplete, iar modelul să fie inexact. Pe scurt, uniformitatea este un aspect critic al datelor de formare de calitate.
Cuprinzător
Din nou, datele de antrenament nu pot fi niciodată absolute. Dar ar trebui să fie un set de date mare care să reprezinte majoritatea cazurilor de utilizare ale modelului. Datele de antrenament trebuie să aibă suficiente exemple care să permită modelului să învețe în mod corespunzător. Trebuie să conțină mostre de date din lumea reală, deoarece va ajuta modelul să înțeleagă la ce să se aștepte.
Dacă vă gândiți la datele de antrenament ca valori plasate într-un număr mare de rânduri și coloane, îmi pare rău, vă înșelați. Poate fi orice tip de date, cum ar fi text, imagini, audio sau videoclipuri.
Ce afectează calitatea datelor de antrenament?
Oamenii sunt creaturi extrem de sociale, dar există unele prejudecăți pe care le-am fi ales când eram copii și necesită un efort conștient constant pentru a le scăpa. Deși nefavorabile, astfel de părtiniri pot afecta creațiile noastre, iar aplicațiile de învățare automată nu sunt diferite.
Pentru modelele ML, datele de antrenament sunt singura carte pe care o citesc. Performanța sau acuratețea lor va depinde de cât de cuprinzătoare, relevantă și reprezentativă este cartea.
Acestea fiind spuse, trei factori afectează calitatea datelor de antrenament:
Oameni: oamenii care antrenează modelul au un impact semnificativ asupra acurateței sau performanței acestuia. Dacă sunt părtinitoare, va afecta în mod natural modul în care etichetează datele și, în cele din urmă, modul în care funcționează modelul ML.
Procese: Procesul de etichetare a datelor trebuie să aibă controale stricte de control al calității. Acest lucru va crește semnificativ calitatea datelor de formare.
Instrumente: instrumentele incompatibile sau învechite pot afecta calitatea datelor. Utilizarea unui software robust de etichetare a datelor poate reduce costurile și timpul asociat procesului.
De unde să obțineți date de antrenament
Există mai multe modalități de a obține date de antrenament. Alegerea surselor poate varia în funcție de amploarea proiectului de învățare automată, de buget și de timpul disponibil. Următoarele sunt cele trei surse principale pentru colectarea datelor.
Date de antrenament open-source
Majoritatea dezvoltatorilor amatori de ML și a întreprinderilor mici care nu își permit colectarea sau etichetarea datelor se bazează pe date de formare open-source. Este o alegere ușoară, deoarece este deja colectată și gratuită. Cu toate acestea, cel mai probabil va trebui să modificați sau să adnotați din nou astfel de seturi de date pentru a se potrivi nevoilor dvs. de formare. ImageNet, Kaggle și Google Dataset Search sunt câteva exemple de seturi de date open-source.
Internet și IoT
Majoritatea companiilor mijlocii colectează date folosind internetul și dispozitivele IoT. Camerele, senzorii și alte dispozitive inteligente ajută la colectarea datelor brute, care vor fi curățate și adnotate ulterior. Această metodă de colectare a datelor va fi adaptată în mod special la cerințele proiectului dvs. de învățare automată, spre deosebire de seturile de date open-source. Cu toate acestea, curățarea, standardizarea și etichetarea datelor este un proces care consumă mult timp și necesită resurse.
Date artificiale de antrenament
După cum sugerează și numele, datele de antrenament artificiale sunt date create artificial folosind modele de învățare automată. Se mai numește și date sintetice și este o alegere excelentă dacă aveți nevoie de date de antrenament de bună calitate, cu caracteristici specifice pentru antrenamentul unui algoritm. Desigur, această metodă va necesita cantități mari de resurse de calcul și timp suficient.
Câte date de antrenament sunt suficiente?
Nu există un răspuns specific la cât de multe date de antrenament sunt suficiente date de antrenament. Depinde de algoritmul pe care îl antrenezi – rezultatul așteptat, aplicarea, complexitatea și mulți alți factori.
Să presupunem că doriți să antrenați un clasificator de text care să clasifice propoziții pe baza apariției termenilor „pisică” și „câine” și a sinonimelor acestora, cum ar fi „pisicuță”, „pisicuță”, „pisică”, „cățeluș” sau „cățeluș” . Este posibil să nu necesite un set de date mare, deoarece există doar câțiva termeni de potrivire și sortare.
Dar, dacă acesta ar fi un clasificator de imagini care clasifica imaginile ca „pisici” și „câini”, numărul de puncte de date necesare în setul de date de antrenament ar crește semnificativ. Pe scurt, mulți factori intră în joc pentru a decide ce date de antrenament sunt suficiente date de antrenament.
Cantitatea de date necesară se va modifica în funcție de algoritmul utilizat.
Pentru context, învățarea profundă, un subset al învățării automate, necesită milioane de puncte de date pentru a antrena rețelele neuronale artificiale (ANN). În schimb, algoritmii de învățare automată necesită doar mii de puncte de date. Dar, desigur, aceasta este o generalizare exagerată, deoarece cantitatea de date necesară variază în funcție de aplicație.
Cu cât antrenezi mai mult modelul, cu atât devine mai precis. Prin urmare, este întotdeauna mai bine să aveți o cantitate mare de date ca date de antrenament.
Gunoi intră, gunoi afară
Expresia „gunoi înăuntru, gunoi afară” este una dintre cele mai vechi și mai folosite expresii din știința datelor. Chiar și cu rata de generare a datelor în creștere exponențială, este încă valabilă.
Cheia este de a furniza date reprezentative de înaltă calitate la algoritmii de învățare automată. Acest lucru poate îmbunătăți în mod semnificativ acuratețea modelelor. Datele de instruire de bună calitate sunt, de asemenea, esențiale pentru crearea de aplicații imparțiale de învățare automată.
Te-ai întrebat vreodată de ce ar fi capabile computerele cu inteligență umană? Echivalentul computerizat al inteligenței umane este cunoscut sub denumirea de inteligență generală artificială și nu avem încă concluzia dacă va fi cea mai mare sau cea mai periculoasă invenție vreodată.