Învățare nesupravegheată: cum învață mașinile pe cont propriu

Publicat: 2021-03-19

Învățarea nesupravegheată permite mașinilor să învețe singure.

Acest tip de învățare automată (ML) oferă aplicațiilor AI capacitatea de a învăța și de a găsi modele ascunse în seturi mari de date fără supraveghere umană. Învățarea nesupravegheată este, de asemenea, crucială pentru realizarea inteligența generală artificială.

Etichetarea datelor necesită forță de muncă și consumă mult timp și, în multe cazuri, nepractică. Acolo, învățarea nesupravegheată aduce o mare diferență, oferind aplicațiilor AI capacitatea de a învăța fără etichete și supraveghere.

Ce este învățarea nesupravegheată?

Învățare nesupravegheată (UL) este o tehnică de învățare automată utilizată pentru a identifica modele în seturile de date care conțin puncte de date neclasificate și neetichetate. În această metodă de învățare, unui sistem AI i se oferă numai datele de intrare și nu sunt date de ieșire corespunzătoare.

Spre deosebire de învățarea supravegheată , învățarea automată nesupravegheată nu necesită un om pentru a supraveghea modelul. Savantul de date permite mașinii să învețe observând datele și găsind modele pe cont propriu. Cu alte cuvinte, această subcategorie de învățare automată permite unui sistem să acționeze asupra informațiilor date fără nicio îndrumare externă.

Tehnicile de învățare nesupravegheate sunt esențiale pentru crearea sistemelor de inteligență artificială cu inteligență umană. Asta pentru că mașinile inteligente trebuie să fie capabile să ia decizii (independente) prin analizarea unor volume mari de date neetichetate.

În comparație cu algoritmii de învățare supravegheată, algoritmii UL sunt mai adepți în îndeplinirea sarcinilor complexe. Cu toate acestea, modelele de învățare supravegheată produc rezultate mai precise, deoarece tutorele spune în mod explicit sistemului ce să caute în datele date. Dar în cazul învățării nesupravegheate, lucrurile pot fi destul de imprevizibile.

Rețele neuronale artificiale, care fac invatare profunda o realitate, ar putea părea că este susținută de învățare nesupravegheată. Deși este adevărat, algoritmii de învățare ai rețelelor neuronale pot fi, de asemenea, supravegheați dacă rezultatul dorit este deja cunoscut.

Învățarea nesupravegheată poate fi un scop în sine. De exemplu, modelele UL pot fi folosite pentru a găsi modele ascunse în volume masive de date și chiar pentru clasificarea și etichetarea punctelor de date. Gruparea punctelor de date nesortate se realizează prin identificarea asemănărilor și diferențelor acestora.

Câteva motive pentru care învățarea nesupravegheată este esențială.

Datele neetichetate sunt din abundență.
Etichetarea datelor este o sarcină obositoare care necesită muncă umană. Cu toate acestea, însuși procesul poate fi alimentat de ML, făcând etichetarea mai ușoară pentru oamenii implicați.
Este util pentru explorarea datelor necunoscute și brute.
Este util pentru efectuarea recunoașterii modelelor în seturi de date mari.

Învățarea nesupravegheată poate fi împărțită în două categorii: învățarea parametrică nesupravegheată și învățarea neparametrică nesupravegheată .

Cum funcționează învățarea nesupravegheată

Mai simplu spus, învățarea nesupravegheată funcționează prin analizarea datelor necategorizate, neetichetate și găsirea structurilor ascunse în ele.

În învățarea supravegheată, un cercetător de date alimentează sistemul cu date etichetate, de exemplu, imagini cu pisici etichetate ca pisici, permițându-i să învețe prin exemplu. În învățarea nesupravegheată, un cercetător de date furnizează doar fotografiile și este responsabilitatea sistemului să analizeze datele și să concluzioneze dacă acestea sunt imagini ale pisicilor.

Învățarea automată nesupravegheată necesită volume masive de date. În cele mai multe cazuri, același lucru este valabil și pentru învățarea supravegheată, deoarece modelul devine mai precis cu mai multe exemple.

Procesul de învățare nesupravegheată începe cu oamenii de știință care formează algoritmii folosind seturile de date de antrenament. Punctele de date din aceste seturi de date nu sunt etichetate și neclasificate.

Scopul de învățare al algoritmului este de a identifica modele în setul de date și de a clasifica punctele de date pe baza acelorași modele identificate. În exemplul imaginilor cu pisici, algoritmul de învățare nesupravegheat poate învăța să identifice trăsăturile distincte ale pisicilor, cum ar fi mustățile, cozile lungi și ghearele retractabile.

Dacă vă gândiți bine, învățarea nesupravegheată este modul în care învățăm să identificăm și să clasificam lucrurile. Să presupunem că nu ai gustat niciodată ketchup sau sos chili. Dacă vi se oferă două sticle „neetichetate” de ketchup și sos chili fiecare și vi se cere să le gustați, veți putea face diferența între aromele lor.

De asemenea, veți putea identifica particularitățile ambelor sosuri (unul fiind acru și celălalt picant), chiar dacă nu le cunoașteți denumirea. Mai gustați fiecare de câteva ori vă va face mai familiarizați cu aroma. În curând, veți putea grupa mâncărurile pe baza sosului adăugat doar gustându-le.

Analizând gustul, puteți găsi caracteristici specifice care diferențiază cele două sosuri și feluri de mâncare de grup. Nu este nevoie să știți numele sosurilor sau ale preparatelor pentru a le clasifica. S-ar putea chiar să numiți unul sos dulce și celălalt sos iute .

Acest lucru este similar cu modul în care mașinile identifică modele și clasifică punctele de date cu ajutorul învățării nesupravegheate. În același exemplu, învățarea supravegheată ar fi cineva care vă spune în prealabil numele ambelor sosuri și felul în care au gust.

Tipuri de învățare nesupravegheată

Problemele de învățare nesupravegheată pot fi clasificate în probleme de grupare și de asociere .

Clustering

Clustering sau analiza cluster este procesul de grupare a obiectelor în clustere. Elementele cu cele mai multe asemănări sunt grupate împreună, în timp ce restul se încadrează în alte grupuri. Un exemplu de grupare ar fi gruparea utilizatorilor YouTube pe baza istoricului vizionărilor.

În funcție de modul în care funcționează, gruparea poate fi clasificată în patru grupuri, după cum urmează:

Gruparea exclusivă: după cum sugerează și numele, clusteringul exclusiv specifică faptul că un punct de date sau un obiect poate exista doar într-un singur cluster.
Clustering ierarhic: ierarhic încearcă să creeze o ierarhie de clustere. Există două tipuri de clustering ierarhic: aglomerativ și divizibil . Agglomerative urmează abordarea de jos în sus, inițial tratează fiecare punct de date ca un cluster individual, iar perechile de clustere sunt îmbinate pe măsură ce se deplasează în sus în ierarhie. Divizor este chiar opusul aglomerativ. Fiecare punct de date începe într-un singur cluster și este împărțit pe măsură ce se deplasează în jos în ierarhie.
Agrupare suprapusă: Suprapunerea permite gruparea unui punct de date în două sau mai multe grupuri.
Clustering probabilistic: Probabilistic folosește distribuțiile de probabilitate pentru a crea clustere. De exemplu, „șosete verzi”, „șosete albastre”, „tricou verde” și „tricou albastru” pot fi fie grupate în două categorii „verde” și „albastru” sau „șosete” și „tricou”. ".

Asociere

Învățarea regulilor de asociere (ARL) este o metodă de învățare nesupravegheată utilizată pentru a găsi relații între variabile în bazele de date mari. Spre deosebire de unii algoritmi de învățare automată, ARL este capabil să gestioneze puncte de date nenumerice.

Într-un sens mai simplu, ARL este despre găsirea modului în care anumite variabile sunt asociate între ele. De exemplu, cei care cumpără o motocicletă sunt cel mai probabil să cumpere o cască.

Găsirea unor astfel de relații poate fi profitabilă. De exemplu, dacă clienții care cumpără Produsul X tind să cumpere Produsul Y, un comerciant online poate recomanda Produsul Y oricui cumpără Produsul X.

Învățarea regulilor de asociere folosește declarațiile if/then în nucleul său. Aceste afirmații pot dezvălui asocieri între date independente. În plus, modelele sau relațiile dacă/atunci sunt observate folosind sprijin și încredere .

Suportul specifică cât de des apare relația dacă/atunci în baza de date. Încrederea definește de câte ori s-a constatat că relația dacă/atunci este validă.

Analiza coșului de piață și minarea utilizării web sunt posibile prin regula asocierii.

Algoritmi de învățare nesupravegheați

Atât învățarea regulilor de grupare, cât și de asociere este implementată cu ajutorul algoritmilor.

Algoritmul apriori, algoritmul ECLAT și algoritmul de creștere a modelului frecvent (FP) sunt câțiva dintre algoritmii notabili utilizați pentru a implementa regula de asociere. Gruparea este posibilă prin algoritmi precum gruparea k-means și analiza componentelor principale (PCA).

Algoritmul apriori

Algoritmul apriori este construit pentru data mining. Este util pentru extragerea bazelor de date care conțin un număr mare de tranzacții, de exemplu, o bază de date care conține lista articolelor cumpărate de cumpărători dintr-un supermarket. Este folosit pentru identificarea efectelor nocive ale drogurilor și în analiza coșului de piață pentru a găsi setul de articole pe care clienții sunt mai susceptibili să le cumpere împreună.

algoritmul ECLAT

Echivalence Class Clustering și de jos în sus Lattice Traversal , sau pe scurt ECLAT , este un algoritm de extragere a datelor utilizat pentru a realiza extragerea setului de articole și pentru a găsi articole frecvente.

Algoritmul apriori folosește formatul de date orizontal și, prin urmare, trebuie să scaneze baza de date de mai multe ori pentru a identifica elementele frecvente. Pe de altă parte, ECLAT urmează o abordare verticală și este în general mai rapidă, deoarece trebuie să scaneze baza de date o singură dată.

Algoritm de creștere a modelului frecvent (FP).

Algoritmul de creștere a modelului frecvent (FP) este o versiune îmbunătățită a algoritmului Apriori. Acest algoritm reprezintă baza de date sub forma unei structuri arborescente cunoscute sub numele de arbore sau model frecvent .

Un astfel de copac frecvent este folosit pentru extragerea celor mai frecvente modele. În timp ce algoritmul Apriori trebuie să scaneze baza de date de n+1 ori (unde n este lungimea celui mai lung model), algoritmul de creștere FP necesită doar două scanări.

K înseamnă grupare

Multe iterații ale algoritmului k-means sunt utilizate pe scară largă în domeniul științei datelor. Mai simplu spus, algoritmul de grupare k-means grupează articole similare în grupuri. Numărul de clustere este reprezentat prin k . Deci, dacă valoarea lui k este 3, vor exista trei grupuri în total.

Această metodă de grupare împarte setul de date neetichetat, astfel încât fiecare punct de date să aparțină doar unui singur grup cu proprietăți similare. Cheia este să găsiți K centre numiți centroizi cluster .

Fiecare cluster va avea un centroid de cluster, iar la observarea unui nou punct de date, algoritmul va determina cel mai apropiat cluster căruia îi aparține punctul de date pe baza unor metrici precum distanța euclidiană.

Analiza componentelor principale (PCA)

Analiza componentelor principale (PCA) este o metodă de reducere a dimensionalității, utilizată în general pentru a reduce dimensionalitatea seturilor de date mari. Face acest lucru prin conversia unui număr mare de variabile într-unul mai mic, care conține aproape toate informațiile din setul mare de date.

Reducerea numărului de variabile ar putea afecta ușor precizia, dar ar putea fi un compromis acceptabil pentru simplitate. Asta pentru că seturile de date mai mici sunt mai ușor de analizat, iar algoritmii de învățare automată nu trebuie să transpire prea mult pentru a obține informații valoroase.

Învățare supravegheată vs. nesupravegheată

Învățarea supravegheată este similară cu a avea un profesor care supraveghează întregul proces de învățare. Există, de asemenea, un set de date de antrenament etichetat similar cu răspunsurile corecte la fiecare problemă pe care încercați să o rezolvați.

Este mai ușor de înțeles dacă răspunsul tău este corect sau nu, iar profesorul te va corecta și când vei greși. În cazul învățării nesupravegheate, nu există niciun profesor sau răspunsuri corecte.

Dintr-o perspectivă computațională, învățarea nesupravegheată este mai complicată și consumatoare de timp decât învățarea supravegheată. Cu toate acestea, este util pentru extragerea datelor și pentru a obține informații despre structura datelor înainte de a atribui orice clasificator (un algoritm de învățare automată care clasifică automat datele).

În ciuda faptului că este utilă atunci când datele neetichetate sunt enorme, învățarea nesupravegheată poate cauza mici inconveniente oamenilor de știință de date. Deoarece setul de date de validare utilizat în învățarea supravegheată este de asemenea etichetat, este mai ușor pentru oamenii de știință să măsoare acuratețea modelelor. Dar nu același lucru este valabil și pentru modelele de învățare nesupravegheate.

În multe cazuri, învățarea nesupravegheată este aplicată înaintea învățării supravegheate. Acest lucru ajută la identificarea caracteristicilor și la crearea claselor.

Procesul de învățare nesupravegheat are loc online, în timp ce învățarea supravegheată are loc offline. Acest lucru permite algoritmilor UL să proceseze datele în timp real.

În timp ce problemele de învățare nesupravegheată sunt împărțite în probleme de asociere și de grupare, învățarea supravegheată poate fi clasificată în continuare în regresie și clasificare.

Pe lângă învățarea supravegheată și nesupravegheată, există învățarea semisupravegheată și învățarea prin întărire .

Învățarea semi-supravegheată este un amestec de învățare supravegheată și nesupravegheată. În această tehnică de învățare automată, sistemul este antrenat doar puțin, astfel încât să obțină o imagine de ansamblu la nivel înalt. O parte din datele de antrenament vor fi etichetate, iar restul vor fi neetichetate.

În învățarea prin consolidare (RL) , sistemul de inteligență artificială va întâlni un mediu asemănător unui joc în care trebuie să maximizeze recompensa. Sistemul trebuie să învețe urmând metoda de încercare și eroare și să-și îmbunătățească șansele de a câștiga recompensa cu fiecare pas.

Iată o privire rapidă asupra diferențelor cheie dintre învățarea supravegheată și nesupravegheată.

Învățare nesupravegheată	Învățare supravegheată
Este un proces complex, necesită mai multe resurse de calcul și necesită timp.	Este relativ simplu și necesită mai puține resurse de calcul.
Setul de date de antrenament nu este etichetat.	Setul de date de antrenament este etichetat.
Mai puțin precis, dar nu neapărat	Foarte precis
Împărțit în asociere și grupare	Împărțit în regresie și clasificare
Este greoi să măsori acuratețea modelului împreună cu incertitudinea.	Este mai ușor să măsurați acuratețea modelului.
Numărul de clase este necunoscut.	Numărul de clase este cunoscut.
Învățarea are loc în timp real.	Învățarea are loc offline.
Apriori, ECLAT, k-means clustering și algoritmul de creștere Frequent pattern (FP) sunt câțiva dintre algoritmii utilizați.	Regresia liniară, regresia logistică, Naive Bayes și suport vector machine (SVM) sunt câțiva dintre algoritmii utilizați.

Exemple de învățare automată nesupravegheată

După cum am menționat mai devreme, învățarea nesupravegheată poate fi un obiectiv în sine și poate fi folosită pentru a găsi modele ascunse în volume mari de date - o sarcină nerealistă pentru oameni.

Câteva aplicații din lumea reală ale învățării automate nesupravegheate.

Detectarea anomaliilor: este un proces de găsire a punctelor de date atipice în seturi de date și, prin urmare, util pentru detectarea activităților frauduloase.
Viziunea computerizată: cunoscut și ca recunoașterea imaginii, această performanță de identificare a obiectelor în imagini este esențială pentru mașinile cu conducere autonomă și chiar valoroasă pentru industria de asistență medicală pentru segmentarea imaginii.
Sisteme de recomandare: prin analiza datelor istorice, algoritmii de învățare nesupravegheat recomandă produsele pe care un client este cel mai probabil să le cumpere.
Personalitatea clientului: învățarea nesupravegheată poate ajuta companiile să construiască persoane exacte ale clienților prin analizarea datelor despre obiceiurile de cumpărare.

Lăsând algoritmii pe propriile dispozitive

Capacitatea de a învăța pe cont propriu face ca învățarea nesupravegheată să fie cea mai rapidă modalitate de a analiza volume masive de date. Desigur, alegerea între învățarea supravegheată sau nesupravegheată (sau chiar semi-supravegheată) depinde de problema pe care încercați să o rezolvați și de timpul și vastitatea datelor disponibile. Cu toate acestea, învățarea nesupravegheată vă poate face întregul efort mai scalabil.

Inteligența artificială pe care o avem astăzi nu este capabilă să domine lumea, cu atât mai puțin să nu asculte ordinele creatorilor săi. Dar face posibile fapte incredibile, cum ar fi mașinile autonome și chatboții. Se numește IA îngustă, dar nu este atât de slab pe cât pare.