Computer Vision: Cum mașinile interpretează lumea vizuală

Publicat: 2021-05-05

Viziunea computerizată este domeniul inteligenței artificiale care permite mașinilor să „vadă”.

Oamenii au darul vederii, iar organul care o face posibilă este complex. Deși este incomparabil cu vederea la distanță lungă a vulturilor sau cu ochii unui fluture bluebottle, care poate vedea în spectrul UV, totuși face o treabă excelentă.

O parte din a vedea este să înțelegi ceea ce vezi. În caz contrar, este doar primirea luminii reflectate de la obiectele din fața ta. Acesta este ceea ce se întâmplă dacă aveți o pereche de ochi, dar nu și cortexul vizual din interiorul lobului occipital (partea creierului responsabilă de procesarea vizuală).

Pentru computere, camerele sunt ochii lor. Iar vederea computerizată acționează ca lob occipital și procesează miile de pixeli de pe imagini. Pe scurt, viziunea computerizată permite mașinilor să înțeleagă ceea ce văd.

Viziunea computerizată este esențială pentru mai multe inovații tehnologice, inclusiv mașini cu conducere autonomă, recunoașterea facială și realitatea augmentată. Cantitatea tot mai mare de date de imagine pe care le generăm este unul dintre motivele pentru care acest domeniu de   inteligenţă artificială   crește exponențial. Această creștere face, de asemenea, mai ușor pentru oamenii de știință să antreneze algoritmi.

Mai simplu spus, cele două sarcini principale ale vederii computerizate sunt identificarea obiectelor unei imagini și înțelegerea a ceea ce înseamnă acestea în ansamblu.

Oamenii consideră percepția virtuală, un produs a milioane de ani de evoluție, de bună. Un copil de 5 ani ar putea să numească cu ușurință articolele așezate pe o masă și să înțeleagă că întreaga configurație este o masă. Pentru mașini, este o sarcină herculeană și aceasta este ceea ce viziunea computerizată încearcă să rezolve.

48,6 miliarde de dolari

este estimat a fi valoarea pieței de viziune computerizată până în 2022.

Sursa: BitRefine

Inteligența generală artificială, dacă ar fi posibilă vreodată, nu ar fi fezabilă fără viziunea computerizată. Asta pentru că identificarea cu acuratețe și reacția la obiectele din jurul nostru este una dintre trăsăturile notabile ale inteligenței noastre. Cu alte cuvinte, pentru a învăța mașinile să gândească, trebuie să le oferiți capacitatea de a vedea.

Odată cu creșterea exponențială a numărului de fotografii și videoclipuri digitale disponibile, progresele în învățarea profundă și rețelele neuronale artificiale contribuie, de asemenea, la gloria actuală a vederii computerizate.

O scurtă istorie a vederii computerizate

Primele experimente în domeniul vederii computerizate au început în anii 1950 cu ajutorul unora dintre formele timpurii ale rețelelor neuronale artificiale. Erau folosite pentru a detecta marginile obiectelor și puteau sorta obiecte simple, cum ar fi cercuri și pătrate.

Viziunea computerizată a fost văzută ca o piatră de temelie către inteligența artificială, deoarece imitarea sistemului vizual uman este o condiție prealabilă pentru obținerea inteligenței umane. Prin urmare, în anii 1960, universitățile care explorau IA au fost, de asemenea, implicate în viziunea computerizată.

În 1963, Larry Roberts, considerat părintele fondator al internetului, a descris procesul de obținere a informațiilor 3D despre obiecte solide din fotografii 2D. Teza sa „Percepția prin mașină a solidelor tridimensionale” este încă recunoscută ca una dintre lucrările de bază ale domeniului vederii computerizate.

Mai târziu, în 1966, Marvin Minsky, unul dintre părinții fondatori ai inteligenței artificiale, a crezut că viziunea computerizată ar putea fi realizată printr-un proiect de vară. Dar știm cu toții ce s-a întâmplat. Până în anii 1970, tehnologia de viziune computerizată a fost folosită pentru aplicații comerciale, cum ar fi recunoașterea optică a caracterelor (OCR), care poate identifica textul scris de mână sau caracterele imprimate în imagini.

Internetul, care a devenit popular în anii 1990, a jucat un rol crucial în dezvoltarea rapidă a vederii computerizate. Seturi mari de imagini au devenit ușor accesibile, ceea ce a ușurat antrenamentul algoritmilor.

Puterea de calcul ieftină și abundentă a adăugat, de asemenea, ușurința algoritmilor de antrenament. Acesta a fost și momentul în care interacțiunile dintre grafica pe computer și viziunea pe computer au crescut.

Iată câteva repere notabile în viziunea computerizată care au făcut-o tehnologia robustă care este astăzi.

1959: A fost inventat primul scaner digital de imagini care a transformat imaginile în grile de numere.

1963: Larry Roberts a descris procesul de obținere a informațiilor 3D ale obiectelor solide din imagini 2D.

1966: Marvin Minsky a instruit un student absolvent să atașeze o cameră la un computer și să descrie ceea ce a văzut.

1980: Kunihiko Fukushima a creat   neocognitron. Este considerat precursorul rețelei neuronale convoluționale moderne (CNN).

2001: Paul Viola și Michael Jones, doi cercetători de la MIT, au creat primul cadru de detectare a feței care funcționează în timp real.

2009: Google a început proiectul de mașină cu conducere autonomă.

2010: Google a lansat Google Goggles, o aplicație de recunoaștere a imaginilor utilă pentru căutări bazate pe imagini capturate de dispozitivele mobile. În același an, Facebook a început să folosească recunoașterea facială pentru a eticheta oamenii în fotografii în mod eficient.

2011: Tehnologia de recunoaștere facială a fost utilizată pentru a confirma   identitatea lui Osama Bin Laden   după ce a fost ucis.

2012: Google Brain a creat o rețea neuronală formată din 16.000 de procesoare de computer care ar putea recunoaște imaginile pisicilor cu ajutorul unui algoritm de învățare profundă. În același an, AlexNet, o rețea neuronală convoluțională, a obținut o eroare de top 5 de 15,3% în Provocarea ImageNet 2012.

2014: Tesla a introdus Autopilot în mașinile sale electrice Model S. Sistemul de conducere autonomă nu a funcționat doar offline, ci și a parcat cu precizie.

2015: Google a fost lansat   TensorFlow, care este o bibliotecă de software open-source și gratuită pentru învățarea automată. În același an, Google a introdus FaceNet pentru recunoașterea facială.

2016: Pokemon GO, faimosul joc mobil bazat pe AR, a fost introdus.

2017: Apple a lansat iPhone X cu funcția de recunoaștere a feței.

2019: HighCourt din Marea Britanie a permis utilizarea tehnologiei automate de recunoaștere facială pentru a căuta oameni în mulțime.

Cum funcționează vederea computerizată?

Viziunea computerizată începe cu mic și se termină mare.

Urmează o tehnică de procesare stratificată în care începe cu identificarea și analizarea caracteristicilor de nivel scăzut, cum ar fi pixelii și culorile. Treptat, își merge în sus pentru a analiza caracteristici de nivel superior, cum ar fi linii și obiecte.

Să presupunem că vedeți o imagine a unor oameni alergând. Chiar dacă este o imagine statică, în majoritatea cazurilor, vei putea înțelege contextul; oamenii fug de ceva, fug spre ceva sau fug pe îndelete. Acesta este un exemplu tipic al modului în care procesarea paralelă are loc în timp real.

Este simplu pentru noi să înțelegem emoția și contextul imaginilor. Calculatoarele încă învață meseria, dar ritmul lor este impresionant pentru entitățile non-biologice.

V-ați întrebat vreodată cum computerele sunt capabile să furnizeze date exacte pentru ceva precum prognoza meteo? Acolo funcționează viziunea computerizată sub formă de procesare paralelă, adică lucrând cu mai multe surse complexe de date simultan.

Pentru mașini, imaginile sunt doar o colecție de pixeli. Spre deosebire de oameni, ei nu pot înțelege semnificația semantică a unei imagini și pot detecta doar pixeli. Scopul viziunii computerizate este de a reduce acest decalaj semantic .

Când razele de lumină lovesc retina ochilor noștri, celule speciale, numite fotoreceptori, transformă lumina în semnale electrice. Aceste semnale electrice sunt apoi trimise la creier prin nervul optic. Creierul transformă apoi aceste semnale în imaginile pe care le vedem.

Aceasta procesează până când semnalele electrice care ajung la creier par simple. Cum exact creierul procesează aceste semnale și le transformă în imagini nu este încă pe deplin înțeles. Mai exact, creierul este o cutie neagră; la fel și viziunea computerizată.

Există rețele neuronale și altele   învățare automată   algoritmi care încearcă să imite creierul uman. Ele fac viziunea computerizată fezabilă și ajută la înțelegerea despre ce sunt imaginile. Chiar și în cazul algoritmilor, cercetătorii ML nu sunt pe deplin conștienți de modul în care funcționează. Cu toate acestea, deoarece rezultatele lor sunt cuantificabile, putem judeca acuratețea fiecărui algoritm.

Viziunea computerizată ca proces este explicabilă, la fel ca viziunea umană. Dar nimeni nu este destul de sigur cum funcționează rețelele neuronale pentru a înțelege imaginile sau dacă sunt la distanță aproape de modul în care oamenii procesează informațiile vizuale.

Acestea fiind spuse, într-un sens simplu, viziunea computerizată se referă la recunoașterea modelelor. Folosind tehnici de învățare automată precum   Învățare nesupravegheată, algoritmii sunt antrenați să recunoască tipare în datele vizuale. Dacă vă gândiți la numărul de imagini necesare, acesta este cel puțin milioane sau mii.

Să presupunem că doriți ca algoritmul să identifice câinii în imagini. Dacă urmați tehnica de învățare nesupravegheată, nu trebuie să etichetați nicio imagine drept câini. În schimb, după ce a analizat mii sau milioane de imagini, aparatul învață caracteristicile specifice ale câinilor.

Pe scurt, un computer poate percepe caracteristicile specifice care fac din animal (sau obiect) un câine. Încă nu ar ști că acel animal este numit „câine”. Dar va avea suficiente informații și experiență pentru a determina dacă o imagine fără etichetă conține un câine.

Dacă doriți ca procesul de învățare să fie mai rapid, puteți alege   învăţare supravegheată. În învățarea supravegheată, imaginile sunt etichetate, ceea ce ușurează munca algoritmilor.

Examinarea imaginilor la niveluri de pixeli

Când vorbesc despre algoritmi care analizează imagini, ei nu examinează imaginea în ansamblu ca oamenii. În schimb, se uită la pixeli individuali, care sunt cele mai mici elemente adresabile ale unei imagini raster.

De dragul simplității, să luăm în considerare o imagine în tonuri de gri. Luminozitatea fiecărui pixel, numită valori ale pixelilor, este reprezentată de un număr întreg de 8 biți cu un interval de valori posibile de la 0 la 255. Zero este considerat a fi negru, iar 255 este alb. Dacă studiem o imagine colorată, lucrurile vor deveni mai complicate.

Când spunem că un algoritm analizează și învață, de fapt învață aceste valori de pixeli. Cu alte cuvinte, un computer vede și recunoaște imagini pe baza unor astfel de valori numerice. Aceasta înseamnă, de asemenea, că algoritmii găsesc modele în imagini uitându-se la valorile lor numerice și compară imaginile într-un mod similar.

Pe scurt, pentru mașini, înțelegerea unei imagini este un proces matematic care implică rețele de numere întregi.

Apoi există rețele neuronale convoluționale

O rețea neuronală convoluțională (CNN sau ConvNet) este a   invatare profunda   algoritm care poate extrage caracteristici din seturile de date de imagine. Sunt o categorie de rețele neuronale și au capacități impresionante de recunoaștere și clasificare a imaginilor. Aproape fiecare algoritm de viziune computerizată folosește rețele neuronale convoluționale.

Deși CNN-urile au fost inventate încă din anii 1980, ele nu au fost exact fezabile până la introducerea unităților de procesare grafică (GPU). GPU-urile pot accelera semnificativ rețelele neuronale convoluționale și alte rețele neuronale. În 2004, implementarea GPU a CNN-urilor a fost de 20 de ori mai rapidă decât o implementare echivalentă a CPU.

Cum fac CNN-urile?

ConvNets învață din imaginile de intrare și își ajustează parametrii (ponderi și părtiniri) pentru a face predicții mai bune. CNN-urile tratează imaginile ca matrice și extrag informații spațiale din ele, cum ar fi marginile, adâncimea și textura. ConvNets fac acest lucru folosind   straturi convoluționale   și   punerea în comun.

Arhitectura unui CNN este analogă cu cea a modelului de conectivitate al neuronilor din creierul nostru. CNN-urile au fost create inspirându-se din organizarea cortexului vizual, care este regiunea creierului care primește și procesează informațiile vizuale.

Un CNN este format din mai multe straturi de neuroni artificiali numite perceptroni, care sunt omologii matematici ai neuronilor biologici ai creierului nostru. Perceptronii imită aproximativ și funcționarea omologilor lor biologici.

O rețea neuronală convoluțională cuprinde un strat de intrare , mai multe straturi ascunse și un strat de ieșire .

Straturile ascunse conțin:

  • Straturi convoluționale
  • Straturi cu funcție de activare liniară rectificată (ReLU).
  • Straturi de normalizare
  • Straturi de grupare
  • Straturi complet conectate

Iată o explicație simplă a ceea ce fac.

Când un CNN procesează o imagine, fiecare dintre straturile sale extrage caracteristici distincte din pixelii imaginii. Primul strat este responsabil pentru detectarea caracteristicilor de bază, cum ar fi marginile orizontale și verticale.

Pe măsură ce intrați mai adânc în rețeaua neuronală, straturile încep să detecteze caracteristici complexe, cum ar fi forme și colțuri. Straturile finale ale rețelei neuronale convoluționale sunt capabile să detecteze caracteristici specifice, cum ar fi fețele, clădirile și locurile.

Stratul de ieșire al rețelei neuronale contorte oferă un tabel care conține informații numerice. Acest tabel reprezintă probabilitatea ca un anumit obiect să fi fost identificat în imagine.

Exemple de sarcini de viziune computerizată

Viziunea computerizată este un domeniu al informaticii și AI care permite computerelor să vadă. Există numeroase metode prin care computerele pot profita de acest domeniu. Aceste încercări de a identifica obiecte sau activități în imagini se numesc sarcini de viziune computerizată.

Iată câteva dintre sarcinile comune de viziune computerizată.

  • Detectarea obiectelor: O tehnică utilizată pentru a detecta un anumit obiect dintr-o imagine. Versiunile sale avansate pot identifica mai multe obiecte într-o singură imagine, de exemplu, clădiri, mașini, oameni, semafoare și multe altele într-o imagine a unei străzi aglomerate.
  • Clasificarea imaginilor: gruparea imaginilor pe categorii. Poate fi denumit și procesul de atribuire a etichetelor imaginilor.
  • Recunoaștere facială: o formă avansată de recunoaștere a obiectelor care poate identifica oamenii în imagini și recunoaște fețele.
  • Segmentarea imaginii: împărțirea unei imagini în mai multe bucăți pentru a o examina separat.
  • Detectarea modelelor: un proces de recunoaștere a modelelor și regularităților în datele vizuale.
  • Detectarea marginilor: un proces de detectare a marginilor unui obiect pentru a identifica mai bine componentele imaginii.
  • Potrivirea caracteristicilor: un tip de detectare a modelelor care se potrivește asemănărilor din imagini pentru a le clasifica.

Software de recunoaștere a imaginilor   aplicațiile pot utiliza doar una dintre aceste tehnici de viziune computerizată. Aplicațiile avansate, cum ar fi mașinile autonome, vor folosi mai multe tehnici în același timp.

Aplicații de viziune computerizată din lumea reală

Viziunea computerizată este deja integrată în multe dintre produsele pe care le folosim astăzi. Facebook etichetează automat persoanele folosind CV-ul. Google Foto îl folosește pentru a grupa imagini, iar aplicațiile software precum Adobe Lightroom îl folosesc pentru a îmbunătăți detaliile imaginilor mărite. De asemenea, este utilizat pe scară largă pentru controlul calității în procesele de producție care se bazează pe automatizare.

Iată câteva aplicații din lumea reală de viziune computerizată pe care le-ați putea întâlni.

Recunoastere faciala

Unul dintre cele mai bune cazuri de utilizare a vederii computerizate este în domeniul recunoașterii faciale. A ajuns în curent în 2017 cu modelul Apple iPhone X și este acum o caracteristică standard în majoritatea smartphone-urilor.

Tehnologia de recunoaștere facială este folosită ca o caracteristică de autentificare în mai multe ocazii. În caz contrar, este folosit pentru a identifica persoana, ca în cazul Facebook. Se știe că agențiile de aplicare a legii folosesc tehnologia de recunoaștere facială pentru a identifica persoanele care încalcă legea în fluxurile video.

Mașini cu conducere autonomă

Mașinile cu conducere autonomă se bazează în mare măsură pe viziunea computerizată pentru analiza imaginilor în timp real. Ajută vehiculele autonome să înțeleagă împrejurimile lor. Cu toate acestea, tehnologia din spatele unor astfel de mașini este încă în faza incipientă și necesită o dezvoltare suplimentară înainte de a putea fi implementată cu încredere pe drumurile pline de trafic.

Vehiculele cu conducere autonomă sunt practic imposibile fără viziune computerizată. Această tehnologie ajută vehiculele autonome să proceseze datele vizuale în timp real. Un exemplu de aplicare a acestuia este crearea de hărți 3D. Împreună cu identificarea și clasificarea obiectelor, viziunea computerizată poate ajuta la crearea hărților 3D pentru a oferi vehiculelor un simț al împrejurimilor.

Detectarea vehiculelor și a liniei benzii sunt alte două cazuri importante de utilizare. Apoi, există detectarea spațiului liber, care este destul de faimoasă în domeniul mașinilor cu conducere autonomă. După cum sugerează și numele, este folosit pentru a determina spațiul fără obstacole în jurul vehiculului. Detectarea spațiului liber este utilă atunci când vehiculul autonom se apropie de un vehicul cu mișcare lentă și trebuie să schimbe benzile.

Imagistica medicala

Viziunea computerizată este folosită în industria sănătății pentru a face diagnostice mai rapide și mai precise și pentru a monitoriza progresia bolilor. Folosind recunoașterea modelelor, medicii pot detecta simptomele timpurii ale unor boli precum cancerul, care ar putea să nu fie vizibile pentru ochiul uman.

Imagistica medicală este o altă aplicație critică, cu o multitudine de beneficii. Analiza imagistică medicală reduce timpul necesar profesioniștilor medicali pentru a analiza imaginile. Endoscopia, radiografia cu raze X, ultrasunetele și imagistica prin rezonanță magnetică (RMN) sunt câteva dintre disciplinele imagistice medicale care utilizează vederea computerizată.

Prin împerecherea CNN-urilor cu imagistica medicală, profesioniștii din domeniul medical pot observa organele interne, pot detecta anomalii și pot înțelege cauza și impactul unor boli specifice. De asemenea, ajută medicii să monitorizeze dezvoltarea bolilor și progresul tratamentelor.

Moderarea conținutului

Rețelele de socializare precum Facebook trebuie să revizuiască milioane de postări noi în fiecare zi. Nu este practic să existe o echipă de moderare a conținutului care analizează fiecare imagine sau videoclip postat și, prin urmare, sistemele de viziune computerizată sunt folosite pentru automatizarea procesului.

350 de milioane

fotografiile sunt încărcate în fiecare zi pe Facebook.

Sursa: Raport Social

Viziunea computerizată poate ajuta astfel de platforme de social media să analizeze conținutul încărcat și să le semnaleze pe cele care conțin conținut interzis. Companiile pot folosi, de asemenea, algoritmi de învățare profundă pentru analiza textului, pentru a identifica și bloca conținutul ofensator.

Supraveghere

Fluxurile video de supraveghere sunt o formă solidă de dovezi. Aceștia pot ajuta la descoperirea celor care încalcă legea și, de asemenea, îi pot ajuta pe profesioniștii în securitate să acționeze înainte ca preocupările minore să devină catastrofale.

Este practic imposibil ca oamenii să urmărească înregistrările de supraveghere din mai multe surse. Dar cu viziunea computerizată, această sarcină este simplificată. Sistemele de supraveghere bazate pe CV pot scana imagini live și pot detecta persoanele cu comportament suspect.

Recunoașterea facială poate fi utilizată pentru a identifica infractorii căutați și, prin urmare, pentru a preveni infracțiunile. Tehnologia de recunoaștere a imaginilor poate fi folosită pentru a detecta persoanele care transportă obiecte periculoase în zone aglomerate. Același lucru este folosit și pentru a determina numărul de locuri de parcare gratuite disponibile în mall-uri.

Provocări în viziunea computerizată

A ajuta computerele să vadă este mai dificil decât am crezut că este.

Marvin Minsky era încrezător că vederea computerizată poate fi rezolvată prin conectarea unei camere la un computer. Chiar și după zeci de ani de cercetare, nu suntem aproape de a rezolva problema. Pentru oameni, vederea este atât de fără efort. Acesta este motivul pentru care viziunea computerizată a fost văzută ca o problemă trivial de simplă și trebuia să fie rezolvată într-o vară.

Cunoștințele noastre sunt limitate

Unul dintre motivele pentru care nu suntem capabili să rezolvăm pe deplin problema vederii computerizate este cunoștințele noastre limitate despre noi înșine. Nu avem o înțelegere completă a modului în care funcționează sistemul vizual uman. Desigur, se fac pași repezi în studiul vederii biologice, dar mai este un drum lung de parcurs.

Lumea vizuală este complexă

O problemă provocatoare în domeniul CV-ului este complexitatea naturală a lumii vizuale. Un obiect poate fi privit din orice unghi, în orice condiții de iluminare și de la distanțe diferite. Sistemul optic uman este de obicei capabil să vadă și să înțeleagă obiecte în toate aceste variații infinite, dar capacitatea mașinilor este încă destul de limitată.

O altă limitare este lipsa de bun simț. Chiar și după ani de cercetare, încă nu am recreat bunul simț în sistemele AI. Oamenii pot aplica bunul simț și cunoștințele de bază despre anumite obiecte pentru a le înțelege. Acest lucru ne permite, de asemenea, să înțelegem cu ușurință relația dintre diferitele entități ale unei imagini.

Oamenii sunt buni la presupuneri, cel puțin în comparație cu computerele. Ne este mai ușor să luăm o decizie nu atât de rea, chiar dacă nu ne-am confruntat până acum cu o problemă anume. Dar nu același lucru este valabil și pentru mașini. Dacă se confruntă cu o situație care nu seamănă cu exemplele lor de antrenament, sunt predispuși să acționeze irațional.

Algoritmii de viziune computerizată se îmbunătățesc considerabil dacă îi antrenezi cu seturi de date vizuale mai noi. Dar în esență, ei încearcă să se potrivească cu modelele de pixeli. Cu alte cuvinte, în afară de cunoașterea pixelilor, ei nu înțeleg exact ce se întâmplă în imagini. Dar este fascinant să ne gândim la minunile pe care le fac sistemele cu motor CV în mașinile cu conducere autonomă.

CV-ul este legat de hardware

În viziunea computerizată, latența este rea.

În aplicațiile din lumea reală, cum ar fi mașinile cu conducere autonomă, procesarea și analiza imaginilor trebuie să aibă loc aproape instantaneu. De exemplu, dacă un vehicul autonom care călătorește cu 30 mph detectează un obstacol la o sută de metri distanță, are doar câteva secunde să se oprească sau să vireze în siguranță.

Pentru ca mașina să acționeze la timp, sistemul AI va trebui să înțeleagă împrejurimile și să ia decizii în milisecunde. Deoarece sistemele de viziune computerizată depind în mare măsură de componente hardware precum camera foto, o întârziere de chiar și o fracțiune de secundă în transmiterea sau calculul datelor poate provoca accidente catastrofale.

AI îngustă nu este suficientă

Unii cercetători AI consideră că o viziune computerizată 20/20 poate fi realizată numai dacă deblochăm inteligența generală artificială (AGI). Asta pentru că conștiința pare să joace un rol critic în sistemul vizual uman. La fel cum vedem și observăm, ne imaginăm. Imaginația noastră mărește imaginile pe care le vedem și le aduce un sens mai bun.

De asemenea, inteligența vizuală nu este inseparabilă de inteligență. Capacitatea de a procesa gânduri complexe a completat capacitatea noastră de a vedea și de a înțelege împrejurimile noastre.

Potrivit multor cercetători, învățarea din milioane de imagini sau fluxuri video descărcate de pe internet nu ar ajuta prea mult la obținerea unei adevărate vederi computerizate. În schimb, entitatea AI va trebui să experimenteze asta ca oamenii. Cu alte cuvinte,   AI restrâns, nivelul de inteligență artificială pe care îl avem în prezent, nu este suficient.

Perioada de timp în care vom obține inteligența generală este încă discutabilă. Unii consideră că AGI poate fi atins în câteva decenii. Alții sugerează că este un lucru al secolului următor. Dar majoritatea cercetătorilor cred că AGI este de neatins și va exista doar în genul science fiction.

Realizabil sau nu, există numeroase alte moduri prin care putem încerca să deblocăm adevărata viziune computerizată. O modalitate de a face acest lucru este furnizarea de date de calitate și diverse. Acest lucru se va asigura că sistemele care se bazează pe tehnologia de viziune computerizată sunt ferite de părtiniri.

Găsirea unor modalități mai bune de a mări punctele forte ale rețelelor neuronale artificiale, crearea de GPU-uri puternice și alte componente hardware necesare și înțelegerea sistemului vizual uman sunt câteva modalități de a avansa către adevărata viziune pe computer.

Dăruirea viziunii mașinilor

Ratele de eroare ale modelelor de recunoaștere a imaginii scad dramatic. Am parcurs un drum lung de la doar detectarea scrisorilor tipărite la identificarea cu precizie a fețelor umane. Dar mai este un drum lung de parcurs și multe noi etape de cucerit. Obținerea adevăratei viziuni computerizate va fi, cel mai probabil, una dintre cheile pentru a crea roboți la fel de sofisticați și inteligenți ca oamenii.

Dacă un proces poate fi executat digital, învățarea automată va deveni în cele din urmă o parte a acestuia. Dacă nu sunteți pe deplin convins, iată 51 de statistici de învățare automată care sugerează că aceeași tehnologie ia cu asalt aproape toate industriile.