Computer Vision: come le macchine interpretano il mondo visivo

Pubblicato: 2021-05-05

La visione artificiale è il campo dell'intelligenza artificiale che consente alle macchine di "vedere".

Gli esseri umani hanno il dono della vista e l'organo che lo rende possibile è complesso. Sebbene sia incomparabile con la visione a lunga distanza delle aquile o gli occhi di una farfalla blu, che possono vedere nello spettro UV, fa comunque un ottimo lavoro.

Una parte del vedere è capire ciò che stai vedendo. Altrimenti, sta solo ricevendo la luce riflessa dagli oggetti di fronte a te. Questo è ciò che accade se hai un paio di occhi ma non la corteccia visiva all'interno del lobo occipitale (la parte del cervello responsabile dell'elaborazione visiva).

Per i computer, le fotocamere sono i loro occhi. E la visione artificiale funge da lobo occipitale ed elabora le migliaia di pixel delle immagini. In breve, la visione artificiale consente alle macchine di comprendere ciò che stanno vedendo.

La visione artificiale è fondamentale per diverse innovazioni tecnologiche, comprese le auto a guida autonoma, il riconoscimento facciale e la realtà aumentata. La crescente quantità di dati di immagine che generiamo è uno dei motivi per cui questo campo di   intelligenza artificiale   sta crescendo esponenzialmente. Questo aumento rende anche più facile per i data scientist addestrare gli algoritmi.

In poche parole, i due compiti principali della visione artificiale sono identificare gli oggetti di un'immagine e capire cosa significano nel loro insieme.

Gli esseri umani danno per scontata la percezione virtuale, un prodotto di milioni di anni di evoluzione. Un bambino di 5 anni potrebbe facilmente nominare gli oggetti posti su un tavolo e comprendere che l'intero allestimento è un tavolo da pranzo. Per le macchine, è un compito arduo, e questo è ciò che la visione artificiale sta cercando di risolvere.

$ 48,6 miliardi

si stima che entro il 2022 varrà il valore del mercato della visione artificiale.

Fonte: BitRefine

L'intelligenza artificiale generale, se mai possibile, non sarebbe fattibile senza la visione artificiale. Questo perché identificare e reagire accuratamente agli oggetti intorno a noi è uno dei tratti notevoli della nostra intelligenza. In altre parole, per insegnare alle macchine a pensare, devi dare loro la capacità di vedere.

Insieme alla crescita esponenziale del numero di fotografie e video digitali disponibili, anche i progressi nell'apprendimento profondo e nelle reti neurali artificiali contribuiscono all'attuale gloria della visione artificiale.

Una breve storia della visione artificiale

I primi esperimenti nel campo della visione artificiale iniziarono negli anni '50 con l'aiuto di alcune delle prime forme di reti neurali artificiali. Erano usati per rilevare i bordi degli oggetti e potevano ordinare oggetti semplici come cerchi e quadrati.

La visione artificiale è stata vista come un trampolino di lancio verso l'intelligenza artificiale poiché imitare il sistema visivo umano è un prerequisito per raggiungere l'intelligenza umana. Pertanto, negli anni '60, anche le università che esploravano l'IA erano coinvolte nella visione artificiale.

Nel 1963, Larry Roberts, considerato il padre fondatore di Internet, descrisse il processo di derivazione di informazioni 3D su oggetti solidi da foto 2D. La sua tesi "Percezione della macchina dei solidi tridimensionali" è ancora riconosciuta come una delle opere fondamentali del campo della visione artificiale.

Più tardi, nel 1966, Marvin Minsky, uno dei padri fondatori dell'IA, credeva che la visione artificiale potesse essere raggiunta con un progetto estivo. Ma sappiamo tutti cosa è successo. Avanti veloce fino agli anni '70, la tecnologia di visione artificiale è stata utilizzata per applicazioni commerciali come il riconoscimento ottico dei caratteri (OCR), in grado di identificare testo scritto a mano o caratteri stampati nelle immagini.

Internet, che è diventato mainstream negli anni '90, ha svolto un ruolo cruciale nel rapido sviluppo della visione artificiale. Grandi insiemi di immagini sono diventati facilmente accessibili, il che ha reso più semplice l'addestramento degli algoritmi.

Alla facilità degli algoritmi di addestramento si aggiungeva anche una potenza di calcolo economica e abbondante. Questo è stato anche il punto in cui sono aumentate le interazioni tra computer grafica e visione artificiale.

Ecco alcune pietre miliari degne di nota nella visione artificiale che l'hanno resa la tecnologia robusta che è oggi.

1959: viene inventato il primo scanner di immagini digitale che converte le immagini in griglie numeriche.

1963: Larry Roberts descrive il processo di derivazione di informazioni 3D di oggetti solidi da immagini 2D.

1966: Marvin Minsky ha incaricato uno studente laureato di collegare una fotocamera a un computer e descrivere ciò che ha visto.

1980: Kunihiko Fukushima crea il   neocognitron. È considerato il precursore della moderna rete neurale convoluzionale (CNN).

2001: Paul Viola e Michael Jones, due ricercatori del MIT, creano il primo framework di rilevamento dei volti che funziona in tempo reale.

2009: Google avvia il progetto di auto a guida autonoma.

2010: Google rilascia Google Goggles, un'app di riconoscimento delle immagini utile per le ricerche basate su immagini acquisite da dispositivi mobili. Lo stesso anno, Facebook ha iniziato a utilizzare il riconoscimento facciale per taggare le persone sulle foto in modo efficace.

2011: la tecnologia di riconoscimento facciale è stata utilizzata per confermare il   identità di Osama Bin Laden   dopo essere stato ucciso.

2012: Google Brain ha creato una rete neurale composta da 16.000 processori di computer in grado di riconoscere le immagini dei gatti con l'aiuto di un algoritmo di deep learning. Lo stesso anno, AlexNet, una rete neurale convoluzionale, ha ottenuto un errore nella top 5 del 15,3% nella ImageNet 2012 Challenge.

2014: Tesla ha introdotto il pilota automatico nelle sue auto elettriche Model S. Il sistema di guida autonoma non solo ha funzionato offline, ma ha anche parcheggiato con precisione.

2015: lancio di Google   TensorFlow, che è una libreria di software open source e gratuita per l'apprendimento automatico. Lo stesso anno, Google ha introdotto FaceNet per il riconoscimento facciale.

2016: Viene introdotto Pokemon GO, il famoso gioco per cellulare basato su AR.

2017: Apple ha rilasciato l'iPhone X con la funzione di riconoscimento facciale.

2019: l'HighCourt del Regno Unito ha consentito l'uso della tecnologia di riconoscimento facciale automatizzato per cercare persone in mezzo alla folla.

Come funziona la visione artificiale?

La visione artificiale inizia in piccolo e finisce in grande.

Segue una tecnica di elaborazione a strati in cui inizia con l'identificazione e l'analisi di caratteristiche di basso livello come pixel e colori. A poco a poco, si fa strada per analizzare caratteristiche di livello superiore come linee e oggetti.

Supponiamo di vedere un'immagine di persone che corrono. Anche se è un'immagine fissa, nella maggior parte dei casi sarai in grado di capire il contesto; le persone scappano da qualcosa, corrono verso qualcosa o corrono tranquillamente. Questo è un tipico esempio di come il calcolo dell'elaborazione parallela avviene in tempo reale.

Per noi è semplice capire l'emozione e il contesto delle immagini. I computer stanno ancora imparando il mestiere, ma il loro ritmo è impressionante per le entità non biologiche.

Vi siete mai chiesti come i computer siano in grado di fornire dati accurati per qualcosa come le previsioni del tempo? È qui che la visione artificiale funziona sotto forma di elaborazione parallela, ovvero lavorando con più origini dati complesse contemporaneamente.

Per le macchine, le immagini sono solo una raccolta di pixel. A differenza degli esseri umani, non possono comprendere il significato semantico di un'immagine e possono rilevare solo i pixel. L'obiettivo della visione artificiale è di colmare quel divario semantico .

Quando i raggi luminosi colpiscono la retina dei nostri occhi, cellule speciali, chiamate fotorecettori, trasformano la luce in segnali elettrici. Questi segnali elettrici vengono quindi inviati al cervello attraverso il nervo ottico. Il cervello converte quindi questi segnali nelle immagini che vediamo.

Questo processo fino a quando i segnali elettrici che raggiungono il cervello sembrano diretti. Come esattamente il cervello elabora questi segnali e li converte in immagini non è ancora del tutto chiaro. Più precisamente, il cervello è una scatola nera; così è la visione artificiale.

Ci sono reti neurali e altro   apprendimento automatico   algoritmi che cercano di imitare il cervello umano. Rendono fattibile la visione artificiale e aiutano a comprendere di cosa trattano le immagini. Anche nel caso degli algoritmi, i ricercatori ML non sono pienamente consapevoli di come funzionano. Tuttavia, poiché i loro risultati sono quantificabili, possiamo giudicare l'accuratezza di ciascun algoritmo.

La visione artificiale come processo è spiegabile, proprio come la visione umana. Ma nessuno è abbastanza sicuro di come funzionino le reti neurali per comprendere le immagini o se siano lontanamente vicine al modo in cui gli esseri umani elaborano le informazioni visive.

Detto questo, in un certo senso, la visione artificiale riguarda il riconoscimento di schemi. Utilizzando tecniche di apprendimento automatico come   apprendimento non supervisionato, gli algoritmi sono addestrati per riconoscere i modelli nei dati visivi. Se stai pensando al numero di immagini richieste, sono almeno milioni o migliaia.

Supponiamo di volere che l'algoritmo identifichi i cani nelle immagini. Se stai seguendo la tecnica di apprendimento senza supervisione, non devi etichettare le immagini come cani. Invece, dopo aver analizzato migliaia o milioni di immagini, la macchina apprende le caratteristiche specifiche dei cani.

In breve, un computer può percepire le caratteristiche specifiche che fanno di un animale (o di un oggetto) un cane. Non saprebbe ancora che quel particolare animale è chiamato "cane". Ma avrà abbastanza informazioni ed esperienza per determinare se un'immagine senza etichetta contiene un cane.

Se vuoi che il processo di apprendimento sia più veloce, puoi farlo   apprendimento supervisionato. Nell'apprendimento supervisionato, le immagini sono etichettate, il che rende il lavoro più semplice per gli algoritmi.

Esame delle immagini a livello di pixel

Quando si parla di algoritmi che analizzano le immagini, non stanno esaminando l'immagine nel suo insieme come gli esseri umani. Al contrario, esaminano i singoli pixel, che sono i più piccoli elementi indirizzabili di un'immagine raster.

Per semplicità, consideriamo un'immagine in scala di grigi. La luminosità di ciascun pixel, chiamata pixel value, è rappresentata da un numero intero di 8 bit con un intervallo di valori possibili da 0 a 255. Zero è considerato nero e 255 è bianco. Se stiamo studiando un'immagine a colori, le cose diventeranno più intricate.

Quando diciamo che un algoritmo analizza e apprende, in realtà sta imparando questi valori di pixel. In altre parole, un computer vede e riconosce le immagini in base a tali valori numerici. Ciò significa anche che gli algoritmi trovano i modelli nelle immagini osservando i loro valori numerici e confrontando le immagini in modo simile.

In breve, per le macchine, comprendere un'immagine è un processo matematico che coinvolge array di numeri interi.

Poi ci sono le reti neurali convoluzionali

Una rete neurale convoluzionale (CNN o ConvNet) è a   apprendimento approfondito   algoritmo in grado di estrarre funzionalità da set di dati di immagini. Sono una categoria di reti neurali e hanno capacità impressionanti per il riconoscimento e la classificazione delle immagini. Quasi tutti gli algoritmi di visione artificiale utilizzano reti neurali convoluzionali.

Sebbene le CNN siano state inventate negli anni '80, non erano esattamente realizzabili fino all'introduzione delle unità di elaborazione grafica (GPU). Le GPU possono accelerare significativamente le reti neurali convoluzionali e altre reti neurali. Nel 2004, l'implementazione GPU delle CNN era 20 volte più veloce di un'implementazione CPU equivalente.

Come fanno le CNN?

ConvNets apprende dalle immagini di input e ne regola i parametri (pesi e bias) per fare previsioni migliori. Le CNN trattano le immagini come matrici e ne estraggono informazioni spaziali, come bordi, profondità e texture. ConvNets lo fa usando   strati convoluzionali   e   messa in comune.

L'architettura di una CNN è analoga a quella del modello di connettività dei neuroni nel nostro cervello. Le CNN sono state create ispirandosi all'organizzazione della corteccia visiva, che è la regione del cervello che riceve ed elabora le informazioni visive.

Una CNN è costituita da più strati di neuroni artificiali chiamati percettron, che sono le controparti matematiche dei neuroni biologici del nostro cervello. I perceptron imitano grossolanamente anche il funzionamento delle loro controparti biologiche.

Una rete neurale convoluzionale comprende uno strato di input, strati multipli nascosti e uno strato di output .

I livelli nascosti contengono:

  • Strati convoluzionali
  • Livelli con funzione di attivazione lineare rettificata (ReLU).
  • Livelli di normalizzazione
  • Livelli di raggruppamento
  • Livelli completamente connessi

Ecco una semplice spiegazione di ciò che fanno.

Quando una CNN elabora un'immagine, ciascuno dei suoi livelli estrae caratteristiche distinte dai pixel dell'immagine. Il primo strato è responsabile del rilevamento delle caratteristiche di base come i bordi orizzontali e verticali.

Man mano che ti addentri nella rete neurale, i livelli iniziano a rilevare caratteristiche complesse come forme e angoli. Gli strati finali della rete neurale convoluzionale sono in grado di rilevare caratteristiche specifiche come volti, edifici e luoghi.

Lo strato di output della rete neurale contorta offre una tabella contenente informazioni numeriche. Questa tabella rappresenta la probabilità che un particolare oggetto sia stato identificato nell'immagine.

Esempi di attività di visione artificiale

La visione artificiale è un campo dell'informatica e dell'intelligenza artificiale che consente ai computer di vedere. Esistono numerosi metodi con cui i computer possono trarre vantaggio da questo campo. Questi tentativi di identificare oggetti o attività nelle immagini sono chiamati attività di visione artificiale.

Ecco alcune delle attività comuni di visione artificiale.

  • Rilevamento di oggetti: una tecnica utilizzata per rilevare un oggetto specifico in un'immagine. Le sue versioni avanzate possono identificare più oggetti in un'unica immagine, ad esempio edifici, automobili, persone, semafori e altro nell'immagine di una strada trafficata.
  • Classificazione delle immagini: il raggruppamento delle immagini in categorie. Può anche essere indicato come il processo di assegnazione di etichette alle immagini.
  • Riconoscimento facciale: una forma avanzata di riconoscimento degli oggetti in grado di identificare gli esseri umani nelle immagini e riconoscere i volti.
  • Segmentazione dell'immagine: la partizione di un'immagine in più parti per esaminarla separatamente.
  • Rilevamento di schemi: un processo di riconoscimento di schemi e regolarità nei dati visivi.
  • Rilevamento dei bordi: un processo di rilevamento dei bordi di un oggetto per identificare meglio i componenti dell'immagine.
  • Corrispondenza delle funzioni: un tipo di rilevamento del modello che abbina le somiglianze nelle immagini per classificarle.

Software di riconoscimento delle immagini   le applicazioni possono utilizzare solo una di queste tecniche di visione artificiale. Applicazioni avanzate come le auto a guida autonoma utilizzeranno diverse tecniche contemporaneamente.

Applicazioni di visione artificiale del mondo reale

La visione artificiale è già fusa in molti dei prodotti che utilizziamo oggi. Facebook tagga automaticamente le persone usando il CV. Google Foto lo utilizza per raggruppare le immagini e applicazioni software come Adobe Lightroom lo utilizzano per migliorare i dettagli delle immagini ingrandite. È anche ampiamente utilizzato per il controllo della qualità nei processi di produzione che si basano sull'automazione.

Ecco alcune altre applicazioni del mondo reale della visione artificiale che potresti aver incontrato.

Riconoscimento facciale

Uno dei migliori casi d'uso della visione artificiale è nel campo del riconoscimento facciale. Ha colpito il mainstream nel 2017 con il modello iPhone X di Apple ed è ora una funzionalità standard nella maggior parte degli smartphone.

La tecnologia di riconoscimento facciale viene utilizzata come funzione di autenticazione in più occasioni. In caso contrario, viene utilizzato per identificare la persona, come nel caso di Facebook. È noto che le forze dell'ordine utilizzano la tecnologia di riconoscimento facciale per identificare i trasgressori nei feed video.

Auto a guida autonoma

Le auto a guida autonoma fanno molto affidamento sulla visione artificiale per l'analisi delle immagini in tempo reale. Aiuta i veicoli autonomi a dare un senso a ciò che li circonda. Tuttavia, la tecnologia alla base di tali auto è ancora nella sua fase iniziale e richiede un ulteriore sviluppo prima che possa essere utilizzata con sicurezza su strade piene di traffico.

I veicoli a guida autonoma sono praticamente impossibili senza la visione artificiale. Questa tecnologia aiuta i veicoli autonomi a elaborare i dati visivi in ​​tempo reale. Un esempio della sua applicazione è la creazione di mappe 3D. Insieme all'identificazione e alla classificazione degli oggetti, la visione artificiale può aiutare a creare mappe 3D per dare ai veicoli un senso dell'ambiente circostante.

Il rilevamento di veicoli e linee di corsia sono altri due casi d'uso importanti. Poi c'è il rilevamento dello spazio libero, che è piuttosto famoso nel regno delle auto a guida autonoma. Come suggerisce il nome, viene utilizzato per determinare lo spazio libero da ostacoli attorno al veicolo. Il rilevamento dello spazio libero è utile quando il veicolo autonomo si avvicina a un veicolo che si muove lentamente e deve cambiare corsia.

Imaging medico

La visione artificiale viene utilizzata nel settore sanitario per effettuare diagnosi più rapide e accurate e monitorare la progressione delle malattie. Utilizzando il riconoscimento del modello, i medici possono rilevare i primi sintomi di malattie come il cancro, che potrebbero non essere visibili all'occhio umano.

L'imaging medico è un'altra applicazione fondamentale con una pletora di vantaggi. L'analisi dell'imaging medico riduce il tempo necessario ai professionisti medici per analizzare le immagini. L'endoscopia, la radiografia a raggi X, l'ecografia e la risonanza magnetica (MRI) sono alcune delle discipline di imaging medico che utilizzano la visione artificiale.

Associando le CNN all'imaging medico, i professionisti sanitari possono osservare gli organi interni, rilevare anomalie e comprendere la causa e l'impatto di malattie specifiche. Aiuta anche i medici a monitorare lo sviluppo delle malattie e l'andamento dei trattamenti.

Moderazione dei contenuti

I social network come Facebook devono rivedere milioni di nuovi post ogni giorno. Non è pratico avere un team di moderazione dei contenuti che esamini ogni immagine o video pubblicato, quindi i sistemi di visione artificiale vengono utilizzati per automatizzare il processo.

350 milioni

le foto vengono caricate ogni giorno su Facebook.

Fonte: Bilancio Sociale

La visione artificiale può aiutare tali piattaforme di social media ad analizzare i contenuti caricati e contrassegnare quelli che contengono contenuti vietati. Le aziende possono anche utilizzare algoritmi di deep learning per l'analisi del testo per identificare e bloccare i contenuti offensivi.

Sorveglianza

I feed video di sorveglianza sono una solida forma di prova. Possono aiutare a scoprire i trasgressori della legge e anche aiutare i professionisti della sicurezza ad agire prima che le preoccupazioni minori diventino catastrofiche.

È praticamente impossibile per gli esseri umani tenere d'occhio i filmati di sorveglianza provenienti da più fonti. Ma con la visione artificiale, questo compito è semplificato. I sistemi di sorveglianza alimentati da CV possono scansionare filmati dal vivo e rilevare persone con comportamenti sospetti.

Il riconoscimento facciale può essere utilizzato per identificare i criminali ricercati e quindi prevenire i crimini. La tecnologia di riconoscimento delle immagini può essere utilizzata per rilevare le persone che trasportano oggetti pericolosi in aree affollate. Lo stesso viene utilizzato anche per determinare il numero di parcheggi liberi disponibili nei centri commerciali.

Sfide nella visione artificiale

Aiutare i computer a vedere è più difficile di quanto pensassimo.

Marvin Minsky era fiducioso che la visione artificiale potesse essere risolta collegando una fotocamera a un computer. Anche dopo decenni di ricerca, non siamo neanche lontanamente vicini a risolvere il problema. Per gli esseri umani, la vista è così semplice. Questo è il motivo per cui la visione artificiale era vista come un problema banalmente semplice e avrebbe dovuto essere risolto nel corso di un'estate.

La nostra conoscenza è limitata

Uno dei motivi per cui non siamo in grado di risolvere completamente il problema della visione artificiale è la nostra conoscenza limitata di noi stessi. Non abbiamo una comprensione completa di come funziona il sistema visivo umano. Naturalmente, nello studio della visione biologica si fanno rapidi passi avanti, ma c'è ancora molta strada da fare.

Il mondo visivo è complesso

Un problema impegnativo nel campo del CV è la naturale complessità del mondo visivo. Un oggetto può essere visto da qualsiasi angolazione, in qualsiasi condizione di illuminazione e da distanze variabili. Il sistema ottico umano è normalmente in grado di vedere e comprendere oggetti in tutte queste infinite variazioni, ma la capacità delle macchine è ancora piuttosto limitata.

Un altro limite è la mancanza di buon senso. Anche dopo anni di ricerca, dobbiamo ancora ricreare il buon senso nei sistemi di intelligenza artificiale. Gli esseri umani possono applicare il buon senso e la conoscenza di base su oggetti specifici per dare loro un senso. Questo ci permette anche di comprendere facilmente la relazione tra le diverse entità di un'immagine.

Gli esseri umani sono bravi a congetturare, almeno rispetto ai computer. È più facile per noi prendere una decisione non così cattiva, anche se non abbiamo mai affrontato un problema specifico prima. Ma lo stesso non vale per le macchine. Se incontrano una situazione che non assomiglia ai loro esempi di allenamento, sono inclini ad agire in modo irrazionale.

Gli algoritmi di visione artificiale migliorano notevolmente se vengono addestrati con set di dati visivi più recenti. Ma in sostanza, stanno cercando di abbinare i modelli di pixel. In altre parole, a parte la conoscenza dei pixel, non capiscono esattamente cosa sta succedendo nelle immagini. Ma è affascinante pensare alle meraviglie che i sistemi alimentati da CV fanno nelle auto a guida autonoma.

Il CV è legato all'hardware

Nella visione artificiale, la latenza è malvagia.

Nelle applicazioni del mondo reale come le auto a guida autonoma, l'elaborazione e l'analisi delle immagini devono avvenire quasi istantaneamente. Ad esempio, se un veicolo autonomo che viaggia a 30 mph rileva un ostacolo a cento metri di distanza, ha solo pochi secondi per fermarsi o girare in sicurezza.

Affinché l'auto agisca in tempo, il sistema di intelligenza artificiale dovrà comprendere l'ambiente circostante e prendere decisioni in pochi millisecondi. Poiché i sistemi di visione artificiale dipendono fortemente da componenti hardware come la fotocamera, un ritardo anche di una frazione di secondo nella trasmissione o nel calcolo dei dati può causare incidenti catastrofici.

L'IA ristretta non è abbastanza

Alcuni ricercatori di intelligenza artificiale ritengono che una visione artificiale 20/20 possa essere raggiunta solo se sblocchiamo l'intelligenza artificiale generale (AGI). Questo perché la coscienza sembra svolgere un ruolo fondamentale nel sistema visivo umano. Così come vediamo e osserviamo, immaginiamo. La nostra immaginazione aumenta le immagini che vediamo e conferisce loro un significato migliore.

Inoltre, l'intelligenza visiva non è inseparabile dall'intelligenza. La capacità di elaborare pensieri complessi ha completato la nostra capacità di vedere e comprendere ciò che ci circonda.

Secondo molti ricercatori, imparare da milioni di immagini o feed video scaricati da Internet non aiuterebbe molto a raggiungere una vera visione artificiale. Invece, l'entità AI dovrà sperimentarlo come gli umani. In altre parole,   L'IA ristretta, il livello di intelligenza artificiale che abbiamo attualmente, non è sufficiente.

Il lasso di tempo entro il quale raggiungeremo l'intelligenza generale è ancora discutibile. Alcuni ritengono che l'AGI possa essere raggiunto in pochi decenni. Altri suggeriscono che sia una cosa del prossimo secolo. Ma la maggior parte dei ricercatori pensa che l'AGI sia irraggiungibile e che esisterà solo nel genere della fantascienza.

Realizzabili o meno, ci sono numerosi altri modi in cui possiamo provare a sbloccare la vera visione artificiale. L'alimentazione di qualità e dati diversificati è un modo per farlo. Ciò assicurerà che i sistemi basati sulla tecnologia di visione artificiale evitino i pregiudizi.

Trovare modi migliori per amplificare i punti di forza delle reti neurali artificiali, creare potenti GPU e altri componenti hardware necessari e comprendere il sistema visivo umano sono alcuni modi per avanzare verso la vera visione artificiale.

Regalare visione alle macchine

I tassi di errore dei modelli di riconoscimento delle immagini stanno diminuendo drasticamente. Abbiamo fatto molta strada dal semplice rilevamento di lettere stampate all'identificazione di volti umani con precisione. Ma c'è ancora molta strada da fare e tante nuove pietre miliari da conquistare. Raggiungere una vera visione artificiale sarà molto probabilmente una delle chiavi per creare robot sofisticati e intelligenti come gli esseri umani.

Se un processo può essere eseguito digitalmente, l'apprendimento automatico alla fine ne diventerà parte. Se non sei del tutto convinto, ecco 51 statistiche sull'apprendimento automatico che suggeriscono che la stessa tecnologia sta prendendo d'assalto quasi tutti i settori.