Vision par ordinateur : comment les machines interprètent le monde visuel

Publié: 2021-05-05

La vision par ordinateur est le domaine de l'intelligence artificielle qui permet aux machines de "voir".

Les humains ont le don de la vision, et l'organe qui le rend possible est complexe. Bien qu'il soit incomparable avec la vision à longue distance des aigles ou les yeux d'un papillon mouche bleue, qui peut voir dans le spectre UV, il fait toujours un excellent travail.

Une partie de voir consiste à comprendre ce que vous voyez. Sinon, il ne fait que recevoir la lumière réfléchie par les objets devant vous. C'est ce qui se passe si vous avez une paire d'yeux mais pas le cortex visuel à l'intérieur du lobe occipital (la partie du cerveau responsable du traitement visuel).

Pour les ordinateurs, les caméras sont leurs yeux. Et la vision par ordinateur agit comme le lobe occipital et traite les milliers de pixels sur les images. En bref, la vision par ordinateur permet aux machines de comprendre ce qu'elles voient.

La vision par ordinateur est essentielle pour plusieurs innovations technologiques, notamment les voitures autonomes, la reconnaissance faciale et la réalité augmentée. La quantité croissante de données d'image que nous générons est l'une des raisons pour lesquelles ce domaine de   intelligence artificielle   croît de façon exponentielle. Cette augmentation permet également aux data scientists de former plus facilement des algorithmes.

En termes simples, les deux tâches principales de la vision par ordinateur sont d'identifier les objets d'une image et de comprendre ce qu'ils signifient dans leur ensemble.

Les humains considèrent la perception virtuelle, un produit de millions d'années d'évolution, comme allant de soi. Un enfant de 5 ans pourrait facilement nommer les objets placés sur une table et comprendre que toute la configuration est une table à manger. Pour les machines, c'est une tâche herculéenne, et c'est ce que la vision par ordinateur tente de résoudre.

48,6 milliards de dollars

est estimé à la valeur du marché de la vision par ordinateur d'ici 2022.

Source : BitRefine

L'intelligence artificielle générale, si possible, ne serait pas réalisable sans la vision par ordinateur. En effet, identifier et réagir avec précision aux objets qui nous entourent est l'un des traits notables de notre intelligence. En d'autres termes, pour apprendre aux machines à penser, vous devez leur donner la capacité de voir.

Parallèlement à la croissance exponentielle du nombre de photographies et de vidéos numériques disponibles, les progrès de l'apprentissage en profondeur et des réseaux de neurones artificiels contribuent également à la gloire actuelle de la vision par ordinateur.

Une brève histoire de la vision par ordinateur

Les premières expériences dans le domaine de la vision par ordinateur ont commencé dans les années 1950 avec l'aide de certaines des premières formes de réseaux de neurones artificiels. Ils étaient utilisés pour détecter les bords des objets et pouvaient trier des objets simples comme des cercles et des carrés.

La vision par ordinateur était considérée comme un tremplin vers l'intelligence artificielle, car imiter le système visuel humain est une condition préalable à l'atteinte de l'intelligence humaine. Par conséquent, dans les années 1960, les universités explorant l'IA étaient également impliquées dans la vision par ordinateur.

En 1963, Larry Roberts, considéré comme le père fondateur d'Internet, a décrit le processus de dérivation d'informations 3D sur des objets solides à partir de photos 2D. Sa thèse "Machine Perception of Three-Dimensional Solids" est toujours reconnue comme l'un des travaux fondateurs du domaine de la vision par ordinateur.

Plus tard en 1966, Marvin Minsky, l'un des pères fondateurs de l'IA, croyait que la vision par ordinateur pouvait être réalisée avec un projet d'été. Mais nous savons tous ce qui s'est passé. Avance rapide jusqu'aux années 1970, la technologie de vision par ordinateur a été utilisée pour des applications commerciales telles que la reconnaissance optique de caractères (OCR), qui peut identifier le texte manuscrit ou les caractères imprimés dans les images.

Internet, qui s'est généralisé dans les années 1990, a joué un rôle crucial dans le développement rapide de la vision par ordinateur. De grands ensembles d'images sont devenus facilement accessibles, ce qui a facilité la formation des algorithmes.

Une puissance de calcul bon marché et abondante a également ajouté à la facilité d'apprentissage des algorithmes. Ce fut également le moment où les interactions entre l'infographie et la vision par ordinateur augmentèrent.

Voici quelques jalons notables de la vision par ordinateur qui en ont fait la technologie robuste qu'elle est aujourd'hui.

1959 : Invention du tout premier scanner d'images numériques qui convertit les images en grilles de nombres.

1963 : Larry Roberts décrit le processus de dérivation d'informations 3D d'objets solides à partir d'images 2D.

1966 : Marvin Minsky demande à un étudiant diplômé de fixer une caméra à un ordinateur et de décrire ce qu'il voit.

1980 : Kunihiko Fukushima crée le   néocognitron. Il est considéré comme le précurseur du réseau neuronal convolutionnel (CNN) moderne.

2001 : Paul Viola et Michael Jones, deux chercheurs du MIT, créent le premier framework de détection de visage qui fonctionne en temps réel.

2009 : Google lance le projet de voiture autonome.

2010 : Google lance Google Goggles, une application de reconnaissance d'images utile pour les recherches basées sur des images capturées par des appareils mobiles. La même année, Facebook a commencé à utiliser la reconnaissance faciale pour identifier efficacement les personnes sur les photos.

2011 : La technologie de reconnaissance faciale a été utilisée pour confirmer la   identité d'Oussama Ben Laden   après qu'il a été tué.

2012 : Google Brain a créé un réseau de neurones composé de 16 000 processeurs informatiques capables de reconnaître les images de chats à l'aide d'un algorithme d'apprentissage en profondeur. La même année, AlexNet, un réseau de neurones convolutifs, a atteint le top 5 des erreurs de 15,3 % dans le ImageNet 2012 Challenge.

2014 : Tesla introduit le pilote automatique dans ses voitures électriques Model S. Le système d'auto-conduite a non seulement fonctionné hors ligne, mais également garé avec précision.

2015 : Lancement de Google   TensorFlow, qui est une bibliothèque de logiciels open source et gratuite pour l'apprentissage automatique. La même année, Google a introduit FaceNet pour la reconnaissance faciale.

2016 : Pokemon GO, le célèbre jeu mobile basé sur la réalité augmentée, est lancé.

2017 : Apple lance l'iPhone X avec la fonction de reconnaissance faciale.

2019 : La HighCourt du Royaume-Uni a autorisé l'utilisation de la technologie de reconnaissance faciale automatisée pour rechercher des personnes dans la foule.

Comment fonctionne la vision par ordinateur ?

La vision par ordinateur commence petit et finit grand.

Il suit une technique de traitement en couches dans laquelle il commence par identifier et analyser les caractéristiques de bas niveau telles que les pixels et les couleurs. Progressivement, il progresse pour analyser des caractéristiques de niveau supérieur telles que des lignes et des objets.

Supposons que vous voyez une image de personnes en train de courir. Même s'il s'agit d'une image fixe, dans la plupart des cas, vous pourrez comprendre le contexte ; les gens fuient quelque chose, courent vers quelque chose ou courent tranquillement. Il s'agit d'un exemple typique de la façon dont le calcul de traitement parallèle se produit en temps réel.

Il est simple pour nous de comprendre l'émotion et le contexte des images. Les ordinateurs apprennent encore le métier, mais leur rythme est impressionnant pour les entités non biologiques.

Vous êtes-vous déjà demandé comment les ordinateurs sont capables de fournir des données précises pour quelque chose comme les prévisions météorologiques ? C'est là que la vision par ordinateur fonctionne sous la forme d'un traitement parallèle, c'est-à-dire en travaillant avec plusieurs sources de données complexes à la fois.

Pour les machines, les images ne sont qu'un ensemble de pixels. Contrairement aux humains, ils ne peuvent pas comprendre la signification sémantique d'une image et ne peuvent détecter que les pixels. L'objectif de la vision par ordinateur est de combler ce fossé sémantique .

Lorsque les rayons lumineux frappent la rétine de nos yeux, des cellules spéciales, appelées photorécepteurs, transforment la lumière en signaux électriques. Ces signaux électriques sont ensuite envoyés au cerveau par le nerf optique. Le cerveau convertit ensuite ces signaux en images que nous voyons.

Ce processus jusqu'à ce que les signaux électriques atteignant le cerveau semblent simples. Comment exactement le cerveau traite ces signaux et les convertit en images n'est pas encore entièrement compris. Plus précisément, le cerveau est une boîte noire ; tout comme la vision par ordinateur.

Il existe des réseaux de neurones et d'autres   apprentissage automatique   algorithmes qui tentent d' imiter le cerveau humain. Ils rendent la vision par ordinateur possible et aident à comprendre de quoi parlent les images. Même dans le cas des algorithmes, les chercheurs en ML ne sont pas pleinement conscients de leur fonctionnement. Cependant, comme leurs résultats sont quantifiables, nous pouvons juger de la précision de chaque algorithme.

La vision par ordinateur en tant que processus est explicable, tout comme la vision humaine. Mais personne ne sait exactement comment les réseaux de neurones fonctionnent pour comprendre les images ou s'ils sont à distance proches de la façon dont les humains traitent les informations visuelles.

Cela dit, dans un sens simple, la vision par ordinateur est une question de reconnaissance de formes. En utilisant des techniques d'apprentissage automatique telles que   apprentissage non supervisé, les algorithmes sont formés pour reconnaître des modèles dans les données visuelles. Si vous pensez au nombre d'images requises, c'est au moins des millions ou des milliers.

Supposons que vous vouliez que l'algorithme identifie les chiens dans les images. Si vous suivez la technique d'apprentissage non supervisé, vous n'avez pas besoin d'étiqueter les images comme des chiens. Au lieu de cela, après avoir analysé des milliers ou des millions d'images, la machine apprend les caractéristiques spécifiques des chiens.

En bref, un ordinateur peut percevoir les caractéristiques spécifiques qui font d'un animal (ou d'un objet) un chien. Il ne saurait toujours pas que l'animal en question s'appelle un "chien". Mais il aura suffisamment d'informations et d'expérience pour déterminer si une image sans étiquette contient un chien.

Si vous voulez que le processus d'apprentissage soit plus rapide, vous pouvez opter pour   enseignement supervisé. En apprentissage supervisé, les images sont étiquetées, ce qui facilite la tâche des algorithmes.

Examen des images au niveau des pixels

Quand on parle d'algorithmes analysant des images, ils n'examinent pas l'image dans son ensemble comme les humains. Au lieu de cela, ils regardent des pixels individuels, qui sont les plus petits éléments adressables d'une image raster.

Par souci de simplicité, considérons une image en niveaux de gris. La luminosité de chaque pixel, appelée valeurs de pixel, est représentée par un entier de 8 bits avec une plage de valeurs possibles de 0 à 255. Zéro est considéré comme noir et 255 est blanc. Si nous étudions une image colorée, les choses deviendront plus complexes.

Lorsque nous disons qu'un algorithme analyse et apprend, il apprend en fait ces valeurs de pixels. En d'autres termes, un ordinateur voit et reconnaît des images sur la base de ces valeurs numériques. Cela signifie également que les algorithmes trouvent des modèles dans les images en examinant leurs valeurs numériques et comparent les images de la même manière.

En bref, pour les machines, comprendre une image est un processus mathématique qui implique des tableaux d'entiers.

Ensuite, il existe des réseaux de neurones convolutifs

Un réseau neuronal convolutif (CNN ou ConvNet) est un   l'apprentissage en profondeur   algorithme qui peut extraire des caractéristiques à partir d'ensembles de données d'images. Ils constituent une catégorie de réseaux de neurones et possèdent des capacités impressionnantes de reconnaissance et de classification d'images. Presque tous les algorithmes de vision par ordinateur utilisent des réseaux de neurones convolutionnels.

Bien que les CNN aient été inventés dans les années 1980, ils n'étaient pas vraiment réalisables avant l'introduction des unités de traitement graphique (GPU). Les GPU peuvent considérablement accélérer les réseaux de neurones convolutionnels et autres réseaux de neurones. En 2004, l'implémentation GPU des CNN était 20 fois plus rapide qu'une implémentation CPU équivalente.

Comment font les CNN ?

Les ConvNets apprennent des images d'entrée et ajustent leurs paramètres (pondérations et biais) pour faire de meilleures prédictions. Les CNN traitent les images comme des matrices et en extraient des informations spatiales, telles que les bords, la profondeur et la texture. Les ConvNets le font en utilisant   couches convolutionnelles   et   mise en commun.

L'architecture d'un CNN est analogue à celle du schéma de connectivité des neurones de notre cerveau. Les CNN ont été créés en s'inspirant de l'organisation du cortex visuel, qui est la région du cerveau qui reçoit et traite les informations visuelles.

Un CNN se compose de plusieurs couches de neurones artificiels appelés perceptrons, qui sont les homologues mathématiques des neurones biologiques de notre cerveau. Les perceptrons imitent également à peu près le fonctionnement de leurs homologues biologiques.

Un réseau neuronal convolutif comprend une couche d' entrée , plusieurs couches cachées et une couche de sortie .

Les calques masqués contiennent :

  • Couches convolutives
  • Couches de fonction d'activation linéaire rectifiée (ReLU)
  • Couches de normalisation
  • Mise en commun des couches
  • Couches entièrement connectées

Voici une explication simple de ce qu'ils font.

Lorsqu'un CNN traite une image, chacune de ses couches extrait des caractéristiques distinctes des pixels de l'image. La première couche est responsable de la détection des caractéristiques de base telles que les bords horizontaux et verticaux.

Au fur et à mesure que vous approfondissez le réseau de neurones, les couches commencent à détecter des caractéristiques complexes telles que des formes et des coins. Les couches finales du réseau neuronal convolutif sont capables de détecter des caractéristiques spécifiques telles que des visages, des bâtiments et des lieux.

La couche de sortie du réseau neuronal alambiqué offre un tableau contenant des informations numériques. Ce tableau représente la probabilité qu'un objet particulier ait été identifié dans l'image.

Exemples de tâches de vision par ordinateur

La vision par ordinateur est un domaine de l'informatique et de l'IA qui permet aux ordinateurs de voir. Il existe de nombreuses méthodes par lesquelles les ordinateurs peuvent tirer parti de ce domaine. Ces tentatives d'identification d'objets ou d'activités dans des images sont appelées tâches de vision par ordinateur.

Voici quelques-unes des tâches courantes de vision par ordinateur.

  • Détection d'objet : Une technique utilisée pour détecter un objet spécifique dans une image. Ses versions avancées peuvent identifier plusieurs objets dans une seule image, par exemple, des bâtiments, des voitures, des personnes, des feux de circulation, etc. dans une image d'une rue animée.
  • Classification des images : regroupement des images en catégories. Il peut également être appelé le processus d'attribution d'étiquettes aux images.
  • Reconnaissance faciale : une forme avancée de reconnaissance d'objets qui peut identifier les humains dans les images et reconnaître les visages.
  • Segmentation d'image : partitionnement d'une image en plusieurs parties pour l'examiner séparément.
  • Détection de modèles : processus de reconnaissance de modèles et de régularités dans les données visuelles.
  • Détection des bords : un processus de détection des bords d'un objet pour mieux identifier les constituants de l'image.
  • Correspondance de caractéristiques : un type de détection de modèle qui correspond aux similitudes dans les images pour les classer.

Logiciel de reconnaissance d'images   les applications peuvent utiliser une seule de ces techniques de vision par ordinateur. Les applications avancées comme les voitures autonomes utiliseront plusieurs techniques en même temps.

Applications de vision par ordinateur dans le monde réel

La vision par ordinateur est déjà intégrée à de nombreux produits que nous utilisons aujourd'hui. Facebook tague automatiquement les personnes utilisant CV. Google Photos l'utilise pour regrouper des images et des applications logicielles comme Adobe Lightroom l'utilisent pour améliorer les détails des images agrandies. Il est également largement utilisé pour le contrôle de la qualité dans les processus de fabrication qui reposent sur l'automatisation.

Voici quelques applications plus réelles de la vision par ordinateur que vous avez peut-être rencontrées.

La reconnaissance faciale

L'un des meilleurs cas d'utilisation de la vision par ordinateur se situe dans le domaine de la reconnaissance faciale. Il est devenu grand public en 2017 avec le modèle iPhone X d'Apple et est désormais une fonctionnalité standard de la plupart des smartphones.

La technologie de reconnaissance faciale est utilisée comme fonction d'authentification à plusieurs reprises. Sinon, il est utilisé pour identifier la personne, comme dans le cas de Facebook. Les forces de l'ordre sont connues pour utiliser la technologie de reconnaissance faciale pour identifier les contrevenants dans les flux vidéo.

Voitures autonomes

Les voitures autonomes s'appuient fortement sur la vision par ordinateur pour l'analyse d'images en temps réel. Il aide les véhicules autonomes à donner un sens à leur environnement. Cependant, la technologie derrière ces voitures en est encore à ses balbutiements et nécessite d'autres développements avant de pouvoir être déployée en toute confiance sur des routes encombrées de trafic.

Les véhicules autonomes sont pratiquement impossibles sans vision par ordinateur. Cette technologie aide les véhicules autonomes à traiter les données visuelles en temps réel. Un exemple de son application est la création de cartes 3D. Parallèlement à l'identification et à la classification des objets, la vision par ordinateur peut aider à créer des cartes 3D pour donner aux véhicules une idée de l'environnement.

La détection des véhicules et des lignes de voie sont deux autres cas d'utilisation importants. Ensuite, il y a la détection d'espace libre, qui est assez célèbre dans le domaine des voitures autonomes. Comme son nom l'indique, il est utilisé pour déterminer l'espace libre d'obstacles autour du véhicule. La détection d'espace libre est utile lorsque le véhicule autonome s'approche d'un véhicule lent et doit changer de voie.

L'imagerie médicale

La vision par ordinateur est utilisée dans le secteur de la santé pour établir des diagnostics plus rapides et plus précis et surveiller la progression des maladies. Grâce à la reconnaissance des formes, les médecins peuvent détecter les premiers symptômes de maladies comme le cancer, qui peuvent ne pas être visibles à l'œil nu.

L'imagerie médicale est une autre application critique avec une pléthore d'avantages. L'analyse d'imagerie médicale réduit le temps nécessaire aux professionnels de la santé pour analyser les images. L'endoscopie, la radiographie aux rayons X, l'échographie et l'imagerie par résonance magnétique (IRM) font partie des disciplines d'imagerie médicale qui utilisent la vision par ordinateur.

En associant les CNN à l'imagerie médicale, les professionnels de la santé peuvent observer les organes internes, détecter les anomalies et comprendre la cause et l'impact de maladies spécifiques. Il aide également les médecins à suivre l'évolution des maladies et l'évolution des traitements.

Modération du contenu

Les réseaux de médias sociaux comme Facebook doivent examiner des millions de nouveaux messages chaque jour. Il n'est pas pratique d'avoir une équipe de modération de contenu qui passe en revue chaque image ou vidéo publiée, et donc, des systèmes de vision par ordinateur sont utilisés pour automatiser le processus.

350 millions

des photos sont téléchargées chaque jour sur Facebook.

Source : Bilan social

La vision par ordinateur peut aider ces plateformes de médias sociaux à analyser le contenu téléchargé et à signaler ceux contenant du contenu interdit. Les entreprises peuvent également utiliser des algorithmes d'apprentissage en profondeur pour l'analyse de texte afin d'identifier et de bloquer le contenu offensant.

Surveillance

Les flux vidéo de surveillance sont une forme solide de preuve. Ils peuvent aider à découvrir les contrevenants et également aider les professionnels de la sécurité à agir avant que des problèmes mineurs ne deviennent catastrophiques.

Il est pratiquement impossible pour les humains de garder un œil sur les images de surveillance provenant de plusieurs sources. Mais avec la vision par ordinateur, cette tâche est simplifiée. Les systèmes de surveillance alimentés par CV peuvent scanner des images en direct et détecter les personnes ayant un comportement suspect.

La reconnaissance faciale peut être utilisée pour identifier les criminels recherchés et ainsi prévenir les crimes. La technologie de reconnaissance d'images peut être utilisée pour détecter les personnes transportant des objets dangereux dans des zones surpeuplées. Le même est également utilisé pour déterminer le nombre de places de stationnement gratuites disponibles dans les centres commerciaux.

Les défis de la vision par ordinateur

Aider les ordinateurs à voir est plus difficile que nous ne le pensions.

Marvin Minsky était convaincu que la vision par ordinateur pouvait être résolue en connectant une caméra à un ordinateur. Même après des décennies de recherche, nous sommes loin de résoudre le problème. Pour les humains, la vision est si facile. C'est la raison pour laquelle la vision par ordinateur était considérée comme un problème trivialement simple et devait être résolue en un été.

Nos connaissances sont limitées

L'une des raisons pour lesquelles nous ne sommes pas en mesure de résoudre complètement le problème de la vision par ordinateur est notre connaissance limitée de nous-mêmes. Nous n'avons pas une compréhension complète du fonctionnement du système visuel humain. Bien sûr, des progrès rapides sont réalisés dans l'étude de la vision biologique, mais il reste encore un long chemin à parcourir.

Le monde visuel est complexe

Un problème difficile dans le domaine du CV est la complexité naturelle du monde visuel. Un objet peut être vu sous n'importe quel angle, dans n'importe quelles conditions d'éclairage et à des distances variables. Le système optique humain est normalement capable de voir et de comprendre des objets dans toutes ces variations infinies, mais la capacité des machines est encore assez limitée.

Une autre limite est le manque de bon sens. Même après des années de recherche, nous n'avons pas encore recréé le bon sens dans les systèmes d'IA. Les humains peuvent appliquer leur bon sens et leurs connaissances de base sur des objets spécifiques pour leur donner un sens. Cela nous permet également de comprendre facilement la relation entre les différentes entités d'une image.

Les humains sont doués pour les conjectures, du moins par rapport aux ordinateurs. Il est plus facile pour nous de prendre une décision pas si mauvaise, même si nous n'avons jamais été confrontés à un problème spécifique auparavant. Mais il n'en va pas de même pour les machines. S'ils rencontrent une situation qui ne ressemble pas à leurs exemples de formation, ils sont enclins à agir de manière irrationnelle.

Les algorithmes de vision par ordinateur s'améliorent considérablement si vous les entraînez avec de nouveaux ensembles de données visuelles. Mais à la base, ils essaient de faire correspondre les modèles de pixels. Autrement dit, mis à part la connaissance des pixels, ils ne comprennent pas exactement ce qui se passe dans les images. Mais il est fascinant de penser aux merveilles que font les systèmes alimentés par CV dans les voitures autonomes.

Le CV est lié au matériel

En vision par ordinateur, la latence est mauvaise.

Dans les applications du monde réel comme les voitures autonomes, le traitement et l'analyse des images doivent se produire presque instantanément. Par exemple, si un véhicule autonome roulant à 30 mph détecte un obstacle à une centaine de mètres, il n'a que quelques secondes pour s'arrêter ou tourner en toute sécurité.

Pour que la voiture agisse à temps, le système d'IA devra comprendre l'environnement et prendre des décisions en quelques millisecondes. Étant donné que les systèmes de vision par ordinateur dépendent fortement de composants matériels tels que la caméra, un retard ne serait-ce que d'une fraction de seconde dans la transmission ou le calcul des données peut provoquer des accidents catastrophiques.

L'IA étroite ne suffit pas

Certains chercheurs en IA estiment qu'une vision par ordinateur 20/20 ne peut être atteinte que si nous déverrouillons l'intelligence générale artificielle (IAG). C'est parce que la conscience semble jouer un rôle critique dans le système visuel humain. Tout comme ce que nous voyons et observons, nous imaginons. Notre imagination augmente les visuels que nous voyons et leur apporte une meilleure signification.

Aussi, l'intelligence visuelle n'est pas indissociable de l'intelligence. La capacité de traiter des pensées complexes a complété notre capacité à voir et à comprendre notre environnement.

Selon de nombreux chercheurs, apprendre à partir de millions d'images ou de flux vidéo téléchargés sur Internet n'aiderait pas beaucoup à atteindre une véritable vision par ordinateur. Au lieu de cela, l'entité IA devra en faire l'expérience comme des humains. Autrement dit,   L'IA étroite, le niveau d'intelligence artificielle dont nous disposons actuellement, n'est pas suffisante.

Le délai dans lequel nous atteindrons l'intelligence générale est encore discutable. Certains pensent que l'AGI peut être atteint en quelques décennies. D'autres suggèrent que c'est une chose du siècle prochain. Mais la majorité des chercheurs pensent que l'IAG est inaccessible et n'existera que dans le genre science-fiction.

Réalisable ou non, il existe de nombreuses autres façons d'essayer de débloquer une véritable vision par ordinateur. Alimenter des données de qualité et diversifiées est une façon de le faire. Cela garantira que les systèmes reposant sur la technologie de vision par ordinateur évitent les biais.

Trouver de meilleurs moyens d'amplifier les forces des réseaux de neurones artificiels, créer de puissants GPU et d'autres composants matériels nécessaires, et comprendre le système visuel humain sont quelques-uns des moyens d'avancer vers une véritable vision par ordinateur.

Offrir la vision aux machines

Les taux d'erreur des modèles de reconnaissance d'images chutent considérablement. Nous avons parcouru un long chemin depuis la simple détection des lettres imprimées jusqu'à l'identification précise des visages humains. Mais il reste un long chemin à parcourir et de nombreux nouveaux jalons à conquérir. La réalisation d'une véritable vision par ordinateur sera très probablement l'une des clés de la création de robots aussi sophistiqués et intelligents que les humains.

Si un processus peut être exécuté numériquement, l'apprentissage automatique finira par en faire partie. Si vous n'êtes pas entièrement convaincu, voici 51 statistiques d'apprentissage automatique qui suggèrent que la même technologie prend d'assaut presque toutes les industries.