Computer Vision: Wie Maschinen die visuelle Welt interpretieren

Veröffentlicht: 2021-05-05

Computer Vision ist der Bereich der künstlichen Intelligenz, der Maschinen das „Sehen“ ermöglicht.

Menschen haben die Gabe des Sehens, und das Organ, das dies ermöglicht, ist komplex. Obwohl es mit dem Fernsehen von Adlern oder den Augen eines Schmeißfalters, der im UV-Spektrum sehen kann, nicht zu vergleichen ist, leistet es dennoch hervorragende Arbeit.

Ein Teil des Sehens besteht darin, zu verstehen, was man sieht. Andernfalls empfängt es nur das Licht, das von Objekten vor Ihnen reflektiert wird. Das passiert, wenn Sie ein Paar Augen haben, aber nicht den visuellen Kortex im Hinterhauptslappen (der Teil des Gehirns, der für die visuelle Verarbeitung verantwortlich ist).

Für Computer sind Kameras ihre Augen. Und Computer Vision fungiert als Okzipitallappen und verarbeitet Tausende von Pixeln auf Bildern. Kurz gesagt, Computer Vision versetzt Maschinen in die Lage, zu verstehen, was sie sehen.

Computer Vision ist entscheidend für mehrere technologische Innovationen, darunter selbstfahrende Autos, Gesichtserkennung und Augmented Reality. Die zunehmende Menge an Bilddaten, die wir generieren, ist ein Grund, warum dieser Bereich der   künstliche Intelligenz   wächst exponentiell. Diese Erhöhung erleichtert es Data Scientists auch, Algorithmen zu trainieren.

Einfach ausgedrückt bestehen die beiden Hauptaufgaben der Computer Vision darin, die Objekte eines Bildes zu identifizieren und zu verstehen, was sie als Ganzes bedeuten.

Für den Menschen ist die virtuelle Wahrnehmung, ein Produkt von Millionen Jahren Evolution, eine Selbstverständlichkeit. Ein 5-Jähriger könnte die auf einem Tisch platzierten Gegenstände leicht benennen und verstehen, dass die gesamte Einrichtung ein Esstisch ist. Für Maschinen eine Herkulesaufgabe, die Computer Vision zu lösen versucht.

48,6 Milliarden Dollar

wird der Wert des Computer-Vision-Marktes bis 2022 geschätzt.

Quelle: BitRefine

Künstliche allgemeine Intelligenz wäre, wenn überhaupt möglich, ohne Computer Vision nicht realisierbar. Das liegt daran, dass die genaue Identifizierung von und Reaktion auf Objekte um uns herum eine der bemerkenswerten Eigenschaften unserer Intelligenz ist. Mit anderen Worten, um Maschinen das Denken beizubringen, muss man ihnen die Fähigkeit zum Sehen geben.

Zusammen mit dem exponentiellen Wachstum der Anzahl verfügbarer digitaler Fotos und Videos tragen auch Fortschritte in den Bereichen Deep Learning und künstliche neuronale Netze zum aktuellen Ruhm des Computersehens bei.

Eine kurze Geschichte der Computer Vision

Die ersten Experimente im Bereich Computer Vision begannen in den 1950er Jahren mit Hilfe einiger der frühen Formen künstlicher neuronaler Netze. Sie wurden verwendet, um die Kanten von Objekten zu erkennen und konnten einfache Objekte wie Kreise und Quadrate sortieren.

Computer Vision wurde als Sprungbrett in Richtung künstlicher Intelligenz angesehen, da die Nachahmung des menschlichen visuellen Systems eine Voraussetzung für das Erreichen menschlicher Intelligenz ist. Daher waren in den 1960er Jahren Universitäten, die KI erforschten, auch an Computer Vision beteiligt.

1963 beschrieb Larry Roberts, der als Gründervater des Internets gilt, den Prozess der Ableitung von 3D-Informationen über feste Objekte aus 2D-Fotos. Seine Dissertation „Machine Perception of Three-Dimensional Solids“ gilt bis heute als eine der grundlegenden Arbeiten auf dem Gebiet des Computer Vision.

Später im Jahr 1966 glaubte Marvin Minsky, einer der Gründerväter der KI, dass Computer Vision mit einem Sommerprojekt erreicht werden könnte. Aber wir alle wissen, was passiert ist. Bis in die 1970er Jahre hinein wurde die Computer-Vision-Technologie für kommerzielle Anwendungen wie die optische Zeichenerkennung (OCR) verwendet, die handgeschriebenen Text oder gedruckte Zeichen in Bildern erkennen kann.

Das Internet, das in den 1990er Jahren zum Mainstream wurde, spielte eine entscheidende Rolle bei der rasanten Entwicklung der Computer Vision. Große Bildsätze wurden leicht zugänglich, was das Training von Algorithmen erleichterte.

Die billige und reichlich vorhandene Rechenleistung trug ebenfalls zur Leichtigkeit des Trainierens von Algorithmen bei. Dies war auch der Punkt, an dem die Wechselwirkungen zwischen Computergrafik und Computer Vision zunahmen.

Hier sind einige bemerkenswerte Meilensteine ​​in der Computer Vision, die sie zu der robusten Technologie gemacht haben, die sie heute ist.

1959: Der allererste digitale Bildscanner wurde erfunden, der Bilder in Zahlenraster umwandelte.

1963: Larry Roberts beschrieb den Prozess der Ableitung von 3D-Informationen fester Objekte aus 2D-Bildern.

1966: Marvin Minsky wies einen Doktoranden an, eine Kamera an einen Computer anzuschließen und zu beschreiben, was er sah.

1980: Kunihiko Fukushima gründet die   Neokognitron. Es gilt als Vorläufer des modernen Convolutional Neural Network (CNN).

2001: Paul Viola und Michael Jones, zwei Forscher am MIT, haben das erste Gesichtserkennungs-Framework entwickelt, das in Echtzeit funktioniert.

2009: Google startete das Projekt für selbstfahrende Autos.

2010: Google veröffentlicht Google Goggles, eine Bilderkennungs-App, die für Suchen auf der Grundlage von Bildern nützlich ist, die von Mobilgeräten aufgenommen wurden. Im selben Jahr begann Facebook mit der Gesichtserkennung, um Personen auf Fotos effektiv zu markieren.

2011: Gesichtserkennungstechnologie wurde verwendet, um dies zu bestätigen   Identität von Osama Bin Laden   nachdem er getötet wurde.

2012: Google Brain erstellte ein neuronales Netzwerk aus 16.000 Computerprozessoren, das mit Hilfe eines Deep-Learning-Algorithmus Bilder von Katzen erkennen konnte. Im selben Jahr erreichte AlexNet, ein Convolutional Neural Network, bei der ImageNet 2012 Challenge einen Top-5-Fehler von 15,3 %.

2014: Tesla führt Autopilot in seinen Elektroautos Model S ein. Das selbstfahrende System funktionierte nicht nur offline, sondern parkte auch präzise.

2015: Google gestartet   TensorFlow, eine Open-Source- und kostenlose Softwarebibliothek für maschinelles Lernen. Im selben Jahr führte Google FaceNet zur Gesichtserkennung ein.

2016: Pokemon GO, das berühmte AR-basierte Handyspiel, wurde eingeführt.

2017: Apple veröffentlicht das iPhone X mit der Gesichtserkennungsfunktion.

2019: Der UK HighCourt erlaubte den Einsatz automatisierter Gesichtserkennungstechnologie zur Suche nach Personen in Menschenmengen.

Wie funktioniert Computer Vision?

Computer Vision fängt klein an und endet groß.

Es folgt einer mehrschichtigen Verarbeitungstechnik, bei der es mit der Identifizierung und Analyse von Merkmalen auf niedriger Ebene wie Pixel und Farben beginnt. Allmählich arbeitet es sich nach oben, um Merkmale auf höherer Ebene wie Linien und Objekte zu analysieren.

Angenommen, Sie sehen ein Bild von Menschen, die rennen. Auch wenn es sich um ein Standbild handelt, können Sie in den meisten Fällen den Kontext verstehen; Menschen laufen vor etwas weg, rennen auf etwas zu oder laufen gemächlich. Dies ist ein typisches Beispiel dafür, wie Parallelverarbeitung in Echtzeit erfolgt.

Es ist einfach für uns, die Emotionen und den Kontext von Bildern zu verstehen. Computer lernen immer noch das Handwerk, aber ihr Tempo ist beeindruckend für nicht-biologische Einheiten.

Haben Sie sich jemals gefragt, wie Computer genaue Daten für so etwas wie Wettervorhersagen liefern können? Hier arbeitet Computer Vision in Form von Parallel Processing, also dem gleichzeitigen Arbeiten mit mehreren komplexen Datenquellen.

Für Maschinen sind Bilder nur eine Ansammlung von Pixeln. Im Gegensatz zu Menschen können sie die semantische Bedeutung eines Bildes nicht verstehen und nur Pixel erkennen. Das Ziel von Computer Vision ist es, diese semantische Lücke zu schließen.

Wenn Lichtstrahlen auf die Netzhaut unserer Augen treffen, wandeln spezielle Zellen, sogenannte Fotorezeptoren, das Licht in elektrische Signale um. Diese elektrischen Signale werden dann über den Sehnerv an das Gehirn gesendet. Das Gehirn wandelt diese Signale dann in die Bilder um, die wir sehen.

Dies geht so lange, bis die elektrischen Signale, die das Gehirn erreichen, einfach erscheinen. Wie genau das Gehirn diese Signale verarbeitet und in Bilder umwandelt, ist noch nicht vollständig geklärt. Genauer gesagt ist das Gehirn eine Black Box; so ist Computervision.

Es gibt neuronale Netze und andere   maschinelles Lernen   Algorithmen, die versuchen, das menschliche Gehirn nachzuahmen . Sie machen Computer Vision möglich und helfen zu verstehen, worum es in den Bildern geht. Selbst bei Algorithmen wissen ML-Forscher nicht genau, wie sie funktionieren. Da ihre Ergebnisse jedoch quantifizierbar sind, können wir die Genauigkeit jedes Algorithmus beurteilen.

Computer Vision als Prozess ist erklärbar, genau wie das menschliche Sehen. Aber niemand ist sich ganz sicher, wie neuronale Netzwerke funktionieren, um Bilder zu verstehen, oder ob sie der Verarbeitung visueller Informationen auch nur annähernd ähneln.

Einfach gesagt dreht sich bei der Computer Vision alles um die Mustererkennung. Mithilfe von maschinellen Lerntechniken wie z   Beim unüberwachten Lernen werden Algorithmen darauf trainiert, Muster in visuellen Daten zu erkennen. Wenn Sie an die Anzahl der erforderlichen Bilder denken, sind es mindestens Millionen oder Tausende.

Angenommen, Sie möchten, dass der Algorithmus Hunde in Bildern identifiziert. Wenn Sie der Technik des unbeaufsichtigten Lernens folgen, müssen Sie keine Bilder als Hunde kennzeichnen. Stattdessen lernt die Maschine nach der Analyse von Tausenden oder Millionen von Bildern die spezifischen Eigenschaften von Hunden.

Kurz gesagt, ein Computer kann die spezifischen Merkmale wahrnehmen, die ein Tier (oder einen Gegenstand) zu einem Hund machen. Es würde immer noch nicht wissen, dass das bestimmte Tier "Hund" heißt. Es verfügt jedoch über genügend Informationen und Erfahrung, um festzustellen, ob ein unbeschriftetes Bild einen Hund enthält.

Wenn Sie möchten, dass der Lernprozess schneller abläuft, können Sie sich dafür entscheiden   überwachtes Lernen. Beim überwachten Lernen werden die Bilder beschriftet, was den Algorithmen die Arbeit erleichtert.

Untersuchen von Bildern auf Pixelebene

Wenn von Algorithmen gesprochen wird, die Bilder analysieren, untersuchen sie nicht wie Menschen das Bild als Ganzes. Stattdessen betrachten sie einzelne Pixel, die die kleinsten adressierbaren Elemente eines Rasterbilds sind.

Betrachten wir der Einfachheit halber ein Graustufenbild. Die Helligkeit jedes Pixels, Pixelwerte genannt, wird durch eine 8-Bit-Ganzzahl mit einem Bereich möglicher Werte von 0 bis 255 dargestellt. Null wird als Schwarz und 255 als Weiß betrachtet. Wenn wir ein farbiges Bild studieren, werden die Dinge komplizierter.

Wenn wir sagen, dass ein Algorithmus analysiert und lernt, lernt er tatsächlich diese Pixelwerte. Mit anderen Worten, ein Computer sieht und erkennt Bilder basierend auf solchen numerischen Werten. Das bedeutet auch, dass Algorithmen Muster in Bildern finden, indem sie ihre Zahlenwerte betrachten und Bilder auf ähnliche Weise vergleichen.

Kurz gesagt, für Maschinen ist das Verstehen eines Bildes ein mathematischer Prozess, der Arrays von ganzen Zahlen beinhaltet.

Dann gibt es Convolutional Neural Networks

Ein Convolutional Neural Network (CNN oder ConvNet) ist a   tiefes Lernen   Algorithmus, der Merkmale aus Bilddatensätzen extrahieren kann. Sie sind eine Kategorie neuronaler Netze und verfügen über beeindruckende Fähigkeiten zur Bilderkennung und -klassifizierung. Nahezu jeder Computer-Vision-Algorithmus verwendet Convolutional Neural Nets.

Obwohl CNNs bereits in den 1980er Jahren erfunden wurden, waren sie bis zur Einführung von Grafikprozessoren (GPUs) nicht wirklich realisierbar. GPUs können Convolutional Neural Nets und andere neuronale Netze erheblich beschleunigen. Im Jahr 2004 war die GPU-Implementierung von CNNs 20-mal schneller als eine äquivalente CPU-Implementierung.

Wie machen CNNs das?

ConvNets lernen aus Eingabebildern und passen ihre Parameter (Gewichte und Verzerrungen) an, um bessere Vorhersagen zu treffen. CNNs behandeln Bilder wie Matrizen und extrahieren daraus räumliche Informationen wie Kanten, Tiefe und Textur. ConvNets tun dies, indem sie verwenden   Faltungsschichten   und   Zusammenlegen.

Die Architektur eines CNN ist analog zum Konnektivitätsmuster von Neuronen in unserem Gehirn. CNNs wurden geschaffen, indem man sich von der Organisation des visuellen Kortex inspirieren ließ, der Region des Gehirns, die visuelle Informationen empfängt und verarbeitet.

Ein CNN besteht aus mehreren Schichten künstlicher Neuronen, den sogenannten Perzeptronen, die die mathematischen Gegenstücke zu den biologischen Neuronen unseres Gehirns sind. Perzeptrons ahmen auch grob die Funktionsweise ihrer biologischen Gegenstücke nach.

Ein konvolutionelles neuronales Netz umfasst eine Eingabeschicht , mehrere verborgene Schichten und eine Ausgabeschicht .

Die verborgenen Schichten enthalten:

  • Faltungsschichten
  • Schichten mit gleichgerichteter linearer Aktivierungsfunktion (ReLU).
  • Normalisierungsschichten
  • Pooling von Schichten
  • Vollständig verbundene Schichten

Hier ist eine einfache Erklärung, was sie tun.

Wenn ein CNN ein Bild verarbeitet, extrahiert jede seiner Schichten unterschiedliche Merkmale aus den Bildpixeln. Die erste Schicht ist für die Erkennung grundlegender Merkmale wie horizontaler und vertikaler Kanten verantwortlich.

Wenn Sie tiefer in das neuronale Netzwerk eindringen, beginnen die Schichten, komplexe Merkmale wie Formen und Ecken zu erkennen. Die letzten Schichten des Convolutional Neural Network sind in der Lage, bestimmte Merkmale wie Gesichter, Gebäude und Orte zu erkennen.

Die Ausgabeschicht des Convoluted Neural Net bietet eine Tabelle mit numerischen Informationen. Diese Tabelle stellt die Wahrscheinlichkeit dar, dass ein bestimmtes Objekt im Bild identifiziert wurde.

Beispiele für Computer-Vision-Aufgaben

Computer Vision ist ein Gebiet der Informatik und KI, das Computern das Sehen ermöglicht. Es gibt zahlreiche Methoden, mit denen Computer dieses Feld nutzen können. Diese Versuche, Objekte oder Aktivitäten in Bildern zu identifizieren, werden Computer-Vision-Aufgaben genannt.

Hier sind einige der häufigsten Computer Vision-Aufgaben.

  • Objekterkennung: Eine Technik zur Erkennung eines bestimmten Objekts in einem Bild. Seine fortgeschrittenen Versionen können mehrere Objekte in einem einzigen Bild identifizieren, z. B. Gebäude, Autos, Menschen, Ampeln und mehr in einem Bild einer belebten Straße.
  • Bildklassifizierung: Die Gruppierung von Bildern in Kategorien. Es kann auch als der Vorgang des Zuweisens von Labels zu Bildern bezeichnet werden.
  • Gesichtserkennung: Eine fortgeschrittene Form der Objekterkennung, die Menschen in Bildern identifizieren und Gesichter erkennen kann.
  • Bildsegmentierung: Die Aufteilung eines Bildes in mehrere Teile, um es separat zu untersuchen.
  • Mustererkennung: Ein Prozess zum Erkennen von Mustern und Regelmäßigkeiten in visuellen Daten.
  • Kantenerkennung: Ein Prozess zum Erkennen von Kanten eines Objekts, um die Bildbestandteile besser zu identifizieren.
  • Merkmalsabgleich: Eine Art der Mustererkennung, die Ähnlichkeiten in Bildern abgleicht , um sie zu klassifizieren.

Bilderkennungssoftware   Anwendungen können nur eine dieser Computer-Vision-Techniken verwenden. Fortgeschrittene Anwendungen wie selbstfahrende Autos werden mehrere Techniken gleichzeitig verwenden.

Computer-Vision-Anwendungen aus der realen Welt

Computer Vision ist bereits in viele der Produkte integriert, die wir heute verwenden. Facebook markiert Personen automatisch anhand des Lebenslaufs. Google Fotos verwendet es, um Bilder zu gruppieren, und Softwareanwendungen wie Adobe Lightroom verwenden es, um die Details von gezoomten Bildern zu verbessern. Es wird auch häufig zur Qualitätskontrolle in Fertigungsprozessen eingesetzt, die auf Automatisierung angewiesen sind.

Hier sind einige weitere reale Anwendungen von Computer Vision, auf die Sie vielleicht schon gestoßen sind.

Gesichtserkennung

Einer der besten Anwendungsfälle von Computer Vision ist der Bereich der Gesichtserkennung. Es erreichte 2017 mit Apples iPhone X-Modell den Mainstream und ist heute eine Standardfunktion in den meisten Smartphones.

Die Gesichtserkennungstechnologie wird bei mehreren Gelegenheiten als Authentifizierungsmerkmal verwendet. Andernfalls wird es verwendet, um die Person zu identifizieren, wie im Fall von Facebook. Es ist bekannt, dass Strafverfolgungsbehörden Gesichtserkennungstechnologie verwenden, um Gesetzesbrecher in Video-Feeds zu identifizieren.

Selbstfahrende Autos

Selbstfahrende Autos sind für die Echtzeit-Bildanalyse stark auf Computer Vision angewiesen. Es hilft autonomen Fahrzeugen, ihre Umgebung zu verstehen. Die Technologie hinter solchen Autos steckt jedoch noch in den Kinderschuhen und muss weiterentwickelt werden, bevor sie sicher auf verkehrsreichen Straßen eingesetzt werden kann.

Selbstfahrende Fahrzeuge sind ohne Computer Vision praktisch unmöglich. Diese Technologie hilft autonomen Fahrzeugen, visuelle Daten in Echtzeit zu verarbeiten. Ein Anwendungsbeispiel ist die Erstellung von 3D-Karten. Neben der Objektidentifikation und -klassifizierung kann Computer Vision dabei helfen, 3D-Karten zu erstellen, um Fahrzeugen ein Gefühl für die Umgebung zu geben.

Fahrzeug- und Spurlinienerkennung sind zwei weitere wichtige Anwendungsfälle. Dann gibt es noch die Freiraumerkennung, die im Bereich der selbstfahrenden Autos ziemlich berühmt ist. Wie der Name schon sagt, wird es verwendet, um den hindernisfreien Raum um das Fahrzeug herum zu bestimmen. Die Freiraumerkennung ist nützlich, wenn sich das autonome Fahrzeug einem langsam fahrenden Fahrzeug nähert und die Spur wechseln muss.

Medizinische Bildgebung

Computer Vision wird in der Gesundheitsbranche eingesetzt, um schnellere und genauere Diagnosen zu stellen und den Krankheitsverlauf zu überwachen. Mithilfe der Mustererkennung können Ärzte frühe Symptome von Krankheiten wie Krebs erkennen, die für das menschliche Auge möglicherweise nicht sichtbar sind.

Die medizinische Bildgebung ist eine weitere wichtige Anwendung mit einer Fülle von Vorteilen. Die Analyse medizinischer Bildgebung verkürzt die Zeit, die Mediziner für die Analyse von Bildern benötigen. Endoskopie, Röntgenradiographie, Ultraschall und Magnetresonanztomographie (MRT) sind einige der medizinischen Bildgebungsdisziplinen, die Computer Vision verwenden.

Durch die Kopplung von CNNs mit medizinischer Bildgebung können Mediziner innere Organe beobachten, Anomalien erkennen und die Ursache und Auswirkung bestimmter Krankheiten verstehen. Es hilft Ärzten auch, die Entwicklung von Krankheiten und den Fortschritt von Behandlungen zu überwachen.

Inhaltsmoderation

Soziale Netzwerke wie Facebook müssen täglich Millionen neuer Posts sichten. Es ist unpraktisch, ein Content-Moderationsteam zu haben, das jedes gepostete Bild oder Video durchgeht, und daher werden Computer-Vision-Systeme zur Automatisierung des Prozesses verwendet.

350 Millionen

Fotos werden jeden Tag auf Facebook hochgeladen.

Quelle: Sozialbericht

Computer Vision kann solchen Social-Media-Plattformen helfen, hochgeladene Inhalte zu analysieren und diejenigen mit verbotenen Inhalten zu kennzeichnen. Unternehmen können auch Deep-Learning-Algorithmen zur Textanalyse verwenden, um anstößige Inhalte zu identifizieren und zu blockieren.

Überwachung

Überwachungsvideo-Feeds sind ein solides Beweismittel. Sie können dabei helfen, Gesetzesbrecher aufzudecken und Sicherheitsexperten dabei helfen, zu handeln, bevor geringfügige Bedenken katastrophal werden.

Es ist für Menschen praktisch unmöglich, Überwachungsaufnahmen aus mehreren Quellen im Auge zu behalten. Aber mit Computer Vision wird diese Aufgabe vereinfacht. CV-betriebene Überwachungssysteme können Live-Aufnahmen scannen und Personen mit verdächtigem Verhalten erkennen.

Gesichtserkennung kann genutzt werden, um gesuchte Kriminelle zu identifizieren und dadurch Straftaten zu verhindern. Bilderkennungstechnologie kann eingesetzt werden, um Personen zu erkennen, die gefährliche Gegenstände in überfüllten Bereichen tragen. Das Gleiche wird auch verwendet, um die Anzahl der freien Parkplätze in Einkaufszentren zu ermitteln.

Herausforderungen in der Computer Vision

Computern beim Sehen zu helfen, ist schwieriger, als wir dachten.

Marvin Minsky war zuversichtlich, dass Computer Vision gelöst werden könnte, indem man eine Kamera an einen Computer anschließt. Auch nach Jahrzehnten der Forschung sind wir noch lange nicht an der Lösung des Problems. Für den Menschen ist das Sehen so mühelos. Aus diesem Grund wurde Computer Vision als ein trivial einfaches Problem angesehen, das in einem Sommer gelöst werden sollte.

Unser Wissen ist begrenzt

Ein Grund, warum wir das Computer-Vision-Problem nicht vollständig lösen können, ist unser begrenztes Wissen über uns selbst. Wir haben kein vollständiges Verständnis davon, wie das menschliche visuelle System funktioniert. Natürlich werden beim Studium des biologischen Sehens schnelle Fortschritte gemacht, aber es ist noch ein langer Weg zu gehen.

Die visuelle Welt ist komplex

Ein herausforderndes Problem im Bereich CV ist die natürliche Komplexität der visuellen Welt. Ein Objekt kann aus jedem Winkel, unter allen Lichtverhältnissen und aus unterschiedlichen Entfernungen betrachtet werden. Das menschliche optische System ist normalerweise in der Lage, Objekte in all diesen unendlichen Variationen zu sehen und zu verstehen, aber die Fähigkeiten von Maschinen sind immer noch ziemlich begrenzt.

Eine weitere Einschränkung ist der Mangel an gesundem Menschenverstand. Selbst nach Jahren der Forschung müssen wir noch den gesunden Menschenverstand in KI-Systemen rekonstruieren. Menschen können gesunden Menschenverstand und Hintergrundwissen über bestimmte Objekte anwenden, um sie zu verstehen. Dies ermöglicht es uns auch, die Beziehung zwischen verschiedenen Entitäten eines Bildes leicht zu verstehen.

Menschen können gut raten, zumindest im Vergleich zu Computern. Es fällt uns leichter, eine nicht so schlechte Entscheidung zu treffen, auch wenn wir noch nie mit einem bestimmten Problem konfrontiert waren. Aber das gilt nicht für Maschinen. Wenn sie auf eine Situation stoßen, die ihren Trainingsbeispielen nicht ähnelt, neigen sie dazu, irrational zu handeln.

Computer-Vision-Algorithmen werden deutlich besser, wenn Sie sie mit neueren visuellen Datensätzen trainieren. Aber im Kern versuchen sie, Pixelmuster abzugleichen. Mit anderen Worten, abgesehen von der Kenntnis der Pixel verstehen sie nicht genau, was in den Bildern passiert. Aber es ist faszinierend, an die Wunder zu denken, die CV-betriebene Systeme in selbstfahrenden Autos vollbringen.

CV ist hardwaregebunden

Beim Computersehen ist Latenz das Böse.

In realen Anwendungen wie selbstfahrenden Autos müssen Bildverarbeitung und -analyse nahezu augenblicklich erfolgen. Erkennt beispielsweise ein autonom fahrendes Fahrzeug mit 50 km/h ein hundert Meter entferntes Hindernis, bleiben ihm nur wenige Sekunden, um sicher anzuhalten oder abzubiegen.

Damit das Auto rechtzeitig handeln kann, muss das KI-System die Umgebung verstehen und in Millisekunden Entscheidungen treffen. Da Computer-Vision-Systeme stark von Hardwarekomponenten wie der Kamera abhängig sind, kann eine Verzögerung von nur einem Bruchteil einer Sekunde bei der Datenübertragung oder Berechnung katastrophale Unfälle verursachen.

Enge KI ist nicht genug

Einige KI-Forscher glauben, dass eine 20/20 -Computervision nur erreicht werden kann, wenn wir künstliche allgemeine Intelligenz (AGI) freischalten. Das liegt daran, dass das Bewusstsein eine entscheidende Rolle im menschlichen visuellen System zu spielen scheint. Genauso wie wir sehen und beobachten, stellen wir uns vor. Unsere Vorstellungskraft erweitert die visuellen Elemente, die wir sehen, und verleiht ihnen eine bessere Bedeutung.

Außerdem ist visuelle Intelligenz nicht untrennbar mit Intelligenz verbunden. Die Fähigkeit, komplexe Gedanken zu verarbeiten, ergänzte unsere Fähigkeit, unsere Umgebung zu sehen und zu verstehen.

Laut vielen Forschern würde das Lernen aus Millionen von Bildern oder Video-Feeds, die aus dem Internet heruntergeladen wurden, nicht viel dazu beitragen, echtes Computersehen zu erreichen. Stattdessen muss die KI-Entität es wie Menschen erleben. Mit anderen Worten,   enge KI, das Niveau der künstlichen Intelligenz, das wir derzeit haben, reicht nicht aus.

Der Zeitrahmen, innerhalb dessen wir allgemeine Intelligenz erreichen werden, ist noch umstritten. Einige glauben, dass AGI in einigen Jahrzehnten erreicht werden kann. Andere schlagen vor, dass es eine Sache des nächsten Jahrhunderts ist. Aber die Mehrheit der Forscher denkt, dass AGI unerreichbar ist und nur im Science-Fiction-Genre existieren wird.

Erreichbar oder nicht, es gibt zahlreiche andere Möglichkeiten, wie wir versuchen können, echte Computer Vision freizuschalten. Die Bereitstellung von qualitativ hochwertigen und vielfältigen Daten ist eine Möglichkeit, dies zu tun. Dadurch wird sichergestellt, dass Systeme, die sich auf Computer-Vision-Technologie verlassen, Vorurteile vermeiden.

Bessere Wege zu finden, um die Stärken künstlicher neuronaler Netze zu vergrößern, leistungsstarke GPUs und andere erforderliche Hardwarekomponenten zu entwickeln und das menschliche visuelle System zu verstehen, sind einige Möglichkeiten, um zu echtem Computersehen zu gelangen.

Vision an Maschinen verschenken

Die Fehlerquoten von Bilderkennungsmodellen sinken dramatisch. Wir haben einen langen Weg zurückgelegt, von der einfachen Erkennung gedruckter Buchstaben bis hin zur präzisen Identifizierung menschlicher Gesichter. Aber es gibt noch einen langen Weg zu gehen und viele neue Meilensteine ​​zu erobern. Das Erreichen echter Computervision wird höchstwahrscheinlich einer der Schlüssel zur Entwicklung von Robotern sein, die so hoch entwickelt und intelligent sind wie Menschen.

Wenn ein Prozess digital ausgeführt werden kann, wird maschinelles Lernen schließlich ein Teil davon sein. Wenn Sie nicht ganz überzeugt sind, hier sind 51 Statistiken zum maschinellen Lernen, die darauf hindeuten, dass die gleiche Technologie fast alle Branchen im Sturm erobert.