Bilgisayarla Görme: Makineler Görsel Dünyayı Nasıl Yorumluyor?
Yayınlanan: 2021-05-05Bilgisayarla görme, makinelerin "görmesini" sağlayan yapay zeka alanıdır.
İnsanlarda görme yeteneği vardır ve bunu mümkün kılan organ karmaşıktır. UV spektrumunda görebilen kartalların uzun mesafeli görüşü veya bir yaban mersini kelebeğinin gözleri ile karşılaştırılamaz olsa da, yine de mükemmel bir iş çıkarıyor.
Görmenin bir kısmı, gördüğünüzü anlamaktır. Aksi takdirde, sadece önünüzdeki nesnelerden yansıyan ışığı alıyor. Oksipital lobun (beynin görsel işlemden sorumlu kısmı) içindeki görsel korteks değil, bir çift gözünüz varsa olan budur.
Bilgisayarlar için kameralar onların gözleridir. Bilgisayar görüşü, oksipital lob görevi görür ve görüntülerdeki binlerce pikseli işler. Kısacası, bilgisayarla görme, makinelerin gördüklerini anlamalarını sağlar.
Bilgisayarla görme nedir?
Bilgisayarla görme (CV), bilgisayarların dijital görüntülerin içeriğini görmesini ve anlamasını sağlayan teknikler geliştirmeye çalışan bir yapay zeka alanıdır. Başka bir deyişle, bilgisayarla görme, makineleri çevrelerindeki dünyayı görmeleri ve anlamaları için eğitmeye çalışır.
Bilgisayarla görme, sürücüsüz arabalar, yüz tanıma ve artırılmış gerçeklik gibi birçok teknolojik yenilik için kritik öneme sahip. Ürettiğimiz görüntü verilerinin artan miktarı, bu alanın neden bir nedenidir. yapay zeka katlanarak büyüyor. Bu artış aynı zamanda veri bilimcilerin algoritmaları eğitmesini de kolaylaştırıyor.
Basitçe söylemek gerekirse, bilgisayarla görmenin iki ana görevi, bir görüntünün nesnelerini tanımlamak ve bir bütün olarak ne anlama geldiklerini anlamaktır.
İnsanlar, milyonlarca yıllık evrimin bir ürünü olan sanal algıyı sorgusuz sualsiz kabul ederler. 5 yaşındaki bir çocuk, masanın üzerine konan eşyaların isimlerini rahatlıkla söyleyebilir ve tüm kurulumun bir yemek masası olduğunu anlayabilir. Makineler için bu, Herkülvari bir görevdir ve bilgisayarla görmenin çözmeye çalıştığı da budur.
48,6 milyar dolar
2022 yılına kadar bilgisayarla görme pazarının değeri olacağı tahmin ediliyor.
Kaynak: BitRefine
Yapay genel zeka, eğer mümkünse, bilgisayar görüşü olmadan mümkün olmazdı. Bunun nedeni, etrafımızdaki nesneleri doğru bir şekilde tanımlamak ve bunlara tepki vermek, zekamızın dikkate değer özelliklerinden biridir. Başka bir deyişle, makinelere düşünmeyi öğretmek için onlara görme yeteneği vermelisiniz.
Mevcut dijital fotoğraf ve videoların sayısındaki üstel artışın yanı sıra, derin öğrenme ve yapay sinir ağlarındaki gelişmeler de bilgisayarla görmenin mevcut görkemine katkıda bulunuyor.
Bilgisayarla görmenin kısa bir tarihi
Bilgisayarla görme alanındaki ilk deneyler, 1950'lerde yapay sinir ağlarının bazı erken biçimlerinin yardımıyla başladı. Nesnelerin kenarlarını algılamak için kullanıldılar ve daire ve kare gibi basit nesneleri sıralayabilirlerdi.
İnsan görsel sistemini taklit etmek, insan zekasını elde etmek için bir ön koşul olduğundan, bilgisayarla görme, yapay zekaya doğru bir basamak taşı olarak görülüyordu. Bu nedenle 1960'larda yapay zekayı keşfeden üniversiteler bilgisayarla görüye de dahil oldular.
1963 yılında, internetin kurucu babası olarak kabul edilen Larry Roberts, 2D fotoğraflardan katı nesneler hakkında 3D bilgi türetme sürecini anlattı. "Üç Boyutlu Katıların Makine Algısı" adlı tezi hala bilgisayarlı görme alanının temel çalışmalarından biri olarak kabul edilmektedir.
Daha sonra 1966'da, AI'nın kurucu babalarından biri olan Marvin Minsky, bir yaz projesiyle bilgisayar vizyonunun elde edilebileceğine inanıyordu. Ama ne olduğunu hepimiz biliyoruz. 1970'lere kadar hızlı bir şekilde, el yazısı metinleri veya görüntülerdeki basılı karakterleri tanımlayabilen optik karakter tanıma (OCR) gibi ticari uygulamalar için bilgisayarlı görme teknolojisi kullanıldı.
1990'larda ana akım haline gelen internet, bilgisayarla görmenin hızlı gelişmesinde çok önemli bir rol oynadı. Büyük görüntü kümeleri kolayca erişilebilir hale geldi ve bu da algoritmaların eğitimini kolaylaştırdı.
Ucuz ve bol bilgi işlem gücü, eğitim algoritmalarının kolaylığına da eklendi. Bu aynı zamanda bilgisayar grafikleri ve bilgisayarla görme arasındaki etkileşimlerin arttığı noktaydı.
Bilgisayarla görme alanında, onu bugünkü sağlam teknoloji haline getiren bazı önemli kilometre taşlarını burada bulabilirsiniz.
1959: Görüntüleri sayı ızgaralarına dönüştüren ilk dijital görüntü tarayıcı icat edildi.
1963: Larry Roberts, 2B resimlerden katı cisimlerin 3B bilgilerini elde etme sürecini tanımladı.
1966: Marvin Minsky, bir yüksek lisans öğrencisine bilgisayara bir kamera bağlaması ve gördüklerini anlatması talimatını verdi.
1980: Kunihiko Fukushima, neocognitron. Modern evrişimli sinir ağının (CNN) öncüsü olarak kabul edilir.
2001: MIT'de iki araştırmacı olan Paul Viola ve Michael Jones, gerçek zamanlı olarak çalışan ilk yüz algılama çerçevesini yarattı.
2009: Google kendi kendini süren araba projesini başlattı.
2010: Google, mobil cihazlar tarafından çekilen resimlere dayalı aramalar için kullanışlı bir resim tanıma uygulaması olan Google Goggles'ı piyasaya sürdü. Aynı yıl Facebook, insanları fotoğraflarda etkili bir şekilde etiketlemek için yüz tanımayı kullanmaya başladı.
2011: Yüz tanıma teknolojisini doğrulamak için kullanıldı. Usame Bin Ladin'in kimliği öldürüldükten sonra.
2012: Google Brain, derin öğrenme algoritması yardımıyla kedi resimlerini tanıyabilen 16.000 bilgisayar işlemcisinden oluşan bir sinir ağı oluşturdu. Aynı yıl, evrişimli bir sinir ağı olan AlexNet, ImageNet 2012 Challenge'da %15,3'lük bir ilk 5 hataya ulaştı.
2014: Tesla, Model S elektrikli arabalarında Autopilot'u tanıttı. Kendi kendine sürüş sistemi yalnızca çevrimdışı çalışmakla kalmadı, aynı zamanda hassas bir şekilde park etti.
2015: Google kullanıma sunuldu Makine öğrenimi için açık kaynaklı ve ücretsiz bir yazılım kütüphanesi olan TensorFlow. Aynı yıl Google, yüz tanıma için FaceNet'i tanıttı.
2016: Ünlü AR tabanlı mobil oyun olan Pokemon GO tanıtıldı.
2017: Apple, yüz tanıma özelliğine sahip iPhone X'i piyasaya sürdü.
2019: Birleşik Krallık Yüksek Mahkemesi, kalabalıktaki insanları aramak için otomatik yüz tanıma teknolojisinin kullanılmasına izin verdi.
Bilgisayarla görme nasıl çalışır?
Bilgisayarla görme küçük başlar ve büyük biter.
Pikseller ve renkler gibi düşük seviyeli özellikleri tanımlamak ve analiz etmekle başladığı katmanlı bir işleme tekniğini takip eder. Yavaş yavaş, çizgiler ve nesneler gibi daha üst düzey özellikleri analiz etmek için çalışır.
Çalışan insanların bir görüntüsünü gördüğünüzü varsayalım. Durağan bir görüntü olmasına rağmen, çoğu durumda bağlamı anlayabileceksiniz; insanlar bir şeyden kaçıyor, bir şeye doğru koşuyor ya da ağır ağır koşuyor. Bu, paralel işleme hesaplamanın gerçek zamanlı olarak nasıl gerçekleştiğinin tipik bir örneğidir.
Görüntülerin duygusunu ve bağlamını anlamak bizim için çok basit. Bilgisayarlar hala ticareti öğreniyor, ancak hızları biyolojik olmayan varlıklar için etkileyici.
Bilgisayarların hava durumu tahmini gibi bir şey için nasıl doğru veriler sağlayabildiğini hiç merak ettiniz mi? Bilgisayarlı görmenin paralel işleme biçiminde çalıştığı yer burasıdır, yani aynı anda birden çok karmaşık veri kaynağıyla çalışır.
Makineler için görüntüler yalnızca bir piksel topluluğudur. İnsanlardan farklı olarak, bir görüntünün anlamsal anlamını anlayamazlar ve yalnızca pikselleri algılayabilirler. Bilgisayarla görmenin amacı, bu anlamsal boşluğu kapatmaktır .
Işık ışınları gözümüzün retinasına çarptığında, fotoreseptör adı verilen özel hücreler ışığı elektrik sinyallerine dönüştürür. Bu elektrik sinyalleri daha sonra beyine optik sinir yoluyla gönderilir. Beyin daha sonra bu sinyalleri gördüğümüz görüntülere dönüştürür.
Bu, beyne ulaşan elektrik sinyalleri basit görünene kadar işler. Beynin bu sinyalleri tam olarak nasıl işleyip görüntüye dönüştürdüğü henüz tam olarak anlaşılmış değil. Daha doğrusu beyin bir kara kutudur; bilgisayarla görme de öyle.
Sinir ağları ve diğer makine öğrenme insan beynini taklit etmeye çalışan algoritmalar. Bilgisayarla görmeyi mümkün kılarlar ve görüntülerin ne hakkında olduğunu anlamaya yardımcı olurlar. Algoritmalar söz konusu olduğunda bile, makine öğrenimi araştırmacıları nasıl çalıştıklarının tam olarak farkında değiller. Ancak, sonuçları ölçülebilir olduğundan, her bir algoritmanın doğruluğunu yargılayabiliriz.
Bir süreç olarak bilgisayar görüşü, tıpkı insan görüşü gibi açıklanabilir. Ancak hiç kimse, sinir ağlarının görüntüleri anlamak için nasıl çalıştığından veya insanların görsel bilgileri nasıl işlediğine uzaktan yakın olup olmadığından tam olarak emin değil.
Bununla birlikte, basit bir anlamda, bilgisayar vizyonu tamamen örüntü tanıma ile ilgilidir. gibi makine öğrenimi tekniklerini kullanmak denetimsiz öğrenme, algoritmalar görsel verilerdeki kalıpları tanımak için eğitilir. Gerekli görüntü sayısını düşünüyorsanız, en azından milyonlarca veya binlerce.
Algoritmanın resimlerdeki köpekleri tanımlamasını istediğinizi varsayalım. Denetimsiz öğrenme tekniğini izliyorsanız, hiçbir resmi köpek olarak etiketlemeniz gerekmez. Bunun yerine, makine binlerce veya milyonlarca görüntüyü analiz ettikten sonra köpeklerin belirli özelliklerini öğrenir.
Kısacası, bir bilgisayar bir hayvanı (veya nesneyi) köpek yapan belirli özellikleri algılayabilir. Belirli bir hayvana "köpek" dendiğini hala bilmiyor. Ancak etiketlenmemiş bir görüntünün köpek içerip içermediğini belirlemek için yeterli bilgi ve deneyime sahip olacaktır.
Öğrenme sürecinin daha hızlı olmasını istiyorsanız, denetimli öğrenme. Denetimli öğrenmede görüntüler etiketlenir, bu da algoritmaların işini kolaylaştırır.
Görüntüleri piksel seviyelerinde inceleme
Görüntüleri analiz eden algoritmalardan bahsederken, insanlar gibi resmi bir bütün olarak incelemiyorlar. Bunun yerine, bir raster görüntünün adreslenebilir en küçük öğeleri olan tek tek piksellere bakarlar.
Basitlik adına, gri tonlamalı bir görüntü düşünelim. Piksel değerleri adı verilen her pikselin parlaklığı, 0 ila 255 arasında olası değerler aralığına sahip 8 bitlik bir tam sayı ile temsil edilir. Sıfır siyah olarak kabul edilir ve 255 beyazdır. Renkli bir görüntü üzerinde çalışıyorsak, işler daha karmaşık hale gelecektir.
Bir algoritma analiz eder ve öğrenir dediğimizde aslında bu piksel değerlerini öğreniyor. Başka bir deyişle, bir bilgisayar bu tür sayısal değerlere dayalı olarak görüntüleri görür ve tanır. Bu aynı zamanda algoritmaların, sayısal değerlerine bakarak görüntülerdeki kalıpları bulduğu ve benzer şekilde resimleri karşılaştırdığı anlamına gelir.
Kısacası, makineler için bir görüntüyü anlamak, tamsayı dizilerini içeren matematiksel bir süreçtir.
Sonra evrişimli sinir ağları var
Bir evrişimli sinir ağı (CNN veya ConvNet), bir derin öğrenme görüntü veri kümelerinden özellikler çıkarabilen algoritma. Sinir ağlarının bir kategorisidir ve görüntü tanıma ve sınıflandırma için etkileyici yeteneklere sahiptir. Hemen hemen her bilgisayar görme algoritması, evrişimli sinir ağlarını kullanır.
CNN'ler 1980'lerde icat edilmiş olsalar da, grafik işleme birimlerinin (GPU'lar) tanıtılmasına kadar tam olarak uygulanabilir değildiler. GPU'lar, evrişimli sinir ağlarını ve diğer sinir ağlarını önemli ölçüde hızlandırabilir. 2004 yılında, CNN'lerin GPU uygulaması, eşdeğer bir CPU uygulamasından 20 kat daha hızlıydı.
CNN'ler bunu nasıl yapıyor?
ConvNet'ler giriş görüntülerinden öğrenir ve daha iyi tahminler yapmak için parametrelerini (ağırlıklar ve önyargılar) ayarlar. CNN'ler, görüntüleri matrisler gibi ele alır ve onlardan kenarlar, derinlik ve doku gibi uzamsal bilgileri çıkarır. ConvNet'ler bunu kullanarak evrişim katmanları ve havuzlama.
Bir CNN'nin mimarisi, beynimizdeki nöronların bağlantı modeline benzer. CNN'ler, beynin görsel bilgiyi alan ve işleyen bölgesi olan görsel korteksin organizasyonundan ilham alınarak oluşturulmuştur.
Bir CNN, beynimizin biyolojik nöronlarının matematiksel karşılıkları olan algılayıcılar adı verilen çok sayıda yapay nöron katmanından oluşur. Algılayıcılar, biyolojik meslektaşlarının çalışmalarını da kabaca taklit eder.

Bir evrişimli sinir ağı, bir girdi katmanı , çoklu gizli katmanlar ve bir çıktı katmanı içerir.
Gizli katmanlar şunları içerir:
- Evrişimsel katmanlar
- Rektifiye lineer aktivasyon fonksiyonu (ReLU) katmanları
- Normalleştirme katmanları
- Havuz katmanları
- Tamamen bağlı katmanlar
İşte yaptıklarının basit bir açıklaması.
Bir CNN bir görüntüyü işlediğinde, katmanlarının her biri görüntü piksellerinden farklı özellikler çıkarır. İlk katman, yatay ve dikey kenarlar gibi temel özellikleri algılamaktan sorumludur.
Sinir ağında daha derine indikçe, katmanlar şekiller ve köşeler gibi karmaşık özellikleri algılamaya başlar. Evrişimli sinir ağının son katmanları, yüzler, binalar ve yerler gibi belirli özellikleri tespit etme yeteneğine sahiptir.
Kıvrımlı sinir ağının çıktı katmanı, sayısal bilgileri içeren bir tablo sunar. Bu tablo, görüntüde belirli bir nesnenin tanımlanma olasılığını temsil eder.
Bilgisayarla görme görevlerine örnekler
Bilgisayarla görme, bilgisayarların görmesini sağlayan bir bilgisayar bilimi ve AI alanıdır. Bilgisayarların bu alandan yararlanabileceği sayısız yöntem vardır. Görüntülerdeki nesneleri veya etkinlikleri tanımlamaya yönelik bu girişimlere bilgisayarla görme görevleri denir.
İşte yaygın bilgisayarla görme görevlerinden bazıları.
- Nesne algılama: Bir görüntüdeki belirli bir nesneyi algılamak için kullanılan bir teknik. Gelişmiş sürümleri, tek bir görüntüdeki birden çok nesneyi tanımlayabilir; örneğin, yoğun bir cadde resminde binalar, arabalar, insanlar, trafik ışıkları ve daha fazlası.
- Görüntü sınıflandırması: Görüntülerin kategoriler halinde gruplandırılması. Görüntülere etiket atama işlemi olarak da adlandırılabilir.
- Yüz tanıma: Görüntülerdeki insanları tanımlayabilen ve yüzleri tanıyabilen gelişmiş bir nesne tanıma biçimi.
- Görüntü bölütleme: Bir görüntüyü ayrı ayrı incelemek için birden çok parçaya ayırma.
- Örüntü algılama: Görsel verilerdeki desenleri ve düzenlilikleri tanıma süreci.
- Kenar algılama: Görüntünün bileşenlerini daha iyi tanımlamak için bir nesnenin kenarlarını algılama işlemi.
- Özellik eşleştirme: Görüntüleri sınıflandırmak için benzerlikleri eşleştiren bir tür desen algılama.
Görüntü tanıma yazılımı uygulamalar bu bilgisayarla görme tekniklerinden sadece birini kullanabilir. Kendi kendini süren arabalar gibi gelişmiş uygulamalar, aynı anda birkaç teknik kullanacak.
Gerçek dünya bilgisayarlı görme uygulamaları
Bilgisayarla görme, bugün kullandığımız birçok ürünle zaten kaynaşmış durumda. Facebook, CV kullanan kişileri otomatik olarak etiketler. Google Fotoğraflar, görüntüleri gruplamak için kullanır ve Adobe Lightroom gibi yazılım uygulamaları, yakınlaştırılmış görüntülerin ayrıntılarını geliştirmek için kullanır. Otomasyona dayalı üretim süreçlerinde kalite kontrolü için de yaygın olarak kullanılmaktadır.
İşte karşılaşmış olabileceğiniz bazı gerçek dünya bilgisayar vizyonu uygulamaları.
Yüz tanıma
Bilgisayarla görmenin en iyi kullanım örneklerinden biri yüz tanıma alanındadır. 2017'de Apple'ın iPhone X modeliyle ana akıma girdi ve artık çoğu akıllı telefonda standart bir özellik.
Yüz tanıma teknolojisi, birçok durumda bir kimlik doğrulama özelliği olarak kullanılır. Aksi takdirde, Facebook örneğinde olduğu gibi kişiyi tanımlamak için kullanılır. Kolluk kuvvetlerinin, video yayınlarında kanunları çiğneyenleri tespit etmek için yüz tanıma teknolojisini kullandığı bilinmektedir.
Kendi kendine giden arabalar
Kendi kendini süren arabalar, gerçek zamanlı görüntü analizi için büyük ölçüde bilgisayar görüşüne güveniyor. Otonom araçların çevrelerini anlamlandırmalarına yardımcı olur. Bununla birlikte, bu tür arabaların arkasındaki teknoloji hala emekleme aşamasındadır ve trafik dolu yollarda güvenle uygulanabilmesi için daha fazla geliştirilmesi gerekmektedir.
Kendi kendine giden araçlar, bilgisayar görüşü olmadan neredeyse imkansızdır. Bu teknoloji, otonom araçların görsel verileri gerçek zamanlı olarak işlemesine yardımcı olur. Uygulamasının bir örneği, 3B haritaların oluşturulmasıdır. Nesne tanımlama ve sınıflandırmanın yanı sıra bilgisayarla görme, araçlara çevreyi hissettirmek için 3B haritalar oluşturmaya yardımcı olabilir.
Araç ve şerit çizgisi tespiti, diğer iki önemli kullanım durumudur. Ardından, kendi kendini süren araba dünyasında oldukça ünlü olan boş alan algılama var. Adından da anlaşılacağı gibi, araç çevresinde engelsiz alan belirlemek için kullanılır. Serbest alan tespiti, otonom araç yavaş hareket eden bir araca yaklaştığında ve şerit değiştirmesi gerektiğinde kullanışlıdır.
Tıbbi Görüntüleme
Bilgisayarla görme, sağlık sektöründe daha hızlı ve daha doğru teşhisler yapmak ve hastalıkların ilerlemesini izlemek için kullanılmaktadır. Doktorlar, örüntü tanımayı kullanarak kanser gibi insan gözünün göremediği hastalıkların erken belirtilerini tespit edebilir.
Tıbbi görüntüleme, çok sayıda faydası olan başka bir kritik uygulamadır. Tıbbi görüntüleme analizi, tıp uzmanlarının görüntüleri analiz etmesi için gereken süreyi kısaltır. Endoskopi, X-ışını radyografisi, ultrason ve manyetik rezonans görüntüleme (MRI), bilgisayarla görme kullanan tıbbi görüntüleme disiplinlerinden bazılarıdır.
Tıp uzmanları CNN'leri tıbbi görüntüleme ile eşleştirerek iç organları gözlemleyebilir, anormallikleri tespit edebilir ve belirli hastalıkların nedenini ve etkisini anlayabilir. Ayrıca doktorların hastalıkların gelişimini ve tedavilerin ilerlemesini izlemesine yardımcı olur.
İçerik denetimi
Facebook gibi sosyal medya ağlarının her gün milyonlarca yeni gönderiyi gözden geçirmesi gerekiyor. Gönderilen her görüntü veya videoyu inceleyen bir içerik denetleme ekibine sahip olmak pratik değildir ve bu nedenle süreci otomatikleştirmek için bilgisayarlı görüş sistemleri kullanılır.
350 milyon
Fotoğraflar her gün Facebook'a yüklenir.
Kaynak: Sosyal Rapor
Bilgisayarla görme, bu tür sosyal medya platformlarının yüklenen içeriği analiz etmesine ve yasaklı içerik içerenleri işaretlemesine yardımcı olabilir. Şirketler, rahatsız edici içeriği belirlemek ve engellemek için metin analizi için derin öğrenme algoritmalarını da kullanabilir.
Gözetim
Gözetim video yayınları, sağlam bir kanıt biçimidir. Kanunları çiğneyenleri keşfetmeye ve güvenlik uzmanlarının küçük endişeler felakete dönüşmeden önce harekete geçmesine yardımcı olabilirler.
İnsanların birden fazla kaynaktan gelen gözetleme görüntülerine göz kulak olması neredeyse imkansız. Ancak bilgisayarla görme ile bu görev basitleştirilmiştir. CV destekli gözetim sistemleri, canlı görüntüleri tarayabilir ve şüpheli davranışları olan kişileri tespit edebilir.
Yüz tanıma, aranan suçluları belirlemek ve böylece suçları önlemek için kullanılabilir. Kalabalık alanlarda tehlikeli nesneler taşıyan kişileri tespit etmek için görüntü tanıma teknolojisi kullanılabilir. Aynısı, alışveriş merkezlerinde bulunan ücretsiz park yeri sayısını belirlemek için de kullanılır.
Bilgisayarla görmedeki zorluklar
Bilgisayarların görmesine yardımcı olmak düşündüğümüzden daha zor.
Marvin Minsky, bir kamerayı bilgisayara bağlayarak bilgisayar görüşünün çözülebileceğinden emindi. Onlarca yıllık araştırmadan sonra bile, sorunu çözmenin yakınından bile geçmiyoruz. İnsanlar için görme çok zahmetsizdir. Bilgisayarla görmenin önemsiz derecede basit bir problem olarak görülmesinin ve bir yaz boyunca çözülmesinin beklenmesinin nedeni budur.
bilgimiz sınırlı
Bilgisayarla görme problemini tam olarak çözemememizin bir nedeni, kendimizle ilgili sınırlı bilgimizdir. İnsan görsel sisteminin nasıl çalıştığına dair tam bir anlayışa sahip değiliz. Tabii ki, biyolojik görme çalışmalarında hızlı adımlar atılıyor, ancak daha gidilecek çok yol var.
Görsel dünya karmaşıktır
Özgeçmiş alanındaki zorlu bir sorun, görsel dünyanın doğal karmaşıklığıdır. Bir nesne herhangi bir açıdan, herhangi bir aydınlatma koşulunda ve değişen mesafelerden görülebilir. İnsan optik sistemi normalde tüm bu tür sonsuz varyasyonlardaki nesneleri görme ve anlama yeteneğine sahiptir, ancak makinelerin kapasitesi hala oldukça sınırlıdır.
Diğer bir sınırlama, sağduyu eksikliğidir. Yıllarca süren araştırmalardan sonra bile, yapay zeka sistemlerinde sağduyuyu yeniden oluşturamadık. İnsanlar, onları anlamlandırmak için belirli nesneler hakkında sağduyu ve arka plan bilgilerini uygulayabilir. Bu aynı zamanda bir görüntünün farklı varlıkları arasındaki ilişkiyi kolaylıkla anlamamızı sağlar.
İnsanlar, en azından bilgisayarlarla karşılaştırıldığında, tahmin yürütmede iyidir. Daha önce belirli bir sorunla karşılaşmamış olsak bile, o kadar da kötü olmayan bir karar vermek bizim için daha kolay. Ama aynı şey makineler için geçerli değil. Eğitim örneklerine benzemeyen bir durumla karşılaşırlarsa mantıksız davranmaya eğilimlidirler.
Bilgisayarla görme algoritmaları, onları daha yeni görsel veri kümeleriyle eğitirseniz önemli ölçüde daha iyi hale gelir. Ama özünde piksel modellerini eşleştirmeye çalışıyorlar. Başka bir deyişle, piksel bilgisi dışında, görüntülerde neler olduğunu tam olarak anlamıyorlar. Ancak CV ile çalışan sistemlerin kendi kendini süren arabalarda yaptığı harikaları düşünmek büyüleyici.
CV donanıma bağlıdır
Bilgisayar görüşünde gecikme kötüdür.
Kendi kendini süren arabalar gibi gerçek dünya uygulamalarında, görüntü işleme ve analiz neredeyse anında gerçekleşmelidir. Örneğin, saatte 30 km hızla giden otonom bir araç, yüz metre ötede bir engel algılarsa, durması veya güvenli bir şekilde dönmesi için yalnızca birkaç saniyesi vardır.
Aracın zamanında hareket etmesi için yapay zeka sisteminin çevreyi anlaması ve milisaniyeler içinde karar vermesi gerekecek. Bilgisayarlı görü sistemleri, kamera gibi donanım bileşenlerine büyük ölçüde bağımlı olduğundan, veri iletiminde veya hesaplamasında bir saniyenin küçük bir kısmı bile gecikme, feci kazalara neden olabilir.
Dar AI yeterli değil
Bazı AI araştırmacıları, 20/20 bilgisayar vizyonunun ancak yapay genel zekanın (AGI) kilidini açarsak elde edilebileceğini düşünüyor. Bunun nedeni, bilincin insan görsel sisteminde kritik bir rol oynuyor gibi görünmesidir. Gördüğümüz ve gözlemlediğimiz kadar hayal kurarız. Hayal gücümüz, gördüğümüz görselleri zenginleştirir ve onlara daha iyi bir anlam kazandırır.
Ayrıca, görsel zeka zekadan ayrılamaz. Karmaşık düşünceleri işleme yeteneği, çevremizi görme ve anlama yeteneğimizi tamamlıyordu.
Birçok araştırmacıya göre, internetten indirilen milyonlarca görüntüden veya video beslemesinden öğrenmek, gerçek bilgisayar vizyonuna ulaşmak için pek yardımcı olmaz. Bunun yerine, AI varlığı onu insanlar gibi deneyimlemek zorunda kalacak. Diğer bir deyişle, Şu anda sahip olduğumuz yapay zeka seviyesi olan dar AI yeterli değil.
Genel istihbarat elde edeceğimiz zaman çerçevesi hala tartışmalıdır. Bazıları YGZ'nin birkaç on yıl içinde elde edilebileceğini düşünüyor. Diğerleri bunun gelecek yüzyılın bir şeyi olduğunu öne sürüyor. Ancak araştırmacıların çoğu, YGZ'nin ulaşılamaz olduğunu ve yalnızca bilim kurgu türünde var olacağını düşünüyor.
Gerçek bilgisayar görüşünün kilidini açmak için deneyebileceğimiz çok sayıda başka yol var ya da değil. Besleme kalitesi ve çeşitli veriler bunu yapmanın bir yoludur. Bu, bilgisayarla görme teknolojisine dayanan sistemlerin önyargılardan uzak durmasını sağlayacaktır.
Yapay sinir ağlarının güçlü yanlarını büyütmenin daha iyi yollarını bulmak, güçlü GPU'lar ve diğer gerekli donanım bileşenleri oluşturmak ve insan görsel sistemini anlamak, gerçek bilgisayar görüşüne doğru ilerlemenin bazı yollarıdır.
Makinelere vizyon hediye etmek
Görüntü tanıma modellerinin hata oranları önemli ölçüde düşüyor. Basılı harfleri tespit etmekten insan yüzlerini hassasiyetle tanımlamaya kadar çok yol kat ettik. Ancak gidilecek uzun bir yol ve fethedilecek birçok yeni kilometre taşı var. Gerçek bilgisayar vizyonuna ulaşmak, büyük olasılıkla insanlar kadar sofistike ve zeki robotlar yaratmanın anahtarlarından biri olacaktır.
Bir süreç dijital olarak yürütülebiliyorsa, makine öğrenimi sonunda bunun bir parçası haline gelecektir. Tamamen ikna olmadıysanız, aynı teknolojinin neredeyse tüm endüstrileri kasıp kavurduğunu ima eden 51 makine öğrenimi istatistiği.