Visi Komputer: Bagaimana Mesin Menafsirkan Dunia Visual
Diterbitkan: 2021-05-05Visi komputer adalah bidang kecerdasan buatan yang memungkinkan mesin untuk "melihat".
Manusia memiliki karunia penglihatan, dan organ yang memungkinkannya adalah kompleks. Meskipun tidak dapat dibandingkan dengan penglihatan jarak jauh dari elang atau mata kupu-kupu botol biru, yang dapat melihat dalam spektrum UV, ia masih melakukan pekerjaan yang sangat baik.
Bagian dari melihat adalah memahami apa yang Anda lihat. Jika tidak, itu hanya menerima cahaya yang dipantulkan dari objek di depan Anda. Inilah yang terjadi jika Anda memiliki sepasang mata tetapi tidak memiliki korteks visual di dalam lobus oksipital (bagian otak yang bertanggung jawab untuk pemrosesan visual).
Untuk komputer, kamera adalah mata mereka. Dan visi komputer bertindak sebagai lobus oksipital dan memproses ribuan piksel pada gambar. Singkatnya, visi komputer memungkinkan mesin untuk memahami apa yang mereka lihat.
Apa itu visi komputer?
Computer vision (CV) adalah bidang kecerdasan buatan yang berusaha mengembangkan teknik yang memungkinkan komputer melihat dan memahami konten gambar digital. Dengan kata lain, visi komputer mencoba melatih mesin untuk melihat dan memahami dunia di sekitar mereka.
Visi komputer sangat penting untuk beberapa inovasi teknologi, termasuk mobil self-driving, pengenalan wajah, dan augmented reality. Meningkatnya jumlah data gambar yang kami hasilkan adalah salah satu alasan mengapa bidang ini kecerdasan buatan tumbuh secara eksponensial. Peningkatan ini juga memudahkan data scientist untuk melatih algoritma.
Sederhananya, dua tugas utama visi komputer adalah mengidentifikasi objek gambar dan memahami apa artinya secara keseluruhan.
Manusia menerima persepsi virtual, produk evolusi jutaan tahun, begitu saja. Seorang anak berusia 5 tahun dapat dengan mudah menyebutkan barang-barang yang diletakkan di atas meja dan memahami bahwa seluruh pengaturannya adalah meja makan. Untuk mesin, ini adalah tugas yang sangat besar, dan inilah yang coba dipecahkan oleh computer vision.
$48,6 miliar
diperkirakan menjadi nilai pasar visi komputer pada tahun 2022.
Sumber: BitRefine
Kecerdasan umum buatan, jika memungkinkan, tidak akan layak tanpa visi komputer. Itu karena mengidentifikasi dan bereaksi secara akurat terhadap objek di sekitar kita adalah salah satu ciri penting kecerdasan kita. Dengan kata lain, untuk mengajari mesin berpikir, Anda harus memberi mereka kemampuan untuk melihat.
Seiring dengan pertumbuhan eksponensial dalam jumlah foto dan video digital yang tersedia, kemajuan dalam pembelajaran mendalam dan jaringan saraf tiruan juga berkontribusi pada kejayaan visi komputer saat ini.
Sejarah singkat visi komputer
Eksperimen pertama di bidang visi komputer dimulai pada 1950-an dengan bantuan beberapa bentuk awal jaringan saraf tiruan. Mereka digunakan untuk mendeteksi tepi objek dan dapat mengurutkan objek sederhana seperti lingkaran dan kotak.
Visi komputer dipandang sebagai batu loncatan menuju kecerdasan buatan karena meniru sistem visual manusia merupakan prasyarat untuk mencapai kecerdasan manusia. Oleh karena itu pada tahun 1960-an, universitas yang mengeksplorasi AI juga terlibat dalam computer vision.
Pada tahun 1963, Larry Roberts, dianggap sebagai bapak pendiri internet, menggambarkan proses memperoleh informasi 3D tentang benda padat dari foto 2D. Tesisnya "Mesin Persepsi Padat Tiga Dimensi" masih diakui sebagai salah satu karya dasar bidang visi komputer.
Kemudian pada tahun 1966, Marvin Minsky, salah satu pendiri AI, percaya bahwa visi komputer dapat dicapai dengan proyek musim panas. Tapi kita semua tahu apa yang terjadi. Maju cepat ke tahun 1970-an, teknologi visi komputer digunakan untuk aplikasi komersial seperti pengenalan karakter optik (OCR), yang dapat mengidentifikasi teks tulisan tangan atau karakter yang dicetak dalam gambar.
Internet, yang menjadi arus utama pada 1990-an, memainkan peran penting dalam perkembangan pesat visi komputer. Kumpulan gambar yang besar menjadi mudah diakses, yang membuat pelatihan algoritme menjadi lebih mudah.
Daya komputasi yang murah dan melimpah juga menambah kemudahan algoritma pelatihan. Ini juga merupakan titik ketika interaksi antara grafik komputer dan visi komputer meningkat.
Berikut adalah beberapa tonggak penting dalam visi komputer yang menjadikannya teknologi yang kuat seperti sekarang ini.
1959: Pemindai gambar digital pertama ditemukan yang mengubah gambar menjadi kisi-kisi angka.
1963: Larry Roberts menggambarkan proses memperoleh informasi 3D benda padat dari gambar 2D.
1966: Marvin Minsky menginstruksikan seorang mahasiswa pascasarjana untuk memasang kamera ke komputer dan menjelaskan apa yang dilihatnya.
1980: Kunihiko Fukushima menciptakan neokognitron. Ini dianggap sebagai pendahulu dari jaringan saraf convolutional modern (CNN).
2001: Paul Viola dan Michael Jones, dua peneliti di MIT, menciptakan kerangka deteksi wajah pertama yang bekerja secara real time.
2009: Google memulai proyek mobil self-driving.
2010: Google merilis Google Goggles, aplikasi pengenalan gambar yang berguna untuk penelusuran berdasarkan gambar yang diambil oleh perangkat seluler. Pada tahun yang sama, Facebook mulai menggunakan pengenalan wajah untuk menandai orang di foto secara efektif.
2011: Teknologi pengenalan wajah digunakan untuk mengonfirmasi identitas Osama Bin Laden setelah dia dibunuh.
2012: Google Brain menciptakan jaringan saraf yang terdiri dari 16.000 prosesor komputer yang dapat mengenali gambar kucing dengan bantuan algoritma pembelajaran mendalam. Pada tahun yang sama, AlexNet, jaringan saraf convolutional, mencapai kesalahan 5 teratas sebesar 15,3% dalam Tantangan ImageNet 2012.
2014: Tesla memperkenalkan Autopilot di mobil listrik Model S-nya. Sistem self-driving tidak hanya bekerja offline tetapi juga parkir dengan presisi.
2015: Google diluncurkan TensorFlow, yang merupakan pustaka perangkat lunak sumber terbuka dan gratis untuk pembelajaran mesin. Pada tahun yang sama, Google memperkenalkan FaceNet untuk pengenalan wajah.
2016: Pokemon GO, game mobile berbasis AR yang terkenal, diperkenalkan.
2017: Apple merilis iPhone X dengan fitur pengenalan wajah.
2019: Pengadilan Tinggi Inggris mengizinkan penggunaan teknologi pengenalan wajah otomatis untuk mencari orang di keramaian.
Bagaimana cara kerja visi komputer?
Visi komputer dimulai dari yang kecil dan berakhir besar.
Ini mengikuti teknik pemrosesan berlapis yang dimulai dengan mengidentifikasi dan menganalisis fitur tingkat rendah seperti piksel dan warna. Secara bertahap, ia bekerja dengan cara untuk menganalisis fitur tingkat yang lebih tinggi seperti garis dan objek.
Misalkan Anda melihat gambar orang berlari. Meskipun itu gambar diam, dalam banyak kasus, Anda akan dapat memahami konteksnya; orang lari dari sesuatu, lari ke arah sesuatu, atau lari santai. Ini adalah contoh khas bagaimana komputasi pemrosesan paralel terjadi secara real time.
Sangat mudah bagi kita untuk memahami emosi dan konteks gambar. Komputer masih mempelajari perdagangan, tetapi kecepatannya mengesankan untuk entitas non-biologis.
Pernah bertanya-tanya bagaimana komputer dapat memberikan data yang akurat untuk sesuatu seperti prakiraan cuaca? Di situlah computer vision bekerja dalam bentuk parallel processing, yakni bekerja dengan beberapa sumber data yang kompleks sekaligus.
Untuk mesin, gambar hanyalah kumpulan piksel. Tidak seperti manusia, mereka tidak dapat memahami makna semantik gambar dan hanya dapat mendeteksi piksel. Tujuan dari visi komputer adalah untuk menjembatani kesenjangan semantik itu.
Ketika sinar cahaya mengenai retina mata kita, sel-sel khusus, yang disebut fotoreseptor, mengubah cahaya menjadi sinyal listrik. Sinyal listrik ini kemudian dikirim ke otak melalui saraf optik. Otak kemudian mengubah sinyal ini menjadi gambar yang kita lihat.
Proses ini sampai sinyal listrik yang mencapai otak tampak mudah. Bagaimana tepatnya otak memproses sinyal-sinyal ini dan mengubahnya menjadi gambar belum sepenuhnya dipahami. Lebih tepatnya, otak adalah kotak hitam; begitu juga visi komputer.
Ada jaringan saraf dan lainnya pembelajaran mesin algoritma yang mencoba meniru otak manusia. Mereka membuat visi komputer layak dan membantu memahami tentang apa gambar itu. Bahkan dalam hal algoritme, peneliti ML tidak sepenuhnya mengetahui cara kerjanya. Namun, karena hasilnya dapat diukur, kita dapat menilai keakuratan setiap algoritma.
Visi komputer sebagai suatu proses dapat dijelaskan, sama seperti penglihatan manusia. Tapi tidak ada yang yakin bagaimana jaringan saraf bekerja untuk memahami gambar atau apakah mereka dekat dengan bagaimana manusia memproses informasi visual.
Yang mengatakan, dalam arti sederhana, visi komputer adalah tentang pengenalan pola. Menggunakan teknik pembelajaran mesin seperti pembelajaran tanpa pengawasan, algoritma dilatih untuk mengenali pola dalam data visual. Jika Anda berpikir tentang jumlah gambar yang dibutuhkan, paling tidak jutaan atau ribuan.
Misalkan Anda ingin algoritme mengidentifikasi anjing dalam gambar. Jika Anda mengikuti teknik pembelajaran tanpa pengawasan, Anda tidak perlu memberi label pada gambar apa pun sebagai anjing. Sebagai gantinya, setelah menganalisis ribuan atau jutaan gambar, mesin mempelajari karakteristik khusus anjing.
Singkatnya, komputer dapat melihat fitur spesifik yang membuat hewan (atau objek) menjadi anjing. Masih tidak akan tahu bahwa hewan tertentu disebut "anjing". Tapi itu akan memiliki informasi dan pengalaman yang cukup untuk menentukan apakah gambar yang tidak berlabel berisi seekor anjing.
Jika Anda ingin proses belajar lebih cepat, Anda bisa pergi ke pembelajaran yang diawasi. Dalam pembelajaran yang diawasi, gambar diberi label, yang membuat pekerjaan lebih mudah untuk algoritme.
Memeriksa gambar pada tingkat piksel
Ketika berbicara tentang algoritma yang menganalisis gambar, mereka tidak memeriksa gambar secara keseluruhan seperti manusia. Sebaliknya, mereka melihat piksel individual, yang merupakan elemen terkecil yang dapat dialamatkan dari gambar raster.
Demi kesederhanaan, mari kita pertimbangkan gambar skala abu-abu. Kecerahan setiap piksel, yang disebut nilai piksel, diwakili oleh bilangan bulat 8-bit dengan kisaran nilai yang mungkin dari 0 hingga 255. Nol dianggap hitam, dan 255 putih. Jika kita mempelajari gambar berwarna, segalanya akan menjadi lebih rumit.
Ketika kita mengatakan suatu algoritma menganalisis dan mempelajari, sebenarnya itu mempelajari nilai-nilai piksel ini. Dengan kata lain, komputer melihat dan mengenali gambar berdasarkan nilai numerik tersebut. Ini juga berarti bahwa algoritma menemukan pola dalam gambar dengan melihat nilai numeriknya dan membandingkan gambar dengan cara yang sama.
Singkatnya, untuk mesin, memahami gambar adalah proses matematika yang melibatkan array bilangan bulat.
Lalu ada jaringan saraf convolutional
Jaringan saraf convolutional (CNN atau ConvNet) adalah pembelajaran yang mendalam algoritma yang dapat mengekstrak fitur dari dataset gambar. Mereka adalah kategori jaringan saraf dan memiliki kemampuan yang mengesankan untuk pengenalan dan klasifikasi gambar. Hampir setiap algoritma visi komputer menggunakan jaring saraf convolutional.
Meskipun CNN ditemukan kembali pada 1980-an, mereka tidak benar-benar layak sampai pengenalan unit pemrosesan grafis (GPU). GPU dapat mempercepat jaringan saraf convolutional dan jaringan saraf lainnya secara signifikan. Pada tahun 2004, implementasi GPU CNN 20 kali lebih cepat daripada implementasi CPU yang setara.
Bagaimana CNN melakukannya?
ConvNet belajar dari gambar masukan dan menyesuaikan parameternya (bobot dan bias) untuk membuat prediksi yang lebih baik. CNN memperlakukan gambar seperti matriks dan mengekstrak informasi spasial darinya, seperti tepi, kedalaman, dan tekstur. ConvNets melakukan ini dengan menggunakan lapisan konvolusi dan pengumpulan.
Arsitektur CNN analog dengan pola konektivitas neuron di otak kita. CNN dibuat dengan mengambil inspirasi dari organisasi korteks visual, yang merupakan wilayah otak yang menerima dan memproses informasi visual.
CNN terdiri dari beberapa lapisan neuron buatan yang disebut perceptrons, yang merupakan rekan matematis dari neuron biologis otak kita. Perceptron secara kasar meniru cara kerja rekan biologis mereka juga.

Jaringan saraf convolutional terdiri dari lapisan input , beberapa lapisan tersembunyi , dan lapisan output .
Lapisan tersembunyi berisi:
- Lapisan konvolusi
- Lapisan fungsi aktivasi linier (ReLU) yang diperbaiki
- Lapisan normalisasi
- Lapisan penyatuan
- Lapisan yang terhubung penuh
Berikut penjelasan sederhana tentang apa yang mereka lakukan.
Ketika CNN memproses gambar, setiap lapisannya mengekstrak fitur yang berbeda dari piksel gambar. Lapisan pertama bertanggung jawab untuk mendeteksi karakteristik dasar seperti tepi horizontal dan vertikal.
Saat Anda masuk lebih dalam ke jaringan saraf, lapisan mulai mendeteksi fitur kompleks seperti bentuk dan sudut. Lapisan terakhir dari jaringan saraf convolutional mampu mendeteksi fitur tertentu seperti wajah, bangunan, dan tempat.
Lapisan keluaran jaringan saraf yang berbelit-belit menawarkan tabel yang berisi informasi numerik. Tabel ini mewakili probabilitas bahwa objek tertentu diidentifikasi dalam gambar.
Contoh tugas visi komputer
Computer vision adalah bidang ilmu komputer dan AI yang memungkinkan komputer untuk melihat. Ada banyak metode di mana komputer dapat memanfaatkan bidang ini. Upaya untuk mengidentifikasi objek atau aktivitas dalam gambar disebut tugas visi komputer.
Berikut adalah beberapa tugas visi komputer yang umum.
- Deteksi objek: Sebuah teknik yang digunakan untuk mendeteksi objek tertentu dalam sebuah gambar. Versi lanjutannya dapat mengidentifikasi beberapa objek dalam satu gambar, misalnya, bangunan, mobil, orang, lampu lalu lintas, dan lainnya dalam gambar jalan yang sibuk.
- Klasifikasi gambar: Pengelompokan gambar ke dalam kategori. Ini juga dapat disebut sebagai proses pemberian label pada gambar.
- Pengenalan wajah: Suatu bentuk pengenalan objek lanjutan yang dapat mengidentifikasi manusia dalam gambar dan mengenali wajah.
- Segmentasi gambar: Mempartisi gambar menjadi beberapa bagian untuk diperiksa secara terpisah.
- Deteksi pola: Sebuah proses mengenali pola dan keteraturan dalam data visual.
- Deteksi tepi: Proses mendeteksi tepi suatu objek untuk mengidentifikasi konstituen gambar dengan lebih baik.
- Pencocokan fitur: Jenis deteksi pola yang mencocokkan kesamaan dalam gambar untuk mengklasifikasikannya.
Perangkat lunak pengenalan gambar aplikasi dapat menggunakan hanya salah satu dari teknik visi komputer ini. Aplikasi canggih seperti mobil self-driving akan menggunakan beberapa teknik secara bersamaan.
Aplikasi visi komputer dunia nyata
Visi komputer sudah menyatu dengan banyak produk yang kita gunakan saat ini. Facebook secara otomatis menandai orang menggunakan CV. Google Foto menggunakannya untuk mengelompokkan gambar, dan aplikasi perangkat lunak seperti Adobe Lightroom menggunakannya untuk menyempurnakan detail gambar yang diperbesar. Ini juga banyak digunakan untuk kontrol kualitas dalam proses manufaktur yang mengandalkan otomatisasi.
Berikut adalah beberapa aplikasi visi komputer dunia nyata yang mungkin Anda temui.
Pengenalan wajah
Salah satu kasus penggunaan terbaik dari visi komputer adalah di bidang pengenalan wajah. Ini menjadi arus utama pada tahun 2017 dengan model iPhone X Apple dan sekarang menjadi fitur standar di sebagian besar smartphone.
Teknologi pengenalan wajah digunakan sebagai fitur otentikasi pada beberapa kesempatan. Jika tidak, itu digunakan untuk mengidentifikasi orang tersebut, seperti dalam kasus Facebook. Lembaga penegak hukum diketahui menggunakan teknologi pengenalan wajah untuk mengidentifikasi pelanggar hukum dalam umpan video.
Mobil self-driving
Mobil self-driving sangat bergantung pada visi komputer untuk analisis gambar real-time. Ini membantu kendaraan otonom memahami lingkungan mereka. Namun, teknologi di balik mobil tersebut masih dalam tahap awal dan membutuhkan pengembangan lebih lanjut sebelum dapat digunakan dengan percaya diri di jalan yang dipenuhi lalu lintas.
Kendaraan self-driving hampir tidak mungkin tanpa visi komputer. Teknologi ini membantu kendaraan otonom memproses data visual secara real time. Salah satu contoh penerapannya adalah pembuatan peta 3D. Seiring dengan identifikasi dan klasifikasi objek, visi komputer dapat membantu membuat peta 3D untuk memberikan gambaran tentang lingkungan pada kendaraan.
Deteksi kendaraan dan jalur jalur adalah dua kasus penggunaan penting lainnya. Lalu ada deteksi ruang bebas, yang cukup terkenal di ranah mobil self-driving. Seperti namanya, ini digunakan untuk menentukan ruang bebas hambatan di sekitar kendaraan. Deteksi ruang bebas berguna ketika kendaraan otonom mendekati kendaraan yang bergerak lambat dan perlu berpindah jalur.
Pencitraan medis
Visi komputer digunakan dalam industri perawatan kesehatan untuk membuat diagnosis yang lebih cepat dan lebih akurat serta memantau perkembangan penyakit. Dengan menggunakan pengenalan pola, dokter dapat mendeteksi gejala awal penyakit seperti kanker, yang mungkin tidak terlihat oleh mata manusia.
Pencitraan medis adalah aplikasi penting lainnya dengan banyak manfaat. Analisis pencitraan medis menghemat waktu yang dibutuhkan para profesional medis untuk menganalisis gambar. Endoskopi, radiografi sinar-X, ultrasound, dan magnetic resonance imaging (MRI) adalah beberapa disiplin pencitraan medis yang menggunakan visi komputer.
Dengan memasangkan CNN dengan pencitraan medis, profesional medis dapat mengamati organ dalam, mendeteksi anomali, dan memahami penyebab dan dampak penyakit tertentu. Ini juga membantu dokter untuk memantau perkembangan penyakit dan kemajuan perawatan.
Moderasi konten
Jaringan media sosial seperti Facebook harus meninjau jutaan posting baru setiap hari. Tidak praktis untuk memiliki tim moderasi konten yang memeriksa setiap gambar atau video yang diposting, dan karenanya, sistem visi komputer digunakan untuk mengotomatisasi proses.
350 juta
foto diunggah setiap hari ke Facebook.
Sumber: Laporan Sosial
Visi komputer dapat membantu platform media sosial semacam itu menganalisis konten yang diunggah dan menandai konten yang dilarang. Perusahaan juga dapat menggunakan algoritme pembelajaran mendalam untuk analisis teks guna mengidentifikasi dan memblokir konten yang menyinggung.
Pengawasan
Umpan video pengawasan adalah bentuk bukti yang solid. Mereka dapat membantu menemukan pelanggar hukum dan juga membantu profesional keamanan untuk bertindak sebelum masalah kecil menjadi bencana.
Praktis tidak mungkin bagi manusia untuk mengawasi rekaman pengawasan dari berbagai sumber. Tetapi dengan visi komputer, tugas ini disederhanakan. Sistem pengawasan yang didukung CV dapat memindai rekaman langsung dan mendeteksi orang dengan perilaku mencurigakan.
Pengenalan wajah dapat digunakan untuk mengidentifikasi penjahat yang dicari dan dengan demikian mencegah kejahatan. Teknologi pengenalan gambar dapat digunakan untuk mendeteksi individu yang membawa benda berbahaya di area ramai. Hal yang sama juga digunakan untuk menentukan jumlah ruang parkir gratis yang tersedia di mal.
Tantangan dalam visi komputer
Membantu komputer melihat lebih menantang daripada yang kita kira.
Marvin Minsky yakin bahwa visi komputer dapat diselesaikan dengan menghubungkan kamera ke komputer. Bahkan setelah penelitian selama beberapa dekade, kami sama sekali tidak menyelesaikan masalah. Bagi manusia, penglihatan sangat mudah. Itulah alasan mengapa visi komputer dipandang sebagai masalah sederhana yang sepele dan seharusnya diselesaikan selama musim panas.
Pengetahuan kita terbatas
Salah satu alasan mengapa kita tidak dapat sepenuhnya memecahkan masalah visi komputer adalah pengetahuan kita yang terbatas tentang diri kita sendiri. Kami tidak memiliki pemahaman yang lengkap tentang bagaimana sistem visual manusia bekerja. Tentu saja, langkah cepat dibuat dalam studi penglihatan biologis, tetapi jalan masih panjang.
Dunia visual itu kompleks
Masalah yang menantang di bidang CV adalah kompleksitas alami dunia visual. Sebuah objek dapat dilihat dari sudut manapun, dalam kondisi pencahayaan apapun, dan dari berbagai jarak. Sistem optik manusia biasanya mampu melihat dan memahami objek dalam semua variasi tak terbatas seperti itu, tetapi kemampuan mesin masih sangat terbatas.
Keterbatasan lainnya adalah kurangnya akal sehat. Bahkan setelah bertahun-tahun penelitian, kami belum menciptakan kembali akal sehat dalam sistem AI. Manusia dapat menerapkan akal sehat dan pengetahuan latar belakang tentang objek tertentu untuk memahaminya. Ini juga memungkinkan kita untuk memahami hubungan antara entitas yang berbeda dari suatu gambar dengan mudah.
Manusia pandai menebak, setidaknya jika dibandingkan dengan komputer. Lebih mudah bagi kita untuk membuat keputusan yang tidak terlalu buruk, bahkan jika kita belum pernah menghadapi masalah tertentu sebelumnya. Tetapi hal yang sama tidak berlaku untuk mesin. Jika mereka menghadapi situasi yang tidak menyerupai contoh pelatihan mereka, mereka cenderung bertindak tidak rasional.
Algoritme visi komputer menjadi lebih baik jika Anda melatihnya dengan kumpulan data visual yang lebih baru. Tetapi pada intinya, mereka mencoba mencocokkan pola piksel. Dengan kata lain, terlepas dari pengetahuan tentang piksel, mereka tidak benar-benar memahami apa yang terjadi dalam gambar. Tapi menarik untuk memikirkan keajaiban sistem bertenaga CV pada mobil self-driving.
CV terikat perangkat keras
Dalam visi komputer, latensi itu jahat.
Dalam aplikasi dunia nyata seperti mobil self-driving, pemrosesan gambar dan analisis harus terjadi hampir secara instan. Misalnya, jika kendaraan otonom yang melaju dengan kecepatan 30 mph mendeteksi rintangan sejauh seratus meter, ia hanya memiliki beberapa detik untuk berhenti atau berbelok dengan aman.
Agar mobil dapat bertindak tepat waktu, sistem AI harus memahami lingkungan sekitar dan membuat keputusan dalam milidetik. Karena sistem visi komputer sangat bergantung pada komponen perangkat keras seperti kamera, penundaan bahkan sepersekian detik dalam transmisi data atau komputasi dapat menyebabkan kecelakaan yang fatal.
AI yang sempit tidak cukup
Beberapa peneliti AI merasa bahwa visi komputer 20/20 hanya dapat dicapai jika kita membuka kecerdasan umum buatan (AGI). Itu karena kesadaran tampaknya memainkan peran penting dalam sistem visual manusia. Sama seperti seberapa banyak kita melihat dan mengamati, kita membayangkan. Imajinasi kita menambah visual yang kita lihat dan membawa makna yang lebih baik kepada mereka.
Selain itu, kecerdasan visual tidak terlepas dari kecerdasan. Kemampuan untuk memproses pikiran yang kompleks memang melengkapi kemampuan kita untuk melihat dan memahami lingkungan kita.
Menurut banyak peneliti, belajar dari jutaan gambar atau umpan video yang diunduh dari internet tidak akan banyak membantu untuk mencapai visi komputer yang sebenarnya. Sebaliknya, entitas AI harus mengalaminya seperti manusia. Dengan kata lain, AI sempit, tingkat kecerdasan buatan yang kita miliki saat ini, tidak cukup.
Jangka waktu di mana kita akan mencapai kecerdasan umum masih bisa diperdebatkan. Beberapa merasa bahwa AGI dapat dicapai dalam beberapa dekade. Yang lain menyarankan itu sesuatu dari abad berikutnya. Tetapi sebagian besar peneliti berpikir bahwa AGI tidak dapat dicapai dan hanya akan ada dalam genre fiksi ilmiah.
Dapat dicapai atau tidak, ada banyak cara lain yang dapat kita coba untuk membuka visi komputer yang sebenarnya. Memberi makan data yang berkualitas dan beragam adalah salah satu cara untuk melakukannya. Ini akan memastikan bahwa sistem yang mengandalkan teknologi visi komputer terhindar dari bias.
Menemukan cara yang lebih baik untuk memperbesar kekuatan jaring saraf tiruan, menciptakan GPU yang kuat dan komponen perangkat keras lain yang dibutuhkan, dan memahami sistem visual manusia adalah beberapa cara untuk maju menuju visi komputer yang sebenarnya.
Memberikan visi ke mesin
Tingkat kesalahan model pengenalan gambar menurun drastis. Kami telah menempuh perjalanan jauh dari sekadar mendeteksi huruf cetak hingga mengidentifikasi wajah manusia dengan presisi. Tapi ada jalan panjang yang harus dilalui dan banyak tonggak baru untuk ditaklukkan. Mencapai visi komputer yang sebenarnya kemungkinan besar akan menjadi salah satu kunci untuk menciptakan robot yang secanggih dan secerdas manusia.
Jika suatu proses dapat dieksekusi secara digital, pembelajaran mesin pada akhirnya akan menjadi bagian darinya. Jika Anda tidak sepenuhnya yakin, berikut adalah 51 statistik pembelajaran mesin yang mengisyaratkan bahwa teknologi yang sama sedang melanda hampir semua industri.