컴퓨터 비전: 기계가 시각적 세계를 해석하는 방법
게시 됨: 2021-05-05컴퓨터 비전은 기계가 "볼" 수 있게 하는 인공 지능의 분야입니다.
인간에게는 시력이라는 선물이 있으며 이를 가능하게 하는 기관은 복잡합니다. UV 스펙트럼에서 볼 수 있는 독수리의 원거리 시력이나 블루보틀 나비의 눈과 비교할 수 없지만 여전히 우수한 성능을 발휘합니다.
보는 것의 일부는 보고 있는 것을 이해하는 것입니다. 그렇지 않으면 앞에 있는 물체에서 반사되는 빛을 받는 것입니다. 이것은 한 쌍의 눈이 있지만 후두엽(시각 처리를 담당하는 뇌의 부분) 내부에 시각 피질이 없는 경우에 발생합니다.
컴퓨터에게 카메라는 눈입니다. 그리고 컴퓨터 비전은 후두엽 역할을 하며 이미지에서 수천 개의 픽셀을 처리합니다. 간단히 말해서, 컴퓨터 비전은 기계가 보고 있는 것을 이해할 수 있게 해줍니다.
컴퓨터 비전이란 무엇입니까?
컴퓨터 비전(CV)은 컴퓨터가 디지털 이미지의 내용을 보고 이해할 수 있도록 하는 기술을 개발하기 위해 노력하는 인공 지능의 한 분야입니다. 다시 말해, 컴퓨터 비전은 기계가 주변 세계를 보고 이해하도록 훈련시키려고 합니다.
컴퓨터 비전은 자율주행차, 안면 인식, 증강 현실을 비롯한 여러 기술 혁신에 매우 중요합니다. 우리가 생성하는 이미지 데이터의 양이 증가하는 것은 이 분야가 인공 지능 기하급수적으로 성장하고 있습니다. 이러한 증가는 또한 데이터 과학자가 알고리즘을 더 쉽게 훈련할 수 있도록 합니다.
간단히 말해서, 컴퓨터 비전의 두 가지 주요 작업은 이미지의 개체를 식별하고 전체로서의 의미를 이해하는 것입니다.
인간은 수백만 년에 걸친 진화의 산물인 가상 인식을 당연하게 여깁니다. 5세 아이는 테이블 위에 놓인 물건의 이름을 쉽게 지을 수 있었고 전체 설정이 식탁이라는 것을 이해할 수 있었습니다. 기계의 경우 이것은 엄청난 작업이며 이것이 컴퓨터 비전이 해결하려고 하는 것입니다.
486억 달러
2022년까지 컴퓨터 비전 시장의 가치로 추정됩니다.
출처: BitRefine
인공 일반 지능은 가능하다면 컴퓨터 비전 없이는 실현 가능하지 않을 것입니다. 우리 주변의 물체를 정확하게 식별하고 반응하는 것이 지능의 주목할만한 특성 중 하나이기 때문입니다. 다시 말해서, 기계에게 생각하는 법을 가르치려면 기계에게 볼 수 있는 능력을 주어야 합니다.
사용 가능한 디지털 사진 및 비디오의 수가 기하급수적으로 증가함과 함께 딥 러닝 및 인공 신경망의 발전도 현재 컴퓨터 비전의 영광에 기여합니다.
컴퓨터 비전의 간략한 역사
컴퓨터 비전 분야의 첫 번째 실험은 초기 형태의 인공 신경망의 도움으로 1950년대에 시작되었습니다. 그들은 물체의 가장자리를 감지하는 데 사용되었으며 원 및 사각형과 같은 간단한 물체를 정렬할 수 있습니다.
인간의 시각 시스템을 모방하는 것이 인간 지능을 달성하기 위한 전제 조건이기 때문에 컴퓨터 비전은 인공 지능을 향한 디딤돌로 여겨졌습니다. 따라서 1960년대에는 AI를 연구하는 대학도 컴퓨터 비전에 참여했습니다.
1963년 인터넷의 창시자로 여겨지는 래리 로버츠(Larry Roberts)는 2D 사진에서 고체 물체에 대한 3D 정보를 도출하는 과정을 설명했습니다. 그의 논문 "3차원 입체의 기계 인식"은 여전히 컴퓨터 비전 분야의 기초 작업 중 하나로 인정받고 있습니다.
1966년 후반에 AI의 창시자 중 한 명인 Marvin Minsky는 여름 프로젝트로 컴퓨터 비전을 달성할 수 있다고 믿었습니다. 그러나 우리는 모두 무슨 일이 일어났는지 압니다. 1970년대까지 컴퓨터 비전 기술은 손으로 쓴 텍스트나 이미지의 인쇄된 문자를 식별할 수 있는 광학 문자 인식(OCR)과 같은 상업용 응용 프로그램에 사용되었습니다.
1990년대에 주류가 된 인터넷은 컴퓨터 비전의 급속한 발전에 결정적인 역할을 했습니다. 많은 이미지 세트에 쉽게 액세스할 수 있게 되어 알고리즘 교육이 더 쉬워졌습니다.
저렴하고 풍부한 컴퓨팅 성능은 알고리즘 훈련의 용이성에 추가되었습니다. 이것은 또한 컴퓨터 그래픽과 컴퓨터 비전 사이의 상호 작용이 증가하는 시점이었습니다.
다음은 컴퓨터 비전을 오늘날의 강력한 기술로 만든 몇 가지 주목할만한 이정표입니다.
1959년: 이미지를 숫자 그리드로 변환하는 최초의 디지털 이미지 스캐너가 발명되었습니다.
1963: Larry Roberts는 2D 그림에서 고체 물체의 3D 정보를 도출하는 과정을 설명했습니다.
1966: Marvin Minsky는 대학원생에게 컴퓨터에 카메라를 부착하고 본 것을 설명하도록 지시했습니다.
1980년: 후쿠시마 쿠니히코 네오코그니트론. 이것은 현대 CNN(Convolutional Neural Network)의 선구자로 간주됩니다.
2001년: MIT의 두 연구원인 Paul Viola와 Michael Jones는 실시간으로 작동하는 최초의 얼굴 감지 프레임워크를 만들었습니다.
2009년: Google은 자율주행차 프로젝트를 시작했습니다.
2010: Google은 모바일 장치로 캡처한 사진을 기반으로 검색하는 데 유용한 이미지 인식 앱인 Google 고글을 출시했습니다. 같은 해 Facebook은 얼굴 인식을 사용하여 사진에 사람들을 효과적으로 태그하기 시작했습니다.
2011: 얼굴 인식 기술을 사용하여 확인 오사마 빈 라덴의 정체 그가 살해된 후.
2012: Google Brain은 딥 러닝 알고리즘의 도움으로 고양이 사진을 인식할 수 있는 16,000개의 컴퓨터 프로세서로 구성된 신경망을 만들었습니다. 같은 해, 컨볼루션 신경망인 AlexNet은 ImageNet 2012 Challenge에서 15.3%의 상위 5개 오류를 달성했습니다.
2014년: Tesla는 Model S 전기 자동차에 Autopilot을 도입했습니다. 자율주행 시스템은 오프라인 뿐만 아니라 주차도 정밀하게 작동했다.
2015: Google 출시 머신 러닝을 위한 오픈 소스 및 무료 소프트웨어 라이브러리인 TensorFlow. 같은 해 Google은 얼굴 인식을 위한 FaceNet을 도입했습니다.
2016년: 유명한 AR 기반 모바일 게임인 Pokemon GO가 출시되었습니다.
2017: Apple은 얼굴 인식 기능이 있는 iPhone X를 출시했습니다.
2019: UK HighCourt는 자동 안면 인식 기술을 사용하여 군중 속에서 사람을 검색하도록 허용했습니다.
컴퓨터 비전은 어떻게 작동합니까?
컴퓨터 비전은 작게 시작하여 크게 끝납니다.
픽셀 및 색상과 같은 낮은 수준의 기능을 식별하고 분석하는 것으로 시작하는 계층화된 처리 기술을 따릅니다. 점차적으로 선 및 개체와 같은 상위 수준 기능을 분석하기 위해 작동합니다.
달리는 사람들의 이미지를 본다고 가정해 보겠습니다. 스틸 이미지지만 대부분의 경우 컨텍스트를 이해할 수 있습니다. 사람들은 무언가로부터 도망치거나, 무언가를 향해 달리거나, 여유롭게 달리고 있습니다. 이것은 병렬 처리 컴퓨팅이 실시간으로 발생하는 일반적인 예입니다.
이미지의 감정과 맥락을 이해하는 것은 간단합니다. 컴퓨터는 여전히 그 거래를 배우고 있지만 그 속도는 비생물학적 개체에 대해 인상적입니다.
컴퓨터가 어떻게 일기 예보와 같은 정확한 데이터를 제공할 수 있는지 궁금하신가요? 이것이 바로 컴퓨터 비전이 병렬 처리의 형태로 작동하는 곳입니다. 즉, 한 번에 여러 복잡한 데이터 소스로 작업하는 것입니다.
기계의 경우 이미지는 픽셀의 집합일 뿐입니다. 인간과 달리 이미지의 의미를 이해하지 못하고 픽셀만 감지할 수 있습니다. 컴퓨터 비전의 목표는 그 의미적 격차 를 줄이는 것입니다.
광선이 우리 눈의 망막에 닿으면 광수용체라고 하는 특수 세포가 빛을 전기 신호로 변환합니다. 이 전기 신호는 시신경을 통해 뇌로 보내집니다. 그런 다음 뇌는 이러한 신호를 우리가 보는 이미지로 변환합니다.
이것은 뇌에 도달하는 전기 신호가 간단해 보일 때까지 처리됩니다. 뇌가 이러한 신호를 정확히 처리하고 이미지로 변환하는 방법은 아직 완전히 이해되지 않았습니다. 더 정확하게 말하면, 뇌는 블랙박스입니다. 컴퓨터 비전도 마찬가지입니다.
신경망 등이 있습니다. 기계 학습 인간의 두뇌를 모방 하려는 알고리즘. 컴퓨터 비전을 실현 가능하게 만들고 이미지가 무엇에 관한 것인지 이해하는 데 도움이 됩니다. 알고리즘의 경우에도 ML 연구원은 알고리즘이 어떻게 작동하는지 완전히 인식하지 못합니다. 그러나 그 결과는 정량화할 수 있으므로 각 알고리즘의 정확도를 판단할 수 있습니다.
프로세스로서의 컴퓨터 비전은 인간의 비전과 마찬가지로 설명할 수 있습니다. 그러나 신경망이 이미지를 이해하기 위해 어떻게 작동하는지 또는 인간이 시각적 정보를 처리하는 방법에 원격으로 가까운지는 아무도 모릅니다.
즉, 간단한 의미에서 컴퓨터 비전은 패턴 인식에 관한 것입니다. 다음과 같은 기계 학습 기술을 사용하여 비지도 학습, 알고리즘은 시각적 데이터의 패턴을 인식하도록 훈련됩니다. 필요한 이미지 수를 생각한다면 최소한 수백만 또는 수천입니다.
알고리즘이 이미지에서 개를 식별하기를 원한다고 가정합니다. 비지도 학습 기술을 따르는 경우 이미지에 개로 레이블을 지정할 필요가 없습니다. 대신 수천 또는 수백만 개의 이미지를 분석한 후 기계가 개의 특정 특성을 학습합니다.
요컨대, 컴퓨터는 동물(또는 사물)을 개로 만드는 특정 기능을 인식할 수 있습니다. 특정 동물이 "개"라고 불리는 것을 여전히 알지 못할 것입니다. 그러나 레이블이 지정되지 않은 이미지에 개가 포함되어 있는지 여부를 판별하기에 충분한 정보와 경험이 있을 것입니다.
학습 과정을 더 빠르게 하고 싶다면 다음을 수행할 수 있습니다. 감독 학습. 지도 학습에서 이미지에 레이블이 지정되어 알고리즘이 작업을 더 쉽게 수행할 수 있습니다.
픽셀 수준에서 이미지 검사
이미지를 분석하는 알고리즘에 대해 이야기할 때 그들은 인간처럼 그림 전체를 조사하지 않습니다. 대신 래스터 이미지의 주소 지정 가능한 가장 작은 요소인 개별 픽셀을 봅니다.
단순함을 위해 회색조 이미지를 고려해 보겠습니다. 픽셀 값이라고 하는 각 픽셀의 밝기는 0에서 255 사이의 가능한 값 범위를 가진 8비트 정수로 표시됩니다. 0은 검은색으로 간주되고 255는 흰색으로 간주됩니다. 컬러 이미지를 연구하면 상황이 더 복잡해집니다.
알고리즘이 분석하고 학습한다고 말할 때 실제로 이러한 픽셀 값을 학습하는 것입니다. 즉, 컴퓨터는 이러한 수치를 기반으로 이미지를 보고 인식합니다. 이것은 또한 알고리즘이 숫자 값을 보고 이미지에서 패턴을 찾고 유사한 방식으로 사진을 비교한다는 것을 의미합니다.
요컨대, 기계의 경우 이미지를 이해하는 것은 정수 배열을 포함하는 수학적 프로세스입니다.
그런 다음 컨볼루션 신경망이 있습니다.
컨볼루션 신경망(CNN 또는 ConvNet)은 딥 러닝 이미지 데이터 세트에서 특징을 추출할 수 있는 알고리즘. 그것들은 신경망의 범주이며 이미지 인식 및 분류에 대한 인상적인 기능을 가지고 있습니다. 거의 모든 컴퓨터 비전 알고리즘은 합성곱 신경망을 사용합니다.
CNN은 1980년대에 발명되었지만 그래픽 처리 장치(GPU)가 도입될 때까지는 정확히 실현 가능하지 않았습니다. GPU는 컨볼루션 신경망 및 기타 신경망을 크게 가속화할 수 있습니다. 2004년에 CNN의 GPU 구현은 동등한 CPU 구현보다 20배 더 빨랐습니다.
CNN은 어떻게 합니까?
ConvNet은 입력 이미지에서 학습하고 매개변수(가중치 및 편향)를 조정하여 더 나은 예측을 만듭니다. CNN은 이미지를 행렬처럼 취급하고 가장자리, 깊이 및 질감과 같은 공간 정보를 추출합니다. ConvNet은 다음을 사용하여 이 작업을 수행합니다. 컨볼루션 레이어 그리고 풀링.
CNN의 아키텍처는 우리 뇌의 뉴런 연결 패턴과 유사합니다. CNN은 시각 정보를 수신하고 처리하는 뇌 영역인 시각 피질의 조직에서 영감을 받아 만들어졌습니다.

CNN은 뇌의 생물학적 뉴런의 수학적 대응물인 퍼셉트론(perceptron)이라는 인공 뉴런의 여러 층으로 구성됩니다. 퍼셉트론은 생물학적 대응물도 대략적으로 모방합니다.
컨볼루션 신경망은 입력 레이어 , 다중 은닉 레이어 및 출력 레이어 로 구성됩니다.
숨겨진 레이어에는 다음이 포함됩니다.
- 컨볼루션 레이어
- ReLU(Rectified Linear Activation Function) 레이어
- 정규화 계층
- 풀링 레이어
- 완전히 연결된 레이어
다음은 그들이 하는 일에 대한 간단한 설명입니다.
CNN이 이미지를 처리할 때 각 레이어는 이미지 픽셀에서 고유한 특징을 추출합니다. 첫 번째 레이어는 수평 및 수직 가장자리와 같은 기본 특성을 감지하는 역할을 합니다.
신경망으로 더 깊이 들어갈수록 레이어는 모양 및 모서리와 같은 복잡한 기능을 감지하기 시작합니다. 합성곱 신경망의 마지막 계층은 얼굴, 건물 및 장소와 같은 특정 기능을 감지할 수 있습니다.
복잡한 신경망의 출력 레이어는 숫자 정보가 포함된 테이블을 제공합니다. 이 표는 이미지에서 특정 개체가 식별되었을 확률을 나타냅니다.
컴퓨터 비전 작업의 예
컴퓨터 비전은 컴퓨터가 볼 수 있도록 하는 컴퓨터 과학 및 AI의 한 분야입니다. 컴퓨터가 이 분야를 활용할 수 있는 많은 방법이 있습니다. 이미지에서 물체나 활동을 식별하려는 이러한 시도를 컴퓨터 비전 작업이라고 합니다.
다음은 일반적인 컴퓨터 비전 작업 중 일부입니다.
- 물체 감지: 이미지에서 특정 물체를 감지하는 데 사용되는 기술입니다. 고급 버전은 복잡한 거리의 사진에서 건물, 자동차, 사람, 신호등 등과 같이 단일 이미지에서 여러 개체를 식별할 수 있습니다.
- 이미지 분류: 이미지를 범주로 그룹화합니다. 이미지에 레이블을 지정하는 프로세스라고도 할 수 있습니다.
- 얼굴 인식: 이미지에서 사람을 식별하고 얼굴을 인식할 수 있는 고급 형태의 물체 인식입니다.
- 이미지 분할: 이미지를 여러 조각으로 분할하여 개별적으로 검사합니다.
- 패턴 감지: 시각적 데이터에서 패턴과 규칙성을 인식하는 프로세스입니다.
- 에지 감지: 이미지의 구성 요소를 더 잘 식별하기 위해 물체의 에지를 감지하는 프로세스입니다.
- 특징 일치: 분류하기 위해 이미지의 유사성을 일치시키는 패턴 감지 유형입니다.
이미지 인식 소프트웨어 응용 프로그램은 이러한 컴퓨터 비전 기술 중 하나만 사용할 수 있습니다. 자율 주행 자동차와 같은 고급 응용 프로그램은 동시에 여러 기술을 사용합니다.
실제 컴퓨터 비전 애플리케이션
컴퓨터 비전은 오늘날 우리가 사용하는 많은 제품에 이미 융합되어 있습니다. Facebook은 CV를 사용하여 사람들을 자동으로 태그합니다. Google 포토는 이를 사용하여 이미지를 그룹화하고 Adobe Lightroom과 같은 소프트웨어 응용 프로그램은 이를 사용하여 확대된 이미지의 세부 사항을 향상시킵니다. 또한 자동화에 의존하는 제조 공정의 품질 관리에도 광범위하게 사용됩니다.
다음은 여러분이 접했을 수도 있는 컴퓨터 비전의 실제 응용 프로그램입니다.
얼굴 인식
컴퓨터 비전의 가장 좋은 사용 사례 중 하나는 얼굴 인식 분야입니다. 2017년 Apple의 iPhone X 모델과 함께 주류를 이루었고 이제 대부분의 스마트폰에서 표준 기능이 되었습니다.
얼굴 인식 기술은 여러 경우에 인증 기능으로 사용됩니다. 그렇지 않으면 Facebook의 경우와 같이 사람을 식별하는 데 사용됩니다. 법 집행 기관은 얼굴 인식 기술을 사용하여 비디오 피드에서 범법자를 식별하는 것으로 알려져 있습니다.
자율주행차
자율 주행 자동차는 실시간 이미지 분석을 위해 컴퓨터 비전에 크게 의존합니다. 자율 주행 차량이 주변 환경을 인식하도록 도와줍니다. 그러나 이러한 자동차의 기술은 아직 초기 단계에 있으며 교통량이 많은 도로에 자신 있게 배치할 수 있으려면 추가 개발이 필요합니다.
자율주행차는 컴퓨터 비전 없이는 사실상 불가능합니다. 이 기술은 자율주행 차량이 실시간으로 시각적 데이터를 처리할 수 있도록 도와줍니다. 응용 프로그램의 한 예는 3D 지도 작성입니다. 물체 식별 및 분류와 함께 컴퓨터 비전은 차량에 주변 환경을 제공하는 3D 지도를 만드는 데 도움이 될 수 있습니다.
차량 및 차선 감지는 또 다른 두 가지 중요한 사용 사례입니다. 그런 다음 자율 주행 자동차 영역에서 꽤 유명한 여유 공간 감지가 있습니다. 이름에서 알 수 있듯이 차량 주변에 장애물이 없는 공간을 결정하는 데 사용됩니다. 여유 공간 감지는 자율 주행 차량이 느리게 움직이는 차량에 접근하여 차선을 변경해야 할 때 유용합니다.
의료 영상
컴퓨터 비전은 의료 산업에서 더 빠르고 정확한 진단을 내리고 질병의 진행을 모니터링하는 데 사용됩니다. 의사는 패턴 인식을 사용하여 인간의 눈에는 보이지 않을 수 있는 암과 같은 질병의 초기 증상을 감지할 수 있습니다.
의료 영상은 많은 이점이 있는 또 다른 중요한 응용 프로그램입니다. 의료 영상 분석은 의료 전문가가 영상을 분석하는 데 걸리는 시간을 줄여줍니다. 내시경, X선 방사선 촬영, 초음파 및 자기공명영상(MRI)은 컴퓨터 비전을 사용하는 의료 영상 분야 중 일부입니다.
CNN을 의료 영상과 결합하여 의료 전문가는 내부 장기를 관찰하고 이상을 감지하며 특정 질병의 원인과 영향을 이해할 수 있습니다. 또한 의사가 질병의 진행과 치료의 진행 상황을 모니터링하는 데 도움이 됩니다.
콘텐츠 검토
Facebook과 같은 소셜 미디어 네트워크는 매일 수백만 개의 새로운 게시물을 검토해야 합니다. 게시된 모든 이미지 또는 비디오를 검토하는 콘텐츠 조정 팀을 갖는 것은 비현실적이므로 컴퓨터 비전 시스템은 프로세스를 자동화하는 데 사용됩니다.
3억 5천만
사진은 매일 Facebook에 업로드됩니다.
출처: 소셜 리포트
컴퓨터 비전은 이러한 소셜 미디어 플랫폼이 업로드된 콘텐츠를 분석하고 금지된 콘텐츠가 포함된 콘텐츠에 플래그를 지정하는 데 도움이 될 수 있습니다. 기업은 텍스트 분석에 딥 러닝 알고리즘을 사용하여 불쾌감을 주는 콘텐츠를 식별하고 차단할 수도 있습니다.
감시
감시 비디오 피드는 확실한 증거입니다. 그들은 법 위반자를 발견하는 데 도움이 될 수 있으며 보안 전문가가 사소한 문제가 재앙이 되기 전에 조치를 취하도록 도울 수 있습니다.
인간이 여러 출처의 감시 영상을 감시하는 것은 사실상 불가능합니다. 그러나 컴퓨터 비전을 사용하면 이 작업이 단순화됩니다. CV 기반 감시 시스템은 실시간 영상을 스캔하고 의심스러운 행동을 보이는 사람을 감지할 수 있습니다.
얼굴 인식은 수배범을 식별하여 범죄를 예방하는 데 사용할 수 있습니다. 이미지 인식 기술을 사용하여 혼잡한 지역에서 위험한 물건을 운반하는 개인을 감지할 수 있습니다. 쇼핑몰에서 사용할 수 있는 무료 주차 공간의 수를 결정하는 데에도 동일하게 사용됩니다.
컴퓨터 비전의 도전
컴퓨터가 볼 수 있도록 돕는 것은 생각보다 어렵습니다.
Marvin Minsky는 카메라를 컴퓨터에 연결하면 컴퓨터 비전을 해결할 수 있다고 확신했습니다. 수십 년에 걸친 연구에도 불구하고 우리는 문제를 해결할 수 있는 방법이 없습니다. 인간에게 시력은 너무나 쉬운 일입니다. 이것이 바로 컴퓨터 비전이 하찮은 단순한 문제로 여겨져 여름에 해결되어야 했던 이유입니다.
우리의 지식은 제한적입니다
우리가 컴퓨터 비전 문제를 완전히 풀 수 없는 한 가지 이유는 우리 자신에 대한 제한된 지식 때문입니다. 우리는 인간의 시각 시스템이 어떻게 작동하는지 완전히 이해하지 못합니다. 물론 생물학적 시각에 대한 연구는 비약적인 발전을 이루었지만 아직 갈 길이 멉니다.
시각적 세계는 복잡하다
CV 분야의 도전적인 문제는 시각적 세계의 자연스러운 복잡성입니다. 어떤 각도, 어떤 조명 조건, 다양한 거리에서 물체를 볼 수 있습니다. 인간의 광학 시스템은 일반적으로 그러한 무한한 변화로 물체를 보고 이해할 수 있지만 기계의 능력은 여전히 매우 제한적입니다.
또 다른 한계는 상식이 부족하다는 것입니다. 수년간의 연구에도 불구하고 우리는 아직 AI 시스템에서 상식을 재창조하지 못하고 있습니다. 인간은 특정 사물을 이해하기 위해 상식과 배경 지식을 적용할 수 있습니다. 이것은 또한 우리가 이미지의 서로 다른 엔티티 간의 관계를 쉽게 이해할 수 있도록 합니다.
인간은 적어도 컴퓨터와 비교할 때 추측에 능합니다. 이전에 특정 문제에 직면한 적이 없더라도 나쁘지 않은 결정을 내리는 것이 더 쉽습니다. 그러나 기계의 경우에는 그렇지 않습니다. 훈련 사례와 다른 상황에 직면하면 비합리적으로 행동하는 경향이 있습니다.
컴퓨터 비전 알고리즘은 새로운 시각적 데이터 세트로 훈련하면 눈에 띄게 향상됩니다. 그러나 핵심은 픽셀 패턴을 일치시키려는 것입니다. 즉, 픽셀에 대한 지식을 제외하고는 이미지에서 무슨 일이 일어나고 있는지 정확히 이해하지 못합니다. 그러나 자율주행 자동차에서 CV 구동 시스템이 하는 놀라운 일을 생각하는 것은 매혹적입니다.
CV는 하드웨어 바인딩됨
컴퓨터 비전에서 대기 시간은 악입니다.
자율 주행 자동차와 같은 실제 응용 프로그램에서 이미지 처리 및 분석은 거의 즉각적으로 이루어져야 합니다. 예를 들어, 시속 30마일로 주행하는 자율주행 차량이 100미터 떨어진 곳에서 장애물을 감지하면 안전하게 정지하거나 회전하는 데 몇 초 밖에 걸리지 않습니다.
자동차가 제 시간에 작동하려면 AI 시스템이 주변 환경을 이해하고 밀리초 내에 결정을 내려야 합니다. 컴퓨터 비전 시스템은 카메라와 같은 하드웨어 구성 요소에 크게 의존하기 때문에 데이터 전송 또는 계산에서 1초의 1초라도 지연되면 치명적인 사고가 발생할 수 있습니다.
좁은 AI로는 충분하지 않습니다.
일부 AI 연구원은 인공 일반 지능(AGI)의 잠금을 해제해야 20/20 컴퓨터 비전을 달성할 수 있다고 생각합니다. 의식이 인간의 시각 시스템에서 중요한 역할을 하는 것처럼 보이기 때문입니다. 우리가 보고 관찰하는 만큼 상상합니다. 우리의 상상력은 우리가 보는 시각 자료를 보강하고 더 나은 의미를 부여합니다.
또한 시각 지능은 지능과 불가분의 관계가 아닙니다. 복잡한 생각을 처리하는 능력은 주변 환경을 보고 이해하는 능력을 보완했습니다.
많은 연구자에 따르면 인터넷에서 다운로드한 수백만 개의 이미지 또는 비디오 피드에서 학습하는 것은 진정한 컴퓨터 비전을 달성하는 데별로 도움이 되지 않습니다. 대신 AI 개체는 인간처럼 경험해야 합니다. 다시 말해, 현재 우리가 가지고 있는 인공지능의 수준인 좁은 AI로는 충분하지 않습니다.
우리가 일반 정보를 얻을 수 있는 기간은 여전히 논쟁의 여지가 있습니다. 일부는 AGI가 수십 년 안에 달성될 수 있다고 생각합니다. 다른 사람들은 이것이 다음 세기의 일이라고 제안합니다. 그러나 대다수의 연구자들은 AGI는 달성할 수 없으며 SF 장르에서만 존재할 것이라고 생각합니다.
달성 가능 여부에 관계없이 진정한 컴퓨터 비전을 잠금 해제하기 위해 시도할 수 있는 다른 방법이 많이 있습니다. 양질의 다양한 데이터를 제공하는 것도 한 가지 방법입니다. 이렇게 하면 컴퓨터 비전 기술에 의존하는 시스템이 편견을 피할 수 있습니다.
인공 신경망의 강점을 확대하는 더 나은 방법을 찾고, 강력한 GPU 및 기타 필요한 하드웨어 구성 요소를 만들고, 인간의 시각 시스템을 이해하는 것은 진정한 컴퓨터 비전으로 나아가는 몇 가지 방법입니다.
기계에 비전을 선물하다
이미지 인식 모델의 오류율이 급격히 떨어지고 있습니다. 우리는 인쇄된 글자를 감지하는 것에서 사람의 얼굴을 정확하게 식별하는 것까지 먼 길을 왔습니다. 그러나 갈 길이 멀고 정복해야 할 새로운 이정표가 많이 있습니다. 진정한 컴퓨터 비전을 달성하는 것은 인간만큼 정교하고 지능적인 로봇을 만드는 열쇠 중 하나가 될 것입니다.
프로세스가 디지털 방식으로 실행될 수 있다면 기계 학습은 결국 그 일부가 될 것입니다. 완전히 확신이 서지 않는다면 동일한 기술이 거의 모든 산업 분야를 강타하고 있음을 암시하는 51가지 기계 학습 통계가 있습니다.