기계 학습에 대해 알아야 할 모든 것 [데이터 과학자 인터뷰]
게시 됨: 2022-05-25공상 과학은 세계를 장악하는 기계의 미래에 대한 많은 공포 그림을 그렸습니다. 강력한 기계에 대한 이러한 암울한 비전은 사람들이 AI와 기계 학습에 대해 가지고 있는 많은 오해 중 일부입니다.
이 기사에서는 기계 학습 전문가 Juuso Lassila 가 기계 학습에 대해 가장 자주 묻는 질문에 답하고 기계가 세계를 장악할 준비가 되지 않은 이유를 알려줍니다.
1. 머신 러닝이란 무엇입니까?
머신 러닝은 기계가 프로그래밍되지 않고 학습할 수 있음을 의미합니다. 머신 러닝과 AI는 종종 동의어로 잘못 사용되지만 동일하지는 않습니다. 기계 학습은 실제로 AI의 하위 집합입니다.
“AI는 상당히 잘못 정의된 용어입니다. 의미는 무엇이든 될 수 있습니다.”라고 Lassila는 설명합니다.
머신 러닝과 AI의 가장 큰 차이점은 AI가 항상 데이터를 필요로 하는 것은 아니라는 점입니다. 예를 들어 지도에서 최적의 경로를 찾는 것이 AI라고 말하는 사람들도 있습니다. 이 프로세스는 데이터 기반이 아니라 알고리즘 입니다.
반면 머신 러닝은 데이터를 사용하여 학습하는 AI입니다. 기계 학습의 이점은 프로그래머가 모델이 문제를 해결하는 방법을 알 필요가 없다는 것입니다. 이것은 기계가 프로그래머가 알지 못하는 기술을 사용할 수 있음을 의미합니다. 오늘날 기계 학습은 많은 산업에서 중요한 역할을 합니다.
2. 머신 러닝은 어떻게 사용됩니까?
머신 러닝은 데이터와 그 안의 구조를 이해하려고 합니다. 간단히 말해서 인터넷에서 사랑받는 고양이와 강아지 사진을 찍어봅시다! 따라서 좋아하는 털복숭이 친구들의 이미지가 수백 개 있는 경우 무작위 순서로 머신 러닝을 사용하여 이러한 이미지를 구별할 수 있습니다. 예를 들어, 기계는 데이터를 정리하여 고양이 사진만 남도록 할 수 있습니다.
"머신 러닝은 사용자가 제공하는 데이터에서 값을 예측하고 해당 데이터를 이해하게 됩니다."라고 Lassila는 말합니다.
머신 러닝을 사용하는 일반적인 방법은 위의 고양이와 개 사진이 있는 예제와 같이 데이터를 분류하는 것입니다. 그러나 기계 학습은 AI 챗봇 과 다양한 유형의 예측에도 사용됩니다. 예를 들어, 머신 러닝은 크기, 위치, 건축 연도 등의 정보를 기반으로 집의 가치를 추정하는 데 사용할 수 있습니다.
3. 기계는 어떻게 학습합니까?
머신 러닝은 일반적으로 모델의 오류를 최소화하려고 합니다. 첫째, 무작위 답변으로 시작됩니다. 그러면 인간이 정답을 제시한다고 Lassila는 설명합니다.
기계가 제공한 답변이 얼마나 잘못되었는지 측정하는 방법이 있습니다. 일부 기계 학습 모델에서는 미분을 사용하여 오류를 최소화합니다.
미분 을 통해 오류 함수의 값을 줄이기 위해 매개변수를 변경해야 하는 방향을 계산할 수 있습니다.
“그러면 함수의 값이 감소하도록 매개변수를 변경하는 방법을 알게 됩니다. 그런 다음 매개변수를 변경하여 더 작은 오류를 향한 작은 발걸음을 내디뎠습니다. 그렇게 하면 오류를 최소화할 수 있습니다.”라고 Lassila는 말합니다.
4. 기계에 오류가 없을 수 있습니까?
이론상 오류가 없을 수도 있지만 실제 세계에서는 실제로 발생하지 않습니다. 최상의 경우에도 기계는 데이터의 99.9%만 정확하게 얻을 수 있습니다.
"분류를 위해 정확도를 측정할 수 있습니다."라고 Lassila는 말합니다. 일반적으로 90-95% 정확도는 상당히 좋은 것으로 간주됩니다. 오류 마진이 충분히 낮으면 기계가 생산에 들어갈 준비가 된 것입니다. 제품이 가동되기 전에 오류 마진이 얼마나 낮아야 하는지는 기계가 수행해야 하는 작업에 따라 다릅니다.
AI 챗봇에 대해 이야기할 때 AI 챗봇은 가능한 많은 예제 질문을 가질 수 있기 때문에 언제 봇이 성가신 것보다 더 도움이 될지 말하기 어렵습니다. 기계는 항상 사용 가능한 답변 중에서 가장 좋은 것을 선택해야 합니다. 기계가 얼마나 정확한지는 얼마나 많은 예제 질문이 있는지에 달려 있습니다.
“한 가지 질문이 있다면 기계는 항상 옳습니다. 질문이 2개라면 정답인 경우가 많지만 100개의 질문이 있으면 기계가 오답을 고를 가능성이 큽니다.”라고 Lassila는 설명합니다.
5. 딥 러닝이란 무엇입니까?
딥 러닝 은 모델의 레이어를 사용하는 머신 러닝의 한 방법입니다. 한 레이어는 출력을 생성하고 그 출력은 두 번째 레이어로 전송되는 식입니다. 딥 러닝은 일반적으로 신경망 에서 수행됩니다.
"신경망은 다양한 입력 및 출력 형식에 잘 적응하기 때문에 매우 편리합니다."라고 Lassila는 말합니다.
신경망은 매우 다재다능하기 때문에 많은 사용 사례가 있습니다. AI 챗봇은 일반적으로 신경망도 사용합니다.
“우리는 공간의 벡터 포인트인 메시지에서 문장 임베딩을 만듭니다. 그런 다음 유사성을 측정합니다. 신경망을 사용합니다. 레이어가 많고 마지막에 출력을 제공합니다.”라고 Lassila는 설명합니다.
딥하지 않은 머신 러닝 방법도 많이 있습니다. 지원 벡터 머신 또는 의사 결정 트리 와 같은 것입니다.
6. 머신 러닝의 병목 현상은 무엇입니까?
데이터는 머신 러닝을 제한하는 요소 중 하나입니다. 데이터가 없으면 기계 학습이 작동하지 않습니다. 컴퓨터 리소스도 필요합니다. 종종 모델도 제한을 야기합니다.
“분류와 같은 기본 작업의 경우 모델이 좋습니다. 그리고 이러한 경우에는 데이터와 계산 리소스의 제약을 받습니다. 그러나 일부 영역에서는 모델이 아직 좋지 않습니다.”라고 Lassila는 말합니다.
해당 데이터를 계산할 리소스가 있는 한 데이터가 많을수록 좋습니다. 그러나 데이터의 품질이 좋아야 합니다. 또한 모델이 얻을 수 있는 모든 복잡한 입력을 처리할 수 있도록 모델이 커야 합니다. 기계가 해당 데이터를 처리하려면 많은 처리 능력이 필요합니다.

“많은 데이터에 접근할 수 있습니다. 그게 진짜 문제가 아니야.” 라실라가 말합니다. “문제는 모델과 모델을 훈련하는 데 걸리는 시간입니다. 이러한 모델을 저장하려면 많은 메모리가 필요합니다.”
머신 러닝의 또 다른 함정은 일부 작업에 현재 사용 가능한 모델 아키텍처입니다. 현재 문장 임베딩을 위한 좋은 모델 아키텍처는 없습니다.
"정말 좋은 모델을 찾기 위한 연구는 여전히 진행 중입니다."라고 Lassila는 말합니다.
7. 기계를 어떻게 가르칩니까?
먼저 많은 데이터가 필요하고 모델을 훈련하는 데 사용하는 데이터에는 사람의 레이블이 필요합니다.
Lassila는 "머신 러닝을 사용하는 대기업에는 데이터에 레이블만 지정하는 군대가 있습니다."라고 설명합니다.
봇이 시간이 지남에 따라 데이터에 레이블을 지정할 수 있더라도 모델이 제공하는 답변을 훈련 데이터로 사용하고 싶지는 않습니다. 모델은 인간보다 오류를 더 많이 만듭니다. 머신 레이블링을 훈련 데이터로 사용하는 경우 해당 오류를 모델에 다시 가르칩니다.
“그러면 오류가 점점 더 커질 것입니다. "
모델이 레이블을 지정하는 데 유용한 데이터 요소의 종류를 말할 수 있는 능동 학습 을 사용할 수도 있습니다. 이것은 학습을 더 효율적으로 만들 수 있습니다. “기계가 라벨링 과정을 안내할 수 있습니다. 그래도 사람은 오류가 전파되지 않도록 레이블을 지정해야 합니다. "
인간이 데이터로 모델을 훈련하면 기계는 보이지 않는 입력에 대해 해당 레이블을 재현할 수 있어야 합니다. 그러나 새로운 답변이 필요한 경우 사람이 데이터에 다시 레이블을 지정해야 합니다.
8. 머신 러닝의 미래는 무엇입니까?
머신 러닝은 현재 매우 빠르게 발전하고 있습니다. 몇 년 전에 또 다른 딥 러닝 모델인 변압기 모델이 도입되었습니다. 트랜스포머 모델의 발견은 머신 러닝에 큰 영향을 미쳤습니다.
“우리는 그 발견을 중심으로 전체 연구 분야를 재구축했습니다. 정말 잘 작동했습니다.”라고 Lassila는 설명합니다.
변환기 모델은 자연어 처리 기능이 있는 AI 챗봇에도 사용됩니다. "그러나 어느 시점에서 우리는 그 아키텍처를 얼마나 잘 사용할 수 있는지에 대한 길의 끝에 도달하게 될 것입니다."라고 Lassila는 말합니다. "더 나은 결과를 제공하는 새로운 것을 찾을 수 있기를 바랍니다."
9. 기계가 세상을 지배할 것인가?
사람들은 AI와 기계 학습에서 너무 많거나 충분하지 않은 것을 기대합니다.
"AI의 기능에 대한 이해가 부족합니다."라고 Lassila는 말합니다.
따라서 아직 기계가 세상을 완전히 장악하지는 못할 것 같습니다. 봇은 그 전에 극복해야 할 몇 가지 장애물이 있습니다.
“모델과 아키텍처는 아직 없습니다. 우리는 좋은 AI를 만들기 위한 데이터와 계산 자원을 가지고 있지만 로봇이 대신할 수 있는 좋은 아키텍처가 여전히 필요합니다.”
AI가 아직 세계를 장악할 준비가 되지 않았지만 일부 직업을 대신하게 될 것입니다.
“일부 직업은 어느 시점에서 AI로 대체될 수 있습니다. 이것은 많은 생각을 필요로 하지 않는 반복적인 작업이 될 것입니다.”라고 Lassila는 말합니다.
AI가 고용 시장을 어떻게 변화시킬지 생각하는 두 가지 방법이 있습니다. 하나는 AI가 일자리를 대체하지만 일자리를 향상시킬 수도 있다는 것입니다. 인간과 함께 일할 수 있습니다. 이에 대한 좋은 예는 웹사이트 방문자를 지원할 수 없을 때 라이브 에이전트에 연결할 수 있는 챗봇 입니다.
"AI는 많은 작업의 효율성을 향상시킬 수 있습니다."
그러나 부정확성에 대처하기 위해서는 여전히 인적 자원이 필요합니다. AI는 인간처럼 생각하지 않는다. 그것은 다른 방법을 사용합니다. 그리고 때때로 그것이 무엇인가를 보여주는 이유가 우리에게 이해가 되지 않을 때가 있습니다.
“AI의 가장 큰 문제 중 하나는 기계가 특정 출력을 생성한 이유를 설명하지 않는다는 것입니다. 모델에게는 말이 될 수 있지만 인간에게는 그렇지 않습니다."
머신 러닝과 AI에 대해 자세히 알아보려면 AI 챗봇 가이드 를 확인하세요 .