훈련 데이터란 무엇입니까? 기계 학습에서 사용되는 방법
게시 됨: 2021-07-30기계 학습 모델은 학습된 데이터만큼 우수합니다.
고품질 교육 데이터 없이는 가장 효율적인 기계 학습 알고리즘이 수행되지 않습니다.
품질, 정확, 완전 및 관련 데이터의 필요성은 교육 프로세스 초기에 시작됩니다. 알고리즘에 좋은 훈련 데이터가 제공되는 경우에만 기능을 쉽게 선택하고 예측하는 데 필요한 관계를 찾을 수 있습니다.
더 정확하게 말하면, 양질의 훈련 데이터 는 다른 어떤 것보다 기계 학습(및 인공 지능)의 가장 중요한 측면입니다. 머신 러닝(ML) 알고리즘을 올바른 데이터에 도입하면 정확성과 성공을 위해 설정하는 것입니다.
훈련 데이터란 무엇입니까?
훈련 데이터는 기계 학습 알고리즘을 훈련하는 데 사용되는 초기 데이터 세트입니다. 모델은 이 데이터를 사용하여 규칙을 만들고 수정합니다. 머신 러닝 모델의 매개변수를 예제로 훈련하는 데 사용되는 데이터 샘플 세트입니다.
훈련 데이터는 훈련 데이터 세트, 학습 세트 및 훈련 세트라고도 합니다. 이는 모든 기계 학습 모델의 필수 구성 요소이며 정확한 예측을 하거나 원하는 작업을 수행하는 데 도움이 됩니다.
간단히 말해서, 훈련 데이터는 기계 학습 모델을 구축합니다. 예상 출력이 어떻게 보이는지 알려줍니다. 모델은 데이터 세트를 반복적으로 분석하여 특성을 깊이 이해하고 더 나은 성능을 위해 자체적으로 조정합니다.
더 넓은 의미에서 훈련 데이터는 레이블이 있는 데이터 와 레이블이 없는 데이터 의 두 가지 범주로 분류할 수 있습니다.
레이블이 지정된 데이터는 무엇입니까?
레이블 이 지정된 데이터는 하나 이상의 의미 있는 레이블로 태그가 지정된 데이터 샘플 그룹입니다. 주석이 달린 데이터라고도 하며 해당 레이블은 특정 특성, 속성, 분류 또는 포함된 개체를 식별합니다.
예를 들어 과일 이미지에 사과, 바나나 또는 포도 로 태그를 지정할 수 있습니다.
레이블이 지정된 훈련 데이터는 다음에서 사용됩니다. 감독 학습. 이를 통해 ML 모델은 새로운 데이터 포인트를 분류하는 데 사용할 수 있는 특정 레이블과 관련된 특성을 학습할 수 있습니다. 위의 예에서 이는 모델이 레이블이 지정된 이미지 데이터를 사용하여 특정 과일의 특징을 이해하고 이 정보를 사용하여 새 이미지를 그룹화할 수 있음을 의미합니다.
데이터 레이블 지정 또는 주석은 사람이 데이터 요소에 태그를 지정하거나 레이블을 지정해야 하므로 시간이 많이 소요되는 프로세스입니다. 레이블이 지정된 데이터 수집은 어렵고 비용이 많이 듭니다. 레이블이 지정되지 않은 데이터와 비교할 때 레이블이 지정된 데이터를 저장하는 것은 쉽지 않습니다.
레이블이 지정되지 않은 데이터란 무엇입니까?
예상대로 레이블이 지정되지 않은 데이터 는 레이블이 지정된 데이터의 반대입니다. 분류, 특성 또는 속성을 식별하기 위한 레이블로 태그가 지정되지 않은 원시 데이터 또는 데이터입니다. 에 사용됩니다 감독되지 않은 기계 학습과 ML 모델은 결론에 도달하기 위해 데이터에서 패턴이나 유사점을 찾아야 합니다.
사과 , 바나나 및 포도 의 이전 예제로 돌아가서 레이블이 지정되지 않은 훈련 데이터에서 해당 과일의 이미지에는 레이블이 지정되지 않습니다. 모델은 색상 및 모양과 같은 특성을 보고 각 이미지를 평가해야 합니다.
상당한 수의 이미지를 분석한 후 모델은 새 이미지(새 데이터)를 사과 , 바나나 또는 포도 의 과일 유형으로 구분할 수 있습니다. 물론 모델은 특정 과일이 사과라는 것을 모를 것입니다. 대신 식별하는 데 필요한 특성을 알고 있습니다.
지도 및 비지도 기계 학습의 조합을 사용하는 하이브리드 모델이 있습니다.
머신 러닝에서 훈련 데이터가 사용되는 방식
기계 학습 알고리즘과 달리 기존 프로그래밍 알고리즘은 일련의 명령을 따라 입력 데이터를 수락하고 출력을 제공합니다. 그들은 과거 데이터에 의존하지 않으며 그들이 수행하는 모든 작업은 규칙 기반입니다. 이것은 또한 기계 학습의 경우가 아닌 시간이 지남에 따라 개선되지 않는다는 것을 의미합니다.
기계 학습 모델의 경우 기록 데이터는 사료입니다. 인간이 더 나은 결정을 내리기 위해 과거 경험에 의존하는 것처럼 ML 모델은 예측을 위해 과거 관찰이 포함된 훈련 데이터 세트를 살펴봅니다.
예측에는 다음과 같이 이미지 분류가 포함될 수 있습니다. 이미지 인식 또는 자연어 처리(NLP)에서와 같이 문장의 맥락을 이해합니다.
데이터 과학자를 교사로, 기계 학습 알고리즘을 학생으로, 훈련 데이터 세트를 모든 교과서의 모음으로 생각하십시오.
교사의 열망은 학생이 시험과 실생활에서 잘 수행되어야 하는 것입니다. ML 알고리즘의 경우 테스트는 시험과 같습니다. 교과서(교육 데이터 세트)에는 시험에서 출제될 질문 유형의 몇 가지 예가 포함되어 있습니다.
팁: 빅데이터 분석을 확인하세요 빅 데이터가 어떻게 수집, 구조화, 정리 및 분석되는지 알 수 있습니다.
물론 시험에서 출제되는 모든 문제의 예가 포함되어 있지 않으며 교과서에 포함된 모든 예가 시험에서 출제되지도 않습니다. 교과서는 학생들에게 무엇을 기대하고 어떻게 대응해야 하는지 가르쳐줌으로써 학생을 준비시키는 데 도움이 될 수 있습니다.
어떤 교과서도 완전히 완성될 수 없습니다. 시간이 지남에 따라 질문의 종류가 달라지고 교과서에 수록된 정보도 달라져야 합니다. ML 알고리즘의 경우 새로운 정보를 포함하도록 훈련 세트를 주기적으로 업데이트해야 합니다.
요컨대, 훈련 데이터는 데이터 과학자가 ML 알고리즘에 무엇을 기대해야 하는지에 대한 아이디어를 제공하는 데 도움이 되는 교과서입니다. 훈련 데이터 세트에 가능한 모든 예가 포함되어 있지는 않지만 예측을 할 수 있는 알고리즘을 만들 것입니다.
훈련 데이터 vs. 테스트 데이터 vs. 검증 데이터
훈련 데이터 는 모델 훈련에 사용됩니다. 즉, 모델을 맞추는 데 사용되는 데이터입니다. 반대로 테스트 데이터 는 모델의 성능이나 정확도를 평가하는 데 사용됩니다. 훈련 데이터에 맞는 최종 모델의 편견 없는 평가를 만드는 데 사용되는 데이터 샘플입니다.
훈련 데이터 세트는 ML 모델이 원하는 패턴을 식별하거나 특정 작업을 수행하도록 가르치는 초기 데이터 세트입니다. 테스트 데이터 세트는 훈련이 얼마나 효과적인지 또는 모델이 얼마나 정확한지 평가하는 데 사용됩니다.
ML 알고리즘이 특정 데이터 세트에 대해 훈련되고 동일한 데이터 세트에서 테스트하면 모델이 예상할 내용을 알고 있기 때문에 정확도가 높을 가능성이 더 큽니다. 훈련 데이터 세트에 모델이 미래에 접할 수 있는 모든 가능한 값이 포함되어 있으면 모두 양호합니다.
그러나 결코 그렇지 않습니다. 훈련 데이터 세트는 결코 포괄적일 수 없으며 모델이 실제 세계에서 접할 수 있는 모든 것을 가르칠 수 없습니다. 따라서 보이지 않는 데이터 포인트를 포함하는 테스트 데이터 세트는 모델의 정확도를 평가하는 데 사용됩니다.
그런 다음 유효성 검사 데이터 가 있습니다. 훈련 단계에서 빈번한 평가에 사용되는 데이터 세트입니다. 모델은 이 데이터 세트를 가끔 볼 수 있지만 학습 하지는 않습니다. 검증 세트는 개발 세트 또는 개발 세트라고도 합니다. 과적합 및 과소적합으로부터 모델을 보호하는 데 도움이 됩니다.
검증 데이터는 훈련 데이터와 별개이지만 데이터 과학자는 검증을 위해 훈련 데이터의 일부를 예약할 수 있습니다. 그러나 물론 이것은 자동으로 검증 데이터가 훈련 중에 보관되었음을 의미합니다.
팁: 제한된 양의 데이터가 있는 경우 교차 검증이라는 기술을 사용하여 모델의 성능을 추정할 수 있습니다. 이 방법에는 훈련 데이터를 여러 하위 집합으로 무작위로 분할하고 평가를 위해 하나를 예약하는 것이 포함됩니다.
많은 사람들이 "테스트 데이터"와 "검증 데이터"라는 용어를 같은 의미로 사용합니다. 이 둘의 주요 차이점은 검증 데이터는 훈련 중에 모델을 검증하는 데 사용되는 반면 테스트 세트는 훈련이 완료된 후 모델을 테스트하는 데 사용된다는 것입니다.

검증 데이터 세트는 모델에 보이지 않는 데이터의 첫 맛을 제공합니다. 그러나 모든 데이터 과학자가 검증 데이터를 사용하여 초기 확인을 수행하는 것은 아닙니다. 그들은 이 부분을 건너뛰고 바로 테스트 데이터로 이동할 수 있습니다.
루프에서 인간이란 무엇입니까?
루프에 있는 인간 은 훈련 데이터의 수집 및 준비에 관련된 사람들을 나타냅니다.
원시 데이터는 IoT 장치, 소셜 미디어 플랫폼, 웹 사이트 및 고객 피드백을 비롯한 여러 소스에서 수집됩니다. 일단 수집되면 프로세스에 관련된 개인은 모델이 예측하기를 원하는 결과의 좋은 지표인 데이터의 중요한 속성을 결정할 것입니다.
데이터는 데이터를 정리하고, 누락된 값을 설명하고, 이상값을 제거하고, 데이터 포인트에 태그를 지정하고, ML 알고리즘 교육에 적합한 위치에 로드하여 준비됩니다. 몇 차례의 품질 검사도 있을 것입니다. 알다시피 잘못된 레이블은 모델의 정확도에 큰 영향을 줄 수 있습니다.
훈련 데이터가 좋은 이유는 무엇입니까?
고품질 데이터는 정확한 기계 학습 모델로 변환됩니다.
품질이 낮은 데이터는 모델의 정확도에 큰 영향을 미쳐 심각한 재정적 손실을 초래할 수 있습니다. 그것은 잘못된 정보가 포함된 교과서를 학생에게 주고 시험에서 우수한 성적을 기대하는 것과 거의 같습니다.
다음은 양질의 훈련 데이터의 4가지 주요 특성입니다.
관련 있는
데이터는 당면한 작업과 관련이 있어야 합니다. 예를 들어 훈련을 하고 싶다면 컴퓨터 시각 인식 자율 차량용 알고리즘을 사용하면 과일과 채소 이미지가 필요하지 않을 것입니다. 대신 도로, 인도, 보행자 및 차량 사진이 포함된 훈련 데이터 세트가 필요합니다.
대표
AI 훈련 데이터에는 애플리케이션이 예측하거나 분류하도록 만들어진 데이터 포인트 또는 기능이 있어야 합니다. 물론 데이터 세트가 절대적일 수는 없지만 최소한 AI 애플리케이션이 인식해야 하는 속성이 있어야 합니다.
예를 들어, 모델이 이미지 내의 얼굴을 인식하도록 의도된 경우 다양한 민족의 사람들 얼굴을 포함하는 다양한 데이터가 제공되어야 합니다. 이렇게 하면 AI 편향 문제가 줄어들고 모델은 특정 인종, 성별 또는 연령 그룹에 대해 편견을 갖지 않습니다.
제복
모든 데이터는 동일한 속성을 가져야 하며 동일한 소스에서 가져와야 합니다.
기계 학습 프로젝트가 고객 정보를 보고 이탈률을 예측하는 것을 목표로 한다고 가정합니다. 이를 위해 고객 이름, 주소, 주문 수, 주문 빈도 및 기타 관련 정보가 포함된 고객 정보 데이터베이스가 있습니다. 이것은 과거 데이터이며 훈련 데이터로 사용할 수 있습니다.
데이터의 한 부분에는 연령이나 성별과 같은 추가 정보가 포함될 수 없습니다. 이렇게 하면 훈련 데이터가 불완전해지고 모델이 부정확해집니다. 요컨대, 균일성은 양질의 훈련 데이터의 중요한 측면입니다.
포괄적인
다시 말하지만, 훈련 데이터는 절대 절대일 수 없습니다. 그러나 대부분의 모델 사용 사례를 나타내는 대규모 데이터 세트여야 합니다. 훈련 데이터에는 모델이 적절하게 학습할 수 있도록 충분한 예제가 있어야 합니다. 예상되는 내용을 이해하도록 모델을 훈련하는 데 도움이 되므로 실제 데이터 샘플을 포함해야 합니다.
훈련 데이터를 많은 수의 행과 열에 배치된 값으로 생각하고 있다면 죄송합니다. 잘못된 생각입니다. 텍스트, 이미지, 오디오 또는 비디오와 같은 모든 데이터 유형이 될 수 있습니다.
훈련 데이터 품질에 영향을 주는 것은 무엇입니까?
인간은 고도로 사회적인 동물이지만 어렸을 때부터 선택했을 수 있는 편견이 있으며 이를 없애기 위해서는 끊임없는 의식적인 노력이 필요합니다. 바람직하지 않지만 그러한 편향은 우리의 창작물에 영향을 미칠 수 있으며 기계 학습 응용 프로그램도 다르지 않습니다.
ML 모델의 경우 학습 데이터는 읽는 유일한 책입니다. 그들의 성능이나 정확성은 바로 그 책이 얼마나 포괄적이고 관련성이 있으며 대표적인지에 달려 있습니다.
즉, 훈련 데이터의 품질에 영향을 미치는 세 가지 요소는 다음과 같습니다.
사람: 모델을 훈련시키는 사람은 정확도나 성능에 상당한 영향을 미칩니다. 편향된 경우 데이터에 태그를 지정하는 방식과 궁극적으로 ML 모델이 작동하는 방식에 자연스럽게 영향을 미칩니다.
프로세스: 데이터 라벨링 프로세스에는 엄격한 품질 관리 검사가 있어야 합니다. 이렇게 하면 훈련 데이터의 품질이 크게 향상됩니다.
도구: 호환되지 않거나 오래된 도구는 데이터 품질을 저하시킬 수 있습니다. 강력한 데이터 라벨링 소프트웨어를 사용하면 프로세스와 관련된 비용과 시간을 줄일 수 있습니다.
훈련 데이터를 얻을 수 있는 곳
훈련 데이터를 얻는 방법에는 여러 가지가 있습니다. 소스 선택은 기계 학습 프로젝트의 규모, 예산 및 사용 가능한 시간에 따라 달라질 수 있습니다. 다음은 데이터 수집을 위한 세 가지 기본 소스입니다.
오픈 소스 교육 데이터
데이터 수집이나 레이블 지정을 감당할 수 없는 대부분의 아마추어 ML 개발자와 소규모 비즈니스는 오픈 소스 교육 데이터에 의존합니다. 이미 수집되어 무료로 제공되므로 선택하기 쉽습니다. 그러나 훈련 요구 사항에 맞게 이러한 데이터 세트를 조정하거나 다시 주석을 달아야 할 가능성이 큽니다. ImageNet, Kaggle 및 Google Dataset Search는 오픈 소스 데이터 세트의 몇 가지 예입니다.
인터넷과 사물인터넷
대부분의 중소기업은 인터넷과 IoT 장치를 사용하여 데이터를 수집합니다. 카메라, 센서 및 기타 지능형 장치는 원시 데이터를 수집하는 데 도움이 되며, 이는 나중에 정리되고 주석이 추가됩니다. 이 데이터 수집 방법은 오픈 소스 데이터 세트와 달리 기계 학습 프로젝트의 요구 사항에 특별히 맞춤화됩니다. 그러나 데이터 정리, 표준화 및 레이블 지정은 시간과 리소스가 많이 소요되는 프로세스입니다.
인공 훈련 데이터
인공 훈련 데이터는 이름에서 알 수 있듯이 기계 학습 모델을 사용하여 인공적으로 생성된 데이터입니다. 합성 데이터라고도 하며 알고리즘 학습을 위해 특정 기능이 포함된 양질의 학습 데이터가 필요한 경우 탁월한 선택입니다. 물론 이 방법은 많은 계산 자원과 충분한 시간이 필요합니다.
얼마나 많은 훈련 데이터가 충분합니까?
얼마나 많은 훈련 데이터가 충분한 훈련 데이터인지에 대한 구체적인 답은 없습니다. 학습 중인 알고리즘(예상 결과, 응용 프로그램, 복잡성 및 기타 여러 요인)에 따라 다릅니다.
"cat" 및 "dog"라는 용어와 동의어(예: "kitty", "kitten", "pussycat", "puppy" 또는 "doggy")의 발생에 따라 문장을 분류하는 텍스트 분류기를 훈련하려고 한다고 가정합니다. . 일치하고 정렬할 용어가 몇 개뿐이므로 큰 데이터 세트가 필요하지 않을 수 있습니다.
그러나 이것이 이미지를 "고양이"와 "개"로 분류하는 이미지 분류기라면 훈련 데이터 세트에 필요한 데이터 포인트의 수가 크게 증가할 것입니다. 요컨대, 어떤 훈련 데이터가 충분한 훈련 데이터인지를 결정하기 위해 많은 요소가 작용합니다.
필요한 데이터의 양은 사용된 알고리즘에 따라 달라집니다.
문맥상, 머신 러닝의 하위 집합인 딥 러닝은 인공 신경망(ANN)을 훈련하기 위해 수백만 개의 데이터 포인트가 필요합니다. 대조적으로, 기계 학습 알고리즘에는 수천 개의 데이터 포인트만 필요합니다. 그러나 물론 필요한 데이터의 양이 애플리케이션에 따라 다르기 때문에 이것은 무리한 일반화입니다.
모델을 더 많이 훈련할수록 더 정확해집니다. 따라서 항상 많은 양의 데이터를 학습 데이터로 사용하는 것이 좋습니다.
쓰레기 인, 쓰레기 아웃
"가비지 인, 가비지 아웃"이라는 문구는 데이터 과학에서 가장 오래되고 가장 많이 사용되는 문구 중 하나입니다. 데이터 생성 속도가 기하급수적으로 증가함에도 불구하고 이는 여전히 유효합니다.
핵심은 고품질의 대표적인 데이터를 기계 학습 알고리즘에 제공하는 것입니다. 이렇게 하면 모델의 정확도가 크게 향상될 수 있습니다. 좋은 품질의 교육 데이터는 편견 없는 기계 학습 애플리케이션을 만드는 데도 중요합니다.
인간과 같은 지능을 가진 컴퓨터가 무엇을 할 수 있을지 생각해 본 적이 있습니까? 인간 지능에 해당하는 컴퓨터는 인공 일반 지능으로 알려져 있으며 이것이 가장 위대한 발명이 될 것인지 아니면 가장 위험한 발명이 될 것인지 아직 결론을 내리지 못했습니다.