로지스틱 회귀란? 사용 시기 알아보기
게시 됨: 2021-07-29인생은 힘든 이진 선택으로 가득 차 있습니다.
그 피자 조각을 먹어야 하나 말아야 하나? 우산을 가지고 다녀야 하나 말아야 하나?
어떤 결정은 찬반 양론을 고려하여 올바르게 내릴 수 있지만, 예를 들어 피자 한 조각에는 추가 칼로리가 포함되어 있으므로 먹지 않는 것이 좋습니다. 어떤 결정은 그렇게 쉽지 않을 수 있습니다.
예를 들어, 특정 날에 비가 올지 아닐지 완전히 확신할 수 없습니다. 그래서 우산을 가지고 다닐지 말지를 결정하는 것은 어려운 일입니다.
올바른 선택을 하려면 예측 기능이 필요합니다. 이 능력은 매우 수익성이 높으며 특히 컴퓨터에서 수많은 실제 응용 프로그램이 있습니다. 컴퓨터는 이진 결정을 좋아합니다. 결국, 그들은 바이너리 코드로 말합니다.
기계 학습 알고리즘, 보다 정확하게는 로지스틱 회귀 알고리즘 은 과거 데이터 포인트를 살펴봄으로써 사건의 가능성을 예측하는 데 도움이 될 수 있습니다. 예를 들어 개인이 선거에서 승리할 것인지 또는 오늘 비가 올 것인지 예측할 수 있습니다.
로지스틱 회귀란?
로지스틱 회귀는 이전 관찰을 기반으로 종속 변수의 결과를 예측하는 데 사용되는 통계적 방법입니다. 회귀 분석의 한 유형이며 이진 분류 문제를 해결하기 위해 일반적으로 사용되는 알고리즘입니다.
회귀 분석 이 무엇인지 궁금하다면 종속 변수와 하나 이상의 독립 변수 간의 관계를 찾는 데 사용되는 일종의 예측 모델링 기법입니다.
독립변수의 예로는 공부하는 시간과 인스타그램에서 보낸 시간을 들 수 있습니다. 이 경우 등급은 종속변수가 됩니다. "공부하는 시간"과 "인스타그램에 보낸 시간"이 모두 성적에 영향을 미치기 때문입니다. 하나는 긍정적이고 다른 하나는 부정적입니다.
로지스틱 회귀는 일련의 독립 변수를 기반으로 이진 결과를 예측하는 분류 알고리즘 입니다. 위의 예에서 이것은 당신이 수업에 합격할지 불합격할지 예측하는 것을 의미합니다. 물론 로지스틱 회귀는 회귀 문제를 해결하는 데 사용할 수도 있지만 주로 분류 문제에 사용됩니다.
팁: 기계 학습 소프트웨어를 사용하여 단조로운 작업을 자동화하고 데이터 기반 의사 결정을 내리십시오.
또 다른 예는 학생이 대학에 합격할지 여부를 예측하는 것입니다. 이를 위해 SAT 점수, 학생의 평균 학점 및 과외 활동 횟수와 같은 여러 요소가 고려됩니다. 이전 결과에 대한 과거 데이터를 사용하여 로지스틱 회귀 알고리즘은 학생들을 "수락" 또는 "거부" 범주로 분류합니다.
로지스틱 회귀는 이항 로지스틱 회귀 또는 이진 로지스틱 회귀라고도 합니다. 응답 변수의 클래스가 두 개 이상인 경우 이를 다항 로지스틱 회귀 라고 합니다. 당연히 로지스틱 회귀는 통계에서 차용되었으며 기계 학습 및 데이터 과학에서 가장 일반적인 이진 분류 알고리즘 중 하나입니다.
알고 계셨나요? 인공 신경망(ANN) 표현은 많은 수의 로지스틱 회귀 분류기를 함께 쌓는 것으로 볼 수 있습니다.
로지스틱 회귀는 종속 변수(예측하고자 하는 것)와 하나 이상의 독립 변수(특징) 간의 관계를 측정하여 작동합니다. 기본 로지스틱 기능의 도움으로 확률을 추정하여 이를 수행합니다.
로지스틱 회귀의 핵심 용어
용어를 이해하는 것은 로지스틱 회귀의 결과를 적절하게 해독하는 데 중요합니다. 통계나 기계 학습을 처음 접하는 경우 특정 용어의 의미를 알면 빠르게 배우는 데 도움이 됩니다.
- 변수: 측정하거나 셀 수 있는 모든 수, 특성 또는 양. 나이, 속도, 성별, 소득이 그 예입니다.
- 계수: 숫자, 일반적으로 정수에 수반되는 변수를 곱한 값입니다. 예를 들어, 12y에서 숫자 12는 계수입니다.
- EXP: 지수의 짧은 형태.
- 이상치: 나머지와 크게 다른 데이터 포인트.
- 추정기( Estimator): 매개변수 추정치를 생성하는 알고리즘 또는 공식.
- 카이제곱 검정: 카이제곱 검정 이라고도 하며 데이터가 예상대로인지 확인하는 가설 검정 방법입니다.
- 표준 오차: 통계적 표본 모집단의 대략적인 표준 편차.
- 정규화: 훈련 데이터 세트에 함수를 (적절하게) 피팅하여 오류 및 과적합을 줄이는 데 사용되는 방법입니다.
- 다중공선성( Multicollinearity): 두 개 이상의 독립변수 사이의 상호상관의 발생.
- 적합도: 통계 모델이 일련의 관찰에 얼마나 잘 맞는지에 대한 설명입니다.
- 승산비: 두 사건 간의 연관성 강도를 측정합니다.
- 로그 우도 함수: 통계 모델의 적합도를 평가합니다.
- Hosmer–Lemeshow 테스트: 관찰된 이벤트 비율이 예상 이벤트 비율과 일치하는지 여부를 평가하는 테스트입니다.
물류 기능이란 무엇입니까?
로지스틱 회귀는 핵심에 사용되는 함수인 로지스틱 함수 의 이름을 따서 명명되었습니다. 통계학자들은 처음에 인구 증가의 속성을 설명하기 위해 그것을 사용했습니다. 시그모이드 함수 와 로짓 함수 는 로지스틱 함수의 일부 변형입니다. 로짓 함수는 표준 로지스틱 함수의 역입니다.
실제로, 그것은 임의의 실수를 취하여 0과 1 사이의 값으로 매핑할 수 있는 S자형 곡선이지만, 정확히 그 한계에 도달하지는 않습니다. 다음 방정식으로 표현됩니다.
f(x) = L / 1 + e^-k(x - x0)
이 방정식에서:
- f(X) 는 함수의 출력입니다.
- L 은 곡선의 최대값입니다.
- e 는 자연 로그의 밑수입니다.
- k 는 곡선의 기울기입니다.
- x 는 실수입니다.
- x0 은 시그모이드 중간점의 x 값입니다.
예측 값이 상당한 음수 값이면 0에 가까운 것으로 간주됩니다. 반면에 예측 값이 유의한 양수 값이면 1에 가까운 것으로 간주됩니다.
로지스틱 회귀는 직선의 방정식을 사용하여 선형 회귀가 정의되는 방식과 유사하게 표현됩니다. 선형 회귀와의 주목할만한 차이점은 출력이 숫자 값이 아닌 이진 값(0 또는 1)이 된다는 것입니다.
다음은 로지스틱 회귀 방정식의 예입니다.
y = e^(b0 + b1*x) / (1 + e^(b0 + b1*x))
이 방정식에서:
- y 는 예측 값(또는 출력)입니다.
- b0 은 편향(또는 절편 항)입니다.
- b1 은 입력에 대한 계수입니다.
- x 는 예측 변수(또는 입력)입니다.
종속변수는 일반적으로 다음을 따릅니다. 베르누이 분포. 계수 값은 최대 가능도 추정(MLE) , 경사하강 법 및 확률적 경사하강 법을 사용하여 추정됩니다.
다른 분류 알고리즘과 마찬가지로 k-최근접 이웃, 혼동 행렬 로지스틱 회귀 알고리즘의 정확도를 평가하는 데 사용됩니다.
알고 계셨나요? 로지스틱 회귀는 더 큰 일반화 선형 모델(GLM) 제품군의 일부입니다.
분류기의 성능을 평가하는 것과 마찬가지로 모델이 특정 방식으로 관찰을 분류한 이유를 아는 것도 똑같이 중요합니다. 즉, 해석 가능하려면 분류자의 결정이 필요합니다.
해석 가능성을 정의하기는 쉽지 않지만 그 주된 의도는 알고리즘이 특정 결정을 내린 이유를 인간이 알아야 한다는 것입니다. 로지스틱 회귀의 경우 다음과 같은 통계 테스트와 결합할 수 있습니다. 발트 테스트 아니면 그 우도비 테스트 해석 가능성을 위해.
로지스틱 회귀를 사용하는 경우
범주형 종속 변수를 예측하기 위해 로지스틱 회귀가 적용됩니다. 즉, 예 또는 아니오, 참 또는 거짓, 0 또는 1과 같이 예측이 범주형일 때 사용됩니다. 로지스틱 회귀의 예측 확률 또는 출력은 둘 중 하나일 수 있으며 중간 지점이 없습니다.
예측 변수의 경우 다음 범주에 속할 수 있습니다.
- 연속 데이터: 무한 스케일로 측정할 수 있는 데이터. 두 숫자 사이의 모든 값을 사용할 수 있습니다. 예를 들면 무게(파운드) 또는 온도(화씨)입니다.
- 이산, 명목 데이터: 명명된 범주에 맞는 데이터입니다. 빠른 예는 머리 색깔입니다: 금발, 검은색 또는 갈색.
- 이산, 순서 데이터: 척도에서 어떤 형태의 순서에 맞는 데이터. 예를 들어 1에서 5까지의 척도로 제품 또는 서비스에 대한 만족도를 말하는 것입니다.
로지스틱 회귀 분석은 이벤트의 가능성을 예측하는 데 유용합니다. 두 클래스 간의 확률을 결정하는 데 도움이 됩니다.

간단히 말해서, 로지스틱 회귀는 과거 데이터를 살펴봄으로써 다음을 예측할 수 있습니다.
- 이메일은 스팸입니다
- 오늘 비가 올거야
- 종양은 치명적이다
- 개인이 자동차를 구매할 것입니다.
- 온라인 거래는 사기입니다
- 후보자가 선거에서 승리할 것입니다.
- 사용자 그룹이 제품을 구매합니다.
- 보험 계약자는 보험 기간이 만료되기 전에 만료됩니다.
- 프로모션 이메일 수신자는 응답자 또는 비응답자입니다.
본질적으로 로지스틱 회귀는 확률 및 분류 문제를 해결하는 데 도움이 됩니다. 즉, 로지스틱 회귀에서 분류 및 확률 결과만 기대할 수 있습니다.
예를 들어, 무언가가 "참 또는 거짓"일 확률을 결정하고 "예 또는 아니오"와 같은 두 가지 결과 중 하나를 결정하는 데 사용할 수 있습니다.
로지스틱 회귀 모델은 ETL(추출, 변환 및 로드) 작업을 위해 데이터를 분류하는 데도 도움이 됩니다. 관측값 수가 특성 수보다 적은 경우 로지스틱 회귀를 사용하면 안 됩니다. 그렇지 않으면 과적합이 발생할 수 있습니다.
선형 회귀 대 로지스틱 회귀
로지스틱 회귀는 하나 이상의 독립 변수에 대한 범주형 변수를 예측하지만, 선형 회귀 연속 변수를 예측합니다. 즉, 로지스틱 회귀는 일정한 출력을 제공하는 반면 선형 회귀는 연속 출력을 제공합니다.
선형 회귀에서는 결과가 연속적이므로 결과에 대해 가능한 값이 무한합니다. 그러나 로지스틱 회귀의 경우 가능한 결과 값의 수가 제한됩니다.
선형 회귀에서 종속 변수와 독립 변수는 선형으로 관련되어야 합니다. 로지스틱 회귀의 경우 독립 변수는 선형으로 관련되어야 합니다. 로그 확률 (로그(p/(1-p)).
팁: 로지스틱 회귀는 R, Python, Java 및 MATLAB과 같이 데이터 분석에 사용되는 모든 프로그래밍 언어로 구현할 수 있습니다.
선형 회귀는 일반적인 최소 자승법을 사용하여 추정되지만 로지스틱 회귀는 최대 가능도 추정 방식을 사용하여 추정됩니다.
로지스틱 회귀와 선형 회귀는 모두 지도 머신 러닝 알고리즘과 회귀 분석의 두 가지 주요 유형. 로지스틱 회귀는 분류 문제를 해결하는 데 사용되지만 선형 회귀는 주로 회귀 문제에 사용됩니다.
공부 시간을 예로 들자면 선형 회귀와 로지스틱 회귀는 서로 다른 것을 예측할 수 있습니다. 로지스틱 회귀는 학생이 시험에 합격했는지 여부를 예측하는 데 도움이 될 수 있습니다. 대조적으로 선형 회귀는 학생의 점수를 예측할 수 있습니다.
로지스틱 회귀 가정
로지스틱 회귀를 사용하는 동안 몇 가지 가정을 합니다. 가정은 예측을 만들고 분류 문제를 해결하기 위해 로지스틱 회귀를 올바르게 사용하는 데 필수적입니다.
다음은 로지스틱 회귀의 주요 가정입니다.
- 독립 변수 사이에 다중 공선성이 거의 또는 전혀 없습니다 .
- 독립 변수는 로그 확률(log(p/(1-p))과 선형적으로 관련되어 있습니다.
- 종속 변수는 이분법 또는 이분법입니다 . 그것은 두 가지 별개의 범주에 맞습니다. 이것은 나중에 논의되는 이진 로지스틱 회귀에만 적용됩니다.
- 오류가 발생할 수 있으므로 의미 없는 변수는 없습니다 .
- 데이터 샘플 크기가 더 크며 이는 더 나은 결과를 위해 필수적입니다.
- 이상치가 없습니다 .
로지스틱 회귀 유형
로지스틱 회귀는 결과의 수 또는 종속 변수의 범주에 따라 여러 유형으로 나눌 수 있습니다.
로지스틱 회귀를 생각할 때 우리는 아마도 이진 로지스틱 회귀를 생각할 것입니다. 이 기사의 대부분에서 로지스틱 회귀를 언급할 때 이진 로지스틱 회귀를 언급했습니다.
다음은 로지스틱 회귀의 세 가지 주요 유형입니다.
이진 로지스틱 회귀
이진 로지스틱 회귀 는 종속 변수와 독립 변수 간의 관계를 예측하는 데 사용되는 통계적 방법입니다. 이 방법에서 종속 변수는 이진 변수입니다. 즉, 두 개의 값(예 또는 아니오, 참 또는 거짓, 성공 또는 실패, 0 또는 1)만 사용할 수 있습니다.
이진 로지스틱 회귀의 간단한 예는 이메일이 스팸인지 여부를 결정하는 것입니다.
다항 로지스틱 회귀
다항 로지스틱 회귀 는 이진 로지스틱 회귀의 확장입니다. 결과 또는 종속 변수의 범주를 두 개 이상 허용합니다.
이진 로지스틱 회귀와 유사하지만 두 가지 이상의 가능한 결과를 가질 수 있습니다. 이것은 결과 변수가 세 개 이상의 순서 없는 유형 을 가질 수 있음을 의미합니다. 즉, 양적 의미가 없는 유형입니다. 예를 들어, 종속 변수는 "A형", "B형" 또는 "C형"을 나타낼 수 있습니다.
이진 로지스틱 회귀와 유사하게 다항 로지스틱 회귀는 최대 가능성 추정을 사용하여 확률을 결정합니다.
예를 들어, 다항 로지스틱 회귀는 교육과 직업 선택 간의 관계를 연구하는 데 사용할 수 있습니다. 여기서 직업선택은 서로 다른 직업의 범주로 구성된 종속변수가 된다.
순서 로지스틱 회귀
순서 회귀라고도 하는 순서 로지스틱 회귀는 이진 로지스틱 회귀의 또 다른 확장입니다. 세 개 이상의 가능한 순서 유형 (정량적 의미가 있는 유형)으로 종속 변수를 예측하는 데 사용됩니다. 예를 들어, 종속변수는 "전혀 동의하지 않음", "동의하지 않음", "동의함" 또는 "전혀 동의함"을 나타낼 수 있습니다.
직무 성과(나쁨, 평균 또는 우수)와 직무 만족도(불만족, 만족 또는 매우 만족)를 결정하는 데 사용할 수 있습니다.
로지스틱 회귀의 장점과 단점
로지스틱 회귀 모델의 많은 장점과 단점이 선형 회귀 모델에 적용됩니다. 로지스틱 회귀 모델의 가장 중요한 장점 중 하나는 분류뿐만 아니라 확률도 제공한다는 것입니다.
다음은 로지스틱 회귀 알고리즘의 장점 중 일부입니다.
- 이해하기 쉽고 구현하기 쉬우며 효율적인 교육
- 데이터 세트가 선형으로 분리 가능한 경우 잘 수행됩니다.
- 더 작은 데이터 세트에 대한 우수한 정확도
- 클래스 분포에 대해 어떠한 가정도 하지 않습니다.
- 그것은 연합의 방향을 제시합니다(긍정적이든 부정적이든)
- 기능 간의 관계를 찾는 데 유용합니다.
- 잘 보정된 확률 제공
- 저차원 데이터셋에서 과적합에 덜 취약
- 다중 클래스 분류로 확장 가능
그러나 로지스틱 회귀에는 많은 단점이 있습니다. 두 클래스를 완벽하게 분리하는 기능이 있으면 모델을 더 이상 훈련할 수 없습니다. 이것을 완전한 분리 라고 합니다.
이는 주로 해당 기능에 대한 가중치가 최적의 가중치가 무한하므로 수렴하지 않기 때문에 발생합니다. 그러나 대부분의 경우 가중치의 사전 확률 분포를 정의하거나 가중치의 페널티를 도입하여 완전한 분리를 해결할 수 있습니다.
다음은 로지스틱 회귀 알고리즘의 몇 가지 단점 입니다.
- 선형 경계를 구성합니다.
- 특징의 수가 관측치의 수보다 많으면 과적합이 발생할 수 있습니다.
- 예측 변수는 평균 또는 다중 공선성이 없어야 합니다.
- 복잡한 관계를 얻기 위해 도전합니다. 신경망과 같은 알고리즘이 더 적합하고 강력합니다.
- 이산 함수를 예측하는 데만 사용할 수 있습니다.
- 비선형 문제를 풀 수 없음
- 이상치에 민감
삶이 당신에게 선택권을 줄 때, 로지스틱 회귀를 생각하라
많은 사람들은 인간이 컴퓨터와 달리 이진 세계에 살고 있지 않다고 주장할 수 있습니다. 물론 피자 한 조각과 햄버거 한 조각이 주어진다면 하나만 고르지 않고 둘 다 한 입 베어물 수 있다. 그러나 자세히 살펴보면 모든 것에 이진 결정이 (말 그대로) 새겨져 있습니다. 피자를 먹거나 먹지 않도록 선택할 수 있습니다. 중간은 없습니다.
제한된 양의 데이터가 있는 경우 예측 모델의 성능을 평가하는 것이 까다로울 수 있습니다. 이를 위해 사용 가능한 데이터를 훈련 세트와 테스트 세트로 분할하는 교차 검증이라는 기술을 사용할 수 있습니다.