추론 분석을 통해 올바른 결론 도출
게시 됨: 2020-03-23우리 모두는 때때로 성급하게 결론을 내리는 죄를 범하고 있습니다.
당신이 열심히 계획한 회의의 표를 아무도 사지 않을 것이라고 자신을 확신시키든, 공항에 2시간 전에 도착하는 것이 단순히 시간이 충분하지 않다고 확신하든, 우리는 모두 해냈습니다.
일상 생활 외에는 업종에 관계없이 직장에서 부정확한 결론을 내리기 쉽습니다. 이렇게 하면 기본적으로 일반화되지만 이러한 일반화를 더 정확하게 만들 수 있다면 어떨까요? 추론 분석 테스트를 실행할 때 가능합니다.
추론 분석이란 무엇입니까?
추론 분석은 모집단 표본에서 수집한 정보를 기반으로 모집단에 대한 결론의 신뢰성을 도출하고 측정하는 데 사용됩니다. 추론 분석은 모집단의 모든 사람을 샘플링하지 않기 때문에 결과에는 항상 일정 수준의 불확실성이 포함됩니다.
통계 분석에 뛰어들 때, 우리가 분석하고자 하는 인구의 크기가 너무 커서 모든 사람을 연구하는 것이 불가능할 때가 많습니다. 이러한 경우 데이터는 특정 모집단 내에서 개인의 무작위 표본을 사용하여 수집됩니다. 그런 다음 데이터에 대한 추론 분석을 사용하여 전체 인구에 대한 결론을 내립니다.
사람들의 전체 인구를 측정하는 것은 종종 불가능하기 때문에 추론 분석은 인구 내의 개인 표본에서 데이터를 수집하는 데 의존합니다. 기본적으로 추론 분석은 인구가 생각하거나 보여줄 수 있는 데이터 샘플을 추론하는 데 사용됩니다.
이에 대한 두 가지 주요 방법이 있습니다.
- 매개변수 추정: 데이터 샘플(예: 샘플 평균)에서 통계를 가져와 모집단(모집단 평균)에 대한 결론을 내리는 데 사용합니다.
- 가설 테스트: 특정 연구 질문에 답하기 위해 데이터 샘플을 사용합니다.
모수를 추정할 때 표본은 신뢰 구간 외에 전체 모집단을 설명하는 값을 추정하는 데 사용됩니다. 그런 다음 견적이 생성됩니다.
가설 테스트에서 데이터는 가정을 지지하거나 거부할 만큼 충분히 강력한지 결정하는 데 사용됩니다.
기술 분석 대 추론 분석
사람들이 가장 자주 사용하는 통계 분석의 두 가지 주요 유형은 기술 분석과 추론 분석입니다. 이 때문에 데이터 분석가가 수집된 데이터에 대해 서로 다른 통찰력을 제공하더라도 두 사람이 서로 혼동하는 것은 드문 일이 아닙니다.
전체 그림을 보여줄 수는 없지만 함께 사용하면 동일한 데이터 집합에 의존하기 때문에 데이터 시각화 및 예측 분석에 강력한 도구를 제공합니다.
기술 통계 분석 은 어떤 방식으로든 데이터를 설명하는 정보를 제공합니다. 이것은 때때로 데이터가 나타내는 것을 설명하기 위해 데이터 시각화 소프트웨어로 만든 차트와 그래프로 수행됩니다. 이 통계 분석 방법은 결론을 도출하는 데 사용되지 않고 정보를 요약하는 데만 사용됩니다.
추론적 통계 분석 은 결론을 도출하는 데 사용되는 방법입니다. 이를 통해 사용자는 분석된 샘플을 기반으로 더 큰 모집단에 대한 추세를 추론하거나 결론을 내릴 수 있습니다. 기본적으로 샘플에서 데이터를 가져온 다음 더 큰 인구 또는 그룹에 대한 결론을 내립니다.
이러한 유형의 통계 분석은 표본 내 변수 간의 관계를 연구하는 데 자주 사용되어 모집단을 정확하게 나타내는 결론과 일반화를 가능하게 합니다. 그리고 기술 분석과 달리 기업은 가설을 테스트하고 이 데이터에서 다양한 결론을 도출할 수 있습니다.

이렇게 생각해봅시다. 당신은 야구 경기에서 핫도그를 좋아하는지 팬 100명에게 샘플을 물어봅니다. 예 또는 아니오 대답의 막대 그래프를 만들 수 있으며 이는 설명적인 분석이 될 것입니다. 또는 조사를 통해 인구의 93%(모든 야구 경기장의 모든 야구 팬)가 핫도그를 좋아한다는 결론을 내릴 수 있습니다. 이는 추론적 분석이 될 것입니다.
추론 분석 테스트의 유형
통계 분야에는 많은 유형의 추론 분석 테스트가 있습니다. 사용하기로 선택하는 것은 표본 크기, 해결하려는 가설 및 테스트할 모집단의 크기에 따라 다릅니다.
선형 회귀 분석
선형 회귀 분석은 이벤트 및 목표에 대한 미래 예측을 만들기 위해 알려지지 않은 변수를 추정하는 방법으로 데이터 세트의 두 변수(X 및 Y) 간의 관계를 이해하는 데 사용됩니다.
회귀 분석의 주요 목적은 알려진(또는 고정된) 변수(X 및 Y)의 값을 기반으로 확률 변수(Z)의 값을 추정하는 것입니다. 이것은 일반적으로 아래와 같은 산점도로 표현됩니다.

분석 내에서 회귀를 사용하는 것의 주요 이점 중 하나는 데이터에 대한 자세한 보기를 제공하고 향후 예측 분석 및 데이터 최적화에 사용할 수 있는 방정식을 포함한다는 것입니다.
회귀 분석 공식은 다음과 같습니다.
Y = a + b(x)
A → y절편, x = 0일 때 y 값
B → 슬로프 또는 라이즈 오버 런을 나타냅니다.
상관 분석
또 다른 추론 분석 테스트는 두 변수가 서로 의존하는 정도를 이해하는 데 사용되는 상관 분석입니다. 이 분석은 본질적으로 두 변수 간의 관계의 강도와 상관 관계가 강한지 약한지를 테스트합니다.
두 변수 간의 상관 관계는 변수에 따라 음수 또는 양수일 수도 있습니다. 한 변수의 변경이 다른 변수에 영향을 미치지 않을 때 변수는 "상관되지 않은" 것으로 간주됩니다.
가격과 수요를 예로 들 수 있습니다. 수요가 증가하면 그에 따라 가격이 상승하기 때문입니다. 더 많은 소비자가 무언가를 원하고 더 많은 비용을 지불할 의향이 있기 때문에 가격이 상승할 것입니다.
전반적으로 상관 분석의 목적은 두 변수 간의 관계와 함께 움직이는 방식을 나타내는 수치 값을 찾는 것입니다. 회귀와 마찬가지로 이는 일반적으로 데이터 시각화 소프트웨어를 사용하여 그래프를 생성함으로써 수행됩니다.

관련 항목: 차이점 및 비즈니스에서 사용해야 하는 방법을 포함하여 상관 관계와 회귀에 대해 자세히 알아보십시오.
분산 분석
분산 분석(ANOVA) 통계 방법은 데이터 세트에서 둘 이상의 평균 간의 차이를 테스트하고 분석하는 데 사용됩니다. 이는 샘플 간의 변동량을 조사하여 수행됩니다.
가장 간단한 용어로 ANOVA는 두 개 이상의 모집단 평균이 같은지 여부에 대한 통계적 검정을 제공할 뿐만 아니라 두 평균 간의 t-검정을 일반화합니다.
자세히 알아보기: t-검정은 두 그룹 간의 차이가 얼마나 중요한지 표시하는 데 사용됩니다. 기본적으로 차이(평균/평균으로 측정)가 우연히 발생했을 수 있는지 이해할 수 있습니다.

이 방법을 사용하면 그룹을 테스트하여 그룹 간에 차이가 있는지 확인할 수 있습니다. 예를 들어, 한 고등학교가 다른 고등학교보다 높은 점수를 받는지 알아보기 위해 같은 시험을 치르는 두 개의 다른 고등학교 학생들을 테스트할 수 있습니다.
ANOVA는 두 가지 유형으로 나눌 수도 있습니다.
- 단방향: 두 개의 수준이 있는 하나의 독립 변수만 있습니다. 땅콩 버터 브랜드를 예로 들 수 있습니다.
- 양방향: 여러 수준을 가질 수 있는 두 개의 독립 변수. 예를 들어 땅콩 버터 브랜드와 칼로리가 있습니다.
수준은 단순히 변수 내의 다른 그룹입니다. 따라서 위와 동일한 예를 사용하여 땅콩 버터 브랜드의 수준은 Jif, Skippy 또는 Peter Pan일 수 있습니다. 칼로리 수준은 부드럽거나, 크림 같거나, 유기농일 수 있습니다.
공분산 분석
공분산 분석(ANCOVA)은 분산 분석(ANOVA)과 회귀 분석의 고유한 조합입니다. ANCOVA는 다른 변수에 영향을 주지 않고 한 번에 하나의 독립 변수 또는 요인을 고려할 때 사용할 수 있는 추가 정보를 보여줄 수 있습니다.
자주 사용됩니다:
- 다중 회귀선을 비교하는 방법으로 다중 회귀의 확장
- 연구의 주요 초점이 아닌 공변량(기타 변수)을 제어하려면
- 분산 분석의 확장을 위해
- 관심 있는 다른 변수의 조합을 연구하기 위해
- 무작위화할 수 없지만 측정할 수 있는 요인에 대한 통제
ANCOVA는 평균 회귀가 통계의 사후 테스트 측정에 영향을 미칠 때 분석을 사전 테스트 또는 사후 테스트하는 데 사용할 수도 있습니다.
예를 들어 귀하의 비즈니스에서 혈압을 낮추는 대중을 위한 새로운 의약품을 개발한다고 가정해 보겠습니다. 4개의 치료 그룹과 1개의 대조군을 모니터링하는 연구를 수행할 수 있습니다.
ANOVA를 사용하면 치료가 실제로 혈압을 낮추는지 알 수 있습니다. ANCOVA를 통합하면 가족 생활, 직업 또는 기타 처방약 사용과 같이 결과에 영향을 미칠 수 있는 다른 요소를 제어할 수 있습니다.
신뢰 구간
신뢰 구간은 전체 모집단의 매개변수(일반적으로 평균)를 추정하는 추론 분석에 사용되는 도구입니다. 기본적으로 특정 통계에 얼마나 많은 불확실성이 있는지이며 일반적으로 오차 범위와 함께 사용됩니다.
신뢰 구간은 전체 모집단을 조사할 수 있는 경우 설문조사 또는 설문조사의 결과가 예상한 것과 같다는 확신을 나타내는 숫자로 표시됩니다.
예를 들어 설문 조사 또는 설문 조사의 결과에 98% 신뢰 구간이 있는 경우 이는 모집단 평균을 포함한다고 98% 확신할 수 있는 값의 범위를 정의합니다. 이 결론에 도달하려면 세 가지 정보가 필요합니다.
- 신뢰 수준 : 샘플링 방법과 관련된 불확실성을 설명합니다.
- 통계: 설문조사 또는 설문조사에서 수집된 데이터
- 오차 한계 : 결과가 실제 모집단 값과 몇 퍼센트 포인트 차이가 날지
카이제곱 검정
x2 테스트라고도 하는 카이 제곱 테스트는 성별, 급여 격차, 정치적 성향 등.
이러한 테스트는 일반적으로 공통 특성을 기반으로 관찰을 그룹화하는 특정 분할표와 함께 사용됩니다.
카이제곱 검정으로 답할 수 있는 질문은 다음과 같습니다.
- 미국의 모든 사람들의 교육 수준과 결혼 상태가 관련이 있습니까?
- 유권자 의도와 정당 가입 사이에 관계가 있습니까?
- 성별은 사람들이 선호하는 휴가에 영향을 줍니까?
일반적으로 이러한 테스트는 잠재적으로 정확한 결론에 도달하기 위해 특정 샘플에서 데이터를 수집하기 위해 단순 무작위 샘플링이라는 통계 분석 방법을 사용하여 수행됩니다. 위에 나열된 첫 번째 질문을 사용하면 데이터는 다음과 같을 수 있습니다.
| 이름 | 상태 | 교육 | |
| 1 | 여자 이름 | 이혼 | 박사 이상 |
| 2 | 케이시 | 기혼 | 학사 학위 |
| 삼 | 안젤라 | 기혼 | 검정고시 |
| 4 | 알리사 | 과부 | 학사 학위 |
| 5 | 제나 | 결혼한 적 없음 | 검정고시 |
이러한 분할표는 단순 무작위 샘플링을 통해 수집된 데이터를 구성하기 위한 출발점으로 사용됩니다.
추론 분석의 장점
추론 분석을 사용하면 많은 이점이 있습니다. 주로 기술 분석 테스트를 실행한 후 얻을 수 있는 것보다 훨씬 더 많은 세부 정보를 제공한다는 점입니다.
이 정보는 연구원과 분석가에게 두 변수 간의 관계에 대한 포괄적인 통찰력을 제공합니다. 또한 산업 전반의 추세와 패턴에 대한 원인과 결과에 대한 인식과 예측을 보여줄 수 있습니다.
또한 학계는 물론 비즈니스 세계에서도 널리 사용되기 때문에 보편적으로 통용되는 통계 분석 방법입니다.
추론적 분석의 한계
추론 통계에는 두 가지 주요 제한 사항이 있습니다.
첫 번째 제한 사항은 분석 중인 데이터가 완전히 측정되지 않은 모집단에서 가져온 것이기 때문에 데이터 분석가가 계산 중인 통계가 정확하다고 100% 확신할 수 없다는 사실에서 비롯됩니다. 추론 분석은 표본에서 측정된 값을 사용하여 전체 모집단에서 측정될 값을 결론짓는 과정을 기반으로 하기 때문에 결과에 대해 항상 일정 수준의 불확실성이 있습니다.
두 번째 제한 사항은 일부 추론 테스트에서는 분석가 또는 연구원이 테스트를 실행하기 위해 이론을 기반으로 교육받은 추측을 해야 한다는 것입니다. 첫 번째 제한과 유사하게 이러한 추측을 둘러싼 불확실성이 있으며 이는 일부 통계 테스트 결과의 신뢰성에 약간의 영향을 의미하기도 합니다.
성급히 결론 내리지 마세요
데이터와 관련하여 잠재적으로 부정확할 수 있는 결론으로 넘어가기 전에 추론 분석 테스트 내에서 기다리고 있는 정보를 활용해야 합니다.
얻고자 하는 결론의 유형이나 시작하는 가설에 관계없이 추론 분석 테스트가 가져올 수 있는 결과에 놀랄 수 있습니다.
모든 데이터 세트를 더 잘 해석할 수 있는 통계 분석 소프트웨어를 찾고 계십니까? 아니면 가장 복잡한 통계 분석도 간단하고 결정적으로 만드는 도구일까요? G2에 대한 편견 없는 리뷰 목록을 확인하세요!
