推論分析で正しい結論を導き出す

公開: 2020-03-23

私たちは皆、ときどき結論を急ぐという罪を犯しています。

せっかく頑張って計画した会議のチケットを誰も買わないと自分に言い聞かせたり、2 時間前に空港に到着しても時間が足りないと自分に言い聞かせたり、私たちは皆、それを実行してきました。

日常生活以外では、業界に関係なく、職場で不正確な結論に飛びつくのは簡単です。これを行うとき、本質的に一般化していますが、これらの一般化をより正確に行うことができたらどうでしょうか? 推論分析テストを実行するときに可能です。

推論分析とは

推論分析は、母集団のサンプルから収集された情報に基づく母集団に関する結論の信頼性を導き出し、測定するために使用されます。推論分析は集団内のすべての人をサンプリングするわけではないため、結果には常にある程度の不確実性が含まれます。

統計分析に飛び込むと、分析しようとしている母集団のサイズが大きすぎて、すべての人を調査することが不可能になることがよくあります。このような場合、データは、特定の母集団内の個人のランダムサンプルを使用して収集されます。次に、データに対して推論分析を使用して、母集団全体に関する結論を導き出します。

多くの場合、人口全体を測定することは不可能であるため、推論分析は、人口内の個人のサンプルからデータを収集することに依存しています。基本的に、推論分析は、母集団が何を考えたり示したりするかをデータのサンプルから推測しようとするために使用されます。

これには主に 2 つの方法があります。

パラメーターの推定:データサンプルから統計を取得し (サンプル平均など)、それを使用して母集団について何かを結論付けます (母集団平均)。
仮説検定:データサンプルを使用して特定の研究上の疑問に答えること。

パラメーターの推定では、サンプルを使用して、信頼区間に加えて、母集団全体を表す値を推定します。その後、見積書を作成します。

仮説検定では、データを使用して、仮説を支持または棄却するのに十分強いかどうかを判断します。

記述分析と推論分析

人々が最も頻繁に使用する統計分析の 2 つの主なタイプは、記述分析と推論分析です。このため、収集されたデータについてデータアナリストに異なる洞察を提供するにもかかわらず、この 2 つが互いに混同されることは珍しくありません。

全体像を示すことはできませんが、一緒に使用すると、同じデータセットに依存するため、データの視覚化と予測分析に強力なツールを提供します。

記述統計分析は、何らかの方法でデータを説明する情報を提供します。これは、データが何を表しているかを説明するために、データ視覚化ソフトウェアで作成されたチャートやグラフで行われることがあります。この統計分析方法は、結論を導き出すために使用されるのではなく、情報を要約するためにのみ使用されます。

推論統計分析は、結論を引き出すために使用される方法です。これにより、ユーザーは、分析されたサンプルに基づいて、より大きな母集団に関する傾向を推測または結論付けることができます。基本的に、サンプルからデータを取得し、より大きな母集団またはグループについて結論を出します。

このタイプの統計分析は、サンプル内の変数間の関係を調査するためによく使用され、母集団を正確に表す結論と一般化を可能にします。また、記述的分析とは異なり、企業は仮説を検証し、このデータからさまざまな結論を導き出すことができます。

このように考えてみましょう。野球の試合で、サンプルの 100 人のファンにホットドッグが好きかどうか尋ねます。はいまたはいいえの回答の棒グラフを作成できます。これは記述的分析になります。または、調査を使用して、人口の 93% (すべての球場のすべての野球ファン) がホットドッグが好きであると結論付けることができます。これは推論分析になります。

推論分析テストの種類

統計分野には多くの種類の推論分析テストがあります。どちらを使用するかは、サンプルサイズ、解決しようとしている仮説、およびテスト対象の母集団のサイズによって異なります。

線形回帰分析

線形回帰分析は、データセット内の 2 つの変数 (X と Y) 間の関係を理解するために使用されます。これは、未知の変数を推定して、イベントと目標に関する将来の予測を行う方法です。

回帰分析の主な目的は、既知の (または固定された) 変数 (X および Y) の値に基づいて確率変数 (Z) の値を推定することです。これは通常、以下のような散布図で表されます。

分析で回帰を使用する主な利点の 1 つは、データの詳細な表示が提供され、将来の予測分析とデータの最適化に使用できる方程式が含まれていることです。

回帰分析の式は次のとおりです。

Y = a + b(x)

A → は、x = 0 の場合の y の値である y 切片を指します。

B → スロープ、またはライズオーバーランを指す

相関分析

もう 1 つの推論分析テストは相関分析です。これは、2 つの変数が互いにどの程度依存しているかを理解するために使用されます。この分析は基本的に、2 つの変数間の関係の強さ、およびそれらの相関関係が強いか弱いかをテストします。

変数によっては、2 つの変数間の相関関係が負または正になることもあります。一方の変化が他方に影響を与えない場合、変数は「無相関」と見なされます。

この例は、価格と需要です。これは、需要が増えるとそれに応じて価格が上昇するためです。より多くの消費者が何かを欲しがり、より多くのお金を払っても構わないと思っているため、価格は上昇します。

全体として、相関分析の目的は、2 つの変数間の関係と、それらがどのように一緒に移動するかを示す数値を見つけることです。回帰と同様に、これは通常、データ視覚化ソフトウェアを利用してグラフを作成することによって行われます。

関連:相関と回帰の内外について、相違点やビジネスで使用すべき方法などを学びましょう。

分散分析

分散分析 (ANOVA) 統計手法を使用して、データセットの 2 つ以上の平均値の違いをテストおよび分析します。これは、サンプル間の変動量を調べることによって行われます。

簡単に言えば、ANOVA は、2 つの平均間の t 検定を一般化することに加えて、2 つ以上の母平均が等しいかどうかの統計的検定を提供します。

詳細: t 検定を使用して、2 つのグループ間の差がどれほど重要かを示します。基本的に、差 (平均/平均で測定) が偶然に発生した可能性があるかどうかを理解することができます。

この方法により、グループをテストして、グループ間に違いがあるかどうかを確認できます。たとえば、同じ試験を受ける 2 つの異なる高校の生徒をテストして、一方の高校の成績が他方よりも高いかどうかを調べることができます。

ANOVA は、次の 2 つのタイプに分類することもできます。

一元配置: 2 つの水準を持つ 1 つの独立変数のみ。例としては、ピーナッツバターのブランドがあります。
二元配置:複数のレベルを持つことができる 2 つの独立変数。例としては、ピーナッツバターのブランドとカロリーがあります。

レベルは、変数内のさまざまなグループです。したがって、上記と同じ例を使用すると、ピーナッツバターのブランドのレベルは、Jif、Skippy、または Peter Pan である可能性があります。カロリーのレベルは、スムーズ、クリーミー、またはオーガニックです。

共分散の分析

共分散分析 (ANCOVA) は、分散分析 (ANOVA) と回帰を独自に組み合わせたものです。 ANCOVA は、他の変数に影響を与えることなく、一度に 1 つの独立変数または要因を検討するときに、どのような追加情報が利用可能かを示すことができます。

それはよく使われます：

多重回帰線を比較する方法としての多重回帰の拡張
研究の主な焦点ではない共変量 (他の変数) を制御するには
分散分析の拡張について
関心のある他の変数の組み合わせを調べる
無作為化できないが測定可能な要因を制御するには

ANCOVA は、平均への回帰が統計量のポストテスト測定に影響を与える場合に、分析の事前テストまたは事後テストにも使用できます。

例として、あなたのビジネスが一般向けに血圧を下げる新しい医薬品を開発しているとしましょう。 4 つの治療群と 1 つの対照群をモニターする研究を実施することができます。

ANOVA を使用すると、治療が実際に血圧を下げるかどうかを判断できます。 ANCOVAを組み込むと、家族生活、職業、その他の処方薬の使用など、結果に影響を与える可能性のある他の要因を制御できます.

信頼区間

信頼区間は、母集団全体のパラメーター (通常は平均) を推定する推論分析で使用されるツールです。基本的に、これは特定の統計にどれだけの不確実性があるかであり、通常は誤差の範囲で使用されます。

信頼区間は、調査または世論調査の結果が、母集団全体を調査できた場合に期待するものであるという確信を反映する数値で表されます。

たとえば、世論調査または調査の結果に 98% の信頼区間がある場合、これは、母集団の平均が含まれていると 98% 確信できる値の範囲を定義します。この結論に至るには、次の 3 つの情報が必要です。

信頼度: サンプリング方法に関連する不確実性を表します
統計:調査または投票から収集されたデータ
誤差範囲: 結果が実際の母集団の値と何%異なるか

カイ二乗検定

x2 検定としても知られるカイ 2 乗検定は、すべての変数が名目 (数値を持たない値を持つ変数とも呼ばれる) である場合にグループ間の差を識別するために使用されます。給与格差、政治的所属など。

これらの検定は通常、共通の特性に基づいて観測値をグループ化する特定の分割表で使用されます。

カイ 2 乗検定で答えられる可能性のある質問は次のとおりです。

教育レベルと婚姻状況は、米国のすべての人々に関連していますか?
有権者の意図と政党のメンバーシップの間に関係はありますか?
性別は人々が好む休日に影響しますか?

通常、これらのテストは、単純なランダムサンプリングと呼ばれる統計分析手法を使用して行われ、特定のサンプルからデータを収集して、正確な結論を導き出す可能性があります。上記の最初の質問を使用すると、データは次のようになります。

	名前	状態	教育
1	メリッサ	離婚した	博士号以上
2	ケーシー	結婚	学士号
3	アンジェラ	結婚	GED
4	アリッサ	未亡人	学士号
5	ジェナ	結婚したことがない	GED

これらの分割表は、単純なランダムサンプリングによって収集されたデータを整理するための出発点として使用されます。

推論分析の利点

推論分析を使用することには多くの利点があります。主に、記述分析テストを実行した後に得られるよりもはるかに多くの詳細な情報が提供されることです。

この情報は、研究者やアナリストに 2 つの変数間の関係に関する包括的な洞察を提供します。また、業界全体の傾向とパターンに関する因果関係と予測に対する認識を示すこともできます。

さらに、学界だけでなくビジネスの世界でも広く使用されているため、統計分析の方法として広く受け入れられています。

推論分析の限界

推論統計に関しては、2 つの主な制限があります。

最初の制限は、分析対象のデータが完全に測定されていない母集団からのものであるため、データアナリストが計算対象の統計が正しいことを 100% 確信することはできないという事実に由来します。推論分析は、サンプルで測定された値を使用して、母集団全体から測定される値を結論付けるプロセスに基づいているため、結果に関して常にある程度の不確実性があります。

2 つ目の制限は、一部の推論テストでは、アナリストまたは研究者が理論に基づいて知識に基づいた推測を行ってテストを実行する必要があることです。最初の制限と同様に、これらの推測には不確実性が伴います。これは、一部の統計テストの結果の信頼性に影響を与えることも意味します。

結論を急ぐな

データに関して不正確な可能性のある結論に飛びつく前に、推論分析テストで待っている情報を活用してください。

到達しようとしている結論のタイプや、開始する仮説に関係なく、推論分析テストがもたらす結果に驚くかもしれません。

すべてのデータセットをより適切に解釈するための統計分析ソフトウェアをお探しですか? それとも、最も複雑な統計分析をシンプルかつ決定的なものにするツールでしょうか? G2の公平なレビューのリストをチェックしてください!