探索的データ分析:データサイエンスへの影響

公開: 2022-05-25

アメリカの数学者ジョン・テューキーは、もともと1970年代に探索的データ分析(EDA)を開発しました。 今日でも、EDA手法は、データ検出プロセスで広く使用されている方法であり続けています。 正式なモデリングや仮説検定を超えて、EDAはデータセット変数とそれらの関係をよりよく理解するための広い扉を開きます。 また、データ分析のために考慮された統計的手法が適切であるかどうかを判断するのにも役立ちます。

探索的データ分析とは何ですか?

探索的データ分析(EDA)は、データセットを分析および調査する際にデータサイエンティストによって広く使用され、データの主な特性を視覚化方法に要約します。 これは、データサイエンティストがデータパターン、スポット異常、仮説検定、または仮定を発見するのに役立ちます。

したがって、簡単に言えば、データサイエンティストが、特定のデータソースを操作して、目標として必要な答えを得る最良の方法を決定するのに役立つ方法として定義できます。

探索的データ分析はデータサイエンスの重要性

EDAの主な目的は、仮定を行う前にデータセットを詳しく調べ、明らかなエラーを特定し、データセット内のパターンをよりよく理解し、外れ値や異常なイベントを把握し、最後に重要なことですが、変数間のエキサイティングな関係を見つけます。

探索的データ分析は、データサイエンス分野のデータ分析にとって非常に重要です。 まず、EDAを使用して、データサイエンティストが生成している結果が有効であり、目的の目標に適用できることを確認します。 次に、EDAは、利害関係者が常に正しい質問をしていることを確認するのに役立ちます。 また、標準偏差、カテゴリ変数、信頼区間に関する質問に答えるのにも役立ちます。 最後に、EDAが完了して洞察が得られると、その機能を使用して、機械学習を含む、より高度なデータ分析またはモデリングを行うことができます。

探索的データ分析の種類

EDAには主に4つのタイプがあります。

  • 単変量非グラフィカル:

単変量非グラフィカルは、データ分析の最も単純な形式です。 ここでは、1つの変数のみで構成されています。 単一の変数であるため、原因や関係は処理されません。 代わりに、単変量解析の主な目的は、データを記述し、その中のパターンを見つけることです。

  • 単変量グラフィカル

非グラフィカルな方法では、データの全体像を提供することはできません。 したがって、ここではグラフィカルな方法が必要です。 単変量グラフィックスの一般的なタイプは次のとおりです。

  1. 幹葉図:これらは、すべてのデータ値と分布の形を示しています。
  2. ヒストグラムの棒グラフ:各棒は、値の範囲のケースの頻度(カウント)または比率(カウント/合計カウント)を表します。
  3. 箱ひげ図:最小、第1四分位、中央値、第3四分位、および最大の5つの数値の要約をグラフィカルに示します。
  • 多変量非グラフィカル

多変量データは、複数の変数から発生します。 一般に、多変量非グラフィカルEDA手法は、クロス集計または統計を通じて2つ以上のデータ変数間の関係を示します。

  • 多変量グラフィカル

多変量データは、2つ以上のデータセット間の関係を表示しながらグラフィックを使用します。 最もよく使用されるグラフィックは、グループ化された棒グラフまたは棒グラフで、各グループは1つの変数の1つのレベルを表し、グループ内の各棒は他の変数のレベルを表します。

多変量グラフィックスの他の一般的なタイプは次のとおりです。

  • 散布図:データポイントを横軸と縦軸にプロットして、ある変数が別の変数の影響を受ける量を示すために使用されます。
  • 多変量チャート:因子と応答の間の関係をグラフで表したものです。
  • ランチャート: 時間の経過とともにプロットされたデータの線グラフです。
  • バブルチャート: 2次元プロットに複数の円(バブル)を表示するデータ視覚化です。
  • ヒートマップ:値が色で表されているデータのグラフィック表現です。

探索的データ分析ツール

探索的データ分析に利用できるツールはたくさんあります。 最も人気のあるもののいくつかは、R、Python、およびSASです。 ただし、それぞれに長所と短所があるため、仕事に適したツールを選択することが不可欠です。

Rは、データを視覚化するための優れたツールです。 データの探索に使用できるさまざまなプロットとチャートがあります。 また、より高度な分析を実行するために使用できる多くの統計関数もあります。

PythonはEDAのもう1つの優れたツールです。 Rと同じ機能がたくさんありますが、よりユーザーフレンドリーです。 結果として、Pythonはデータ分析を始めたい初心者にとって優れた選択肢です。

SASは、EDAに使用できる強力な統計ソフトウェアパッケージです。 SASはRやPythonよりも高価ですが、より複雑な計算を実行する必要がある場合は、投資する価値があります。

QuestionProと探索的データ分析

いつでも別のデータソースからデータを取得できます。QuestionProは、複数のチャネルから調査データを収集するのに間違いなく役立ちます。 しかし、すでに収集されているデータを超えたい場合はどうなりますか? そこで、探索的データ分析が役立ちます。

QuestionProの組み込み分析ツールを使用すると、EDAを簡単に開始できます。 データの要約統計量をすばやく確認したり、インタラクティブな視覚化を作成したりできます。 また、QuestionProはRと統合されているため、Rが提供するすべての強力な統計ツールを使用できます。

したがって、データ分析を次のレベルに引き上げる準備ができている場合、QuestionProは完璧なツールの1つです。

結論

最後に、探索的データ分析は、データサイエンティストが複雑なデータセットを理解するのに役立つ実証済みの方法論であると言えます。 視覚化やその他の方法を使用することで、他の方法では見つけられなかった可能性のあるパターンや関係を明らかにすることができます。

したがって、EDAはあらゆるデータ分析の重要な部分であり、この記事がこのトピックの優れた入門書となることを願っています。

Questionpro.comにサインアップして、 QuestionProの詳細と探索的データ分析に関する情報を確認してください。

著者: Musaddiq Shaikh&Abhishek Pachauri