トレーニング データとは機械学習での使用方法

公開: 2021-07-30

機械学習モデルは、トレーニング対象のデータと同じくらい優れています。

高品質のトレーニング データがなければ、最も効率的なトレーニングでも  機械学習  アルゴリズムは実行に失敗します。

質が高く、正確で、完全で、関連性のあるデータの必要性は、トレーニング プロセスの早い段階から始まります。 アルゴリズムに優れたトレーニング データが与えられた場合にのみ、特徴を簡単に取得し、将来的に予測する必要がある関係を見つけることができます。

より正確には、質の高いトレーニング データは、機械学習 (および人工知能) の最も重要な側面です。 機械学習 (ML) アルゴリズムを適切なデータに導入すると、精度と成功のためにそれらを設定することになります。

トレーニング データは、トレーニング データセット、学習セット、トレーニング セットとも呼ばれます。 これは、すべての機械学習モデルに不可欠なコンポーネントであり、正確な予測や目的のタスクの実行に役立ちます。

簡単に言えば、トレーニング データによって機械学習モデルが構築されます。 期待される出力がどのように見えるかを教えてくれます。 モデルはデータセットを繰り返し分析して、その特性を深く理解し、パフォーマンスが向上するように調整します。

より広い意味で、トレーニング データは、ラベル付きデータラベルなしデータの 2 つのカテゴリに分類できます。

ラベル付きデータとラベルなしデータ

ラベル付きデータとは

ラベル付きデータは、1 つ以上の意味のあるラベルでタグ付けされたデータ サンプルのグループです。 これは注釈付きデータとも呼ばれ、そのラベルは特定の特性、プロパティ、分類、または含まれるオブジェクトを識別します。

たとえば、果物の画像には、リンゴ、バナナ、ブドウなどのタグを付けることができます。

ラベル付けされたトレーニング データは、   教師あり学習。 これにより、ML モデルは特定のラベルに関連付けられた特性を学習できるようになり、新しいデータ ポイントを分類するために使用できます。 上記の例では、モデルがラベル付きの画像データを使用して特定の果物の特徴を理解し、この情報を使用して新しい画像をグループ化できることを意味します。

データのラベル付けまたは注釈は、人間がデータ ポイントにタグ付けまたはラベル付けする必要があるため、時間のかかるプロセスです。 ラベル付きデータの収集は困難で費用がかかります。 ラベル付けされていないデータと比較すると、ラベル付けされたデータを保存するのは簡単ではありません。

ラベルなしデータとは

予想どおり、ラベルなしデータはラベル付きデータの反対です。 分類、特性、またはプロパティを識別するためのラベルでタグ付けされていない生データまたはデータです。 で使用されています  教師なし機械学習であり、ML モデルはデータのパターンまたは類似点を見つけて結論に到達する必要があります。

前のリンゴバナナブドウの例に戻ると、ラベル付けされていないトレーニング データでは、これらの果物の画像はラベル付けされません。 モデルは、色や形などの特徴を見て、各画像を評価する必要があります。

かなりの数の画像を分析した後、モデルは新しい画像 (新しいデータ) をリンゴバナナ、またはブドウの果物の種類に区別できるようになります。 もちろん、モデルは特定の果物がリンゴであることを知りません。 代わりに、それを識別するために必要な特性を知っています。

教師あり機械学習と教師なし機械学習を組み合わせて使用​​するハイブリッド モデルがあります。

機械学習でのトレーニング データの使用方法

機械学習アルゴリズムとは異なり、従来のプログラミング アルゴリズムは一連の命令に従って、入力データを受け取り、出力を提供します。 過去のデータには依存せず、すべてのアクションはルールに基づいています。 これはまた、時間が経っても改善されないことを意味しますが、これは機械学習には当てはまりません。

機械学習モデルの場合、履歴データは飼料です。 人間がより良い意思決定を行うために過去の経験に依存するのと同じように、ML モデルは、予測を行うために過去の観察でトレーニング データセットを調べます。

予測には、次の場合のように画像を分類することが含まれる場合があります。   画像認識、または自然言語処理 (NLP) のような文のコンテキストの理解。

データ サイエンティストを教師、機械学習アルゴリズムを生徒、トレーニング データセットをすべての教科書のコレクションと考えてください。

教師の願望は、学生が試験と現実の世界で良い成績を収めることです。 ML アルゴリズムの場合、テストは試験のようなものです。 教科書 (トレーニング データセット) には、試験で出題される問題の種類の例がいくつか含まれています。

ヒント:ビッグデータ分析を確認してください  ビッグデータがどのように収集、構造化、クリーニング、分析されるかを知る。

もちろん、試験で出題される問題のすべての例が含まれているわけではなく、教科書に含まれているすべての例が試験で出題されるわけでもありません。 教科書は、生徒に何を期待し、どのように反応するかを教えることで、生徒の準備に役立ちます。

教科書が完全に完成することはありません。 時間が経てば出題される問題も変わってくるので、教科書の内容も変えていかなければなりません。 ML アルゴリズムの場合、トレーニング セットを定期的に更新して、新しい情報を含める必要があります。

要するに、トレーニング データは、データ サイエンティストが ML アルゴリズムに何を期待するかについてのアイデアを与えるのに役立つ教科書です。 トレーニング データセットには考えられるすべての例が含まれているわけではありませんが、予測を行うことができるアルゴリズムが作成されます。

トレーニング データ vs. テスト データ vs. 検証データ

トレーニング データは、モデルのトレーニングで使用されます。つまり、モデルを適合させるために使用されるデータです。 反対に、テスト データは、モデルのパフォーマンスまたは精度を評価するために使用されます。 これは、トレーニング データに適合する最終モデルの偏りのない評価を行うために使用されるデータのサンプルです。

トレーニング データセットは、ML モデルに目的のパターンを識別したり、特定のタスクを実行したりすることを教える初期データセットです。 テスト データセットは、トレーニングの効果やモデルの精度を評価するために使用されます。

ML アルゴリズムが特定のデータセットでトレーニングされ、同じデータセットでテストすると、モデルが何を期待するかを知っているため、精度が高くなる可能性が高くなります。 トレーニング データセットに、モデルが将来遭遇する可能性のあるすべての値が含まれている場合は、問題ありません。

しかし、決してそうではありません。 トレーニング データセットは決して包括的ではなく、モデルが現実の世界で遭遇する可能性のあるすべてを教えることはできません。 したがって、モデルの精度を評価するために、目に見えないデータ ポイントを含むテスト データセットが使用されます。

トレーニング データ vs. 検証データ vs. テスト データ

次に、検証データがあります。 これは、トレーニング フェーズで頻繁に評価するために使用されるデータセットです。 モデルはこのデータセットをときどき見ますが、そこから学習することはありません。 検証セットは、開発セットまたは開発セットとも呼ばれます。 モデルをオーバーフィッティングやアンダーフィッティングから保護するのに役立ちます。

検証データはトレーニング データとは別のものですが、データ サイエンティストは検証のためにトレーニング データの一部を予約する場合があります。 しかしもちろん、これは自動的に、トレーニング中に検証データが遠ざけられたことを意味します。

ヒント:データの量が限られている場合は、クロス検証と呼ばれる手法を使用してモデルのパフォーマンスを推定できます。 この方法では、トレーニング データをランダムに複数のサブセットに分割し、評価用に 1 つを確保します。

多くの場合、「テスト データ」と「検証データ」という用語は同じ意味で使用されます。 この 2 つの主な違いは、トレーニング中にモデルを検証するために検証データが使用されるのに対し、トレーニングが完了した後にモデルをテストするためにテスト セットが使用されることです。

検証データセットは、モデルに目に見えないデータの最初の味を与えます。 ただし、すべてのデータ サイエンティストが検証データを使用して初期チェックを行うわけではありません。 彼らはこの部分をスキップして、直接データのテストに進むかもしれません。

ループ内の人間とは何ですか?

ヒューマン イン ザ ループとは、トレーニング データの収集と準備に関与する人々を指します。

生データは、IoT デバイス、ソーシャル メディア プラットフォーム、Web サイト、顧客からのフィードバックなど、複数のソースから収集されます。 収集が完了すると、プロセスに関与する個人が、モデルで予測する結果の優れた指標となるデータの重要な属性を決定します。

データは、クリーニング、欠損値の説明、外れ値の削除、データ ポイントのタグ付け、ML アルゴリズムのトレーニングに適した場所への読み込みによって準備されます。 また、品質チェックも数回行われます。 ご存知のように、ラベルが正しくないと、モデルの精度に大きな影響を与える可能性があります。

トレーニング データが優れている理由は何ですか?

高品質のデータは、正確な機械学習モデルに変換されます。

低品質のデータは、モデルの精度に大きな影響を与える可能性があり、深刻な経済的損失につながる可能性があります。 それはまるで、学生に間違った情報を含む教科書を渡して、試験で優秀になることを期待するようなものです.

以下は、質の高いトレーニング データの 4 つの主な特徴です。

関連する

データは、目の前のタスクに関連している必要があります。 たとえば、   コンピュータビジョン  自律走行車のアルゴリズムでは、おそらく果物や野菜の画像は必要ありません。 代わりに、道路、歩道、歩行者、車両の写真を含むトレーニング データセットが必要になります。

代表

AI トレーニング データには、アプリケーションが予測または分類するデータ ポイントまたは特徴が含まれている必要があります。 もちろん、データセットは決して絶対的なものではありませんが、少なくとも AI アプリケーションが認識できる属性を持っている必要があります。

たとえば、モデルが画像内の顔を認識することを意図している場合、さまざまな民族の人々の顔を含む多様なデータをモデルに供給する必要があります。 これにより、AI バイアスの問題が軽減され、モデルが特定の人種、性別、または年齢層に対して偏見を持たなくなります。

ユニフォーム

すべてのデータは同じ属性を持つ必要があり、同じソースから取得する必要があります。

機械学習プロジェクトが、顧客情報を見て解約率を予測することを目的としているとします。 そのために、顧客名、住所、注文数、注文頻度、およびその他の関連情報を含む顧客情報データベースを用意します。 これは履歴データであり、トレーニング データとして使用できます。

データの一部に、年齢や性別などの追加情報を含めることはできません。 これにより、トレーニング データが不完全になり、モデルが不正確になります。 つまり、均一性は高品質のトレーニング データの重要な側面です。

包括的

繰り返しますが、トレーニング データは決して絶対的なものではありません。 ただし、モデルのユース ケースの大部分を表す大規模なデータセットにする必要があります。 トレーニング データには、モデルが適切に学習できるように十分な例が含まれている必要があります。 モデルをトレーニングして何を期待するかを理解するのに役立つため、実世界のデータ サンプルを含める必要があります。

トレーニング データを多数の行と列に配置された値と考えている場合は、申し訳ありませんが、それは間違いです。 テキスト、画像、音声、動画など、どのようなデータ型でもかまいません。

トレーニング データの品質に影響を与えるものは何ですか?

人間は非常に社会的な生き物ですが、子供の頃に選んだかもしれない偏見がいくつかあり、それを取り除くには常に意識的な努力が必要です. 好ましくはありませんが、そのようなバイアスは私たちの作品に影響を与える可能性があり、機械学習アプリケーションも例外ではありません.

ML モデルの場合、トレーニング データは彼らが読む唯一の本です。 それらのパフォーマンスまたは正確さは、その本がどれほど包括的で、関連性があり、代表的であるかによって異なります。

そうは言っても、次の 3 つの要因がトレーニング データの品質に影響します。

  1. 人:モデルをトレーニングする人は、モデルの精度やパフォーマンスに大きな影響を与えます。 偏見があると、データのタグ付け方法に自然に影響し、最終的には ML モデルの機能に影響します。

  2. プロセス:データのラベル付けプロセスでは、厳密な品質管理チェックを実施する必要があります。 これにより、トレーニング データの品質が大幅に向上します。

  3. ツール:互換性のないツールや古いツールを使用すると、データの品質が低下する可能性があります。 堅牢なデータ ラベル付けソフトウェアを使用すると、プロセスに関連するコストと時間を削減できます。

トレーニング データの入手先

トレーニング データを取得するには、いくつかの方法があります。 ソースの選択は、機械学習プロジェクトの規模、予算、利用可能な時間によって異なります。 以下は、データを収集するための 3 つの主要な情報源です。

オープンソースのトレーニング データ

データ収集やラベル付けを行う余裕のないアマチュア ML 開発者や中小企業のほとんどは、オープンソースのトレーニング データに依存しています。 すでに収集済みで無料であるため、選択は簡単です。 ただし、トレーニングのニーズに合わせて、そのようなデータセットを調整したり、再度注釈を付けたりする必要があります。 ImageNet、Kaggle、Google Dataset Search は、オープンソース データセットの例です。

インターネットとIoT

ほとんどの中規模企業は、インターネットと IoT デバイスを使用してデータを収集します。 カメラ、センサー、およびその他のインテリジェント デバイスは、生データの収集に役立ちます。これらのデータは後でクリーニングされ、注釈が付けられます。 このデータ収集方法は、オープンソースのデータセットとは異なり、機械学習プロジェクトの要件に合わせて特別に調整されます。 ただし、データのクリーニング、標準化、およびラベル付けは、時間とリソースを大量に消費するプロセスです。

人工訓練データ

人工学習データはその名の通り、機械学習モデルを用いて人工的に作成されたデータです。 これは合成データとも呼ばれ、アルゴリズムをトレーニングするための特定の機能を備えた高品質のトレーニング データが必要な場合に最適です。 もちろん、この方法には大量の計算リソースと十分な時間が必要です。

どのくらいのトレーニングデータで十分ですか?

どの程度のトレーニング データが十分なトレーニング データであるかについて、具体的な答えはありません。 それは、トレーニングしているアルゴリズム (予想される結果、アプリケーション、複雑さ、およびその他の多くの要因) によって異なります。

「cat」と「dog」という用語の出現と、「kitty」、「kitten」、「pussycat」、「puppy」、「doggy」などの同義語に基づいて文を分類するテキスト分類子をトレーニングするとします。 . 照合およびソートする用語はわずかしかないため、大規模なデータセットは必要ない場合があります。

しかし、これが画像を「猫」と「犬」に分類する画像分類器である場合、トレーニング データセットに必要なデータ ポイントの数は大幅に増加します。 要するに、どのトレーニング データが十分なトレーニング データであるかを決定するには、多くの要因が関係します。

必要なデータ量は、使用するアルゴリズムによって異なります。

コンテキストについては、   機械学習のサブセットであるディープ ラーニングでは、人工ニューラル ネットワーク (ANN) をトレーニングするために数百万のデータ ポイントが必要です。 対照的に、機械学習アルゴリズムは数千のデータ ポイントしか必要としません。 しかしもちろん、必要なデータの量はアプリケーションによって異なるため、これはとてつもない一般化です。

モデルをトレーニングすればするほど、モデルはより正確になります。 そのため、トレーニング データとして大量のデータを用意することをお勧めします。

ガベージイン、ガベージアウト

「ガベージ イン、ガベージ アウト」というフレーズは、データ サイエンスで最も古く、最もよく使われるフレーズの 1 つです。 データ生成の速度が指数関数的に増加しても、それは依然として当てはまります。

重要なのは、高品質で代表的なデータを機械学習アルゴリズムにフィードすることです。 これにより、モデルの精度を大幅に向上させることができます。 偏りのない機械学習アプリケーションを作成するには、高品質のトレーニング データも重要です。

人間のような知性を備えたコンピューターで何ができるか考えたことはありますか? 人間の知性に相当するコンピュータは汎用人工知能として知られており、これが史上最大の発明になるか、最も危険な発明になるかはまだ結論が出ていません。