トレーニングデータとは機械学習での使用方法

公開: 2021-07-30

機械学習モデルは、トレーニング対象のデータと同じくらい優れています。

高品質のトレーニングデータがなければ、最も効率的なトレーニングでも機械学習アルゴリズムは実行に失敗します。

質が高く、正確で、完全で、関連性のあるデータの必要性は、トレーニングプロセスの早い段階から始まります。アルゴリズムに優れたトレーニングデータが与えられた場合にのみ、特徴を簡単に取得し、将来的に予測する必要がある関係を見つけることができます。

より正確には、質の高いトレーニングデータは、機械学習 (および人工知能) の最も重要な側面です。機械学習 (ML) アルゴリズムを適切なデータに導入すると、精度と成功のためにそれらを設定することになります。

トレーニングデータとは

トレーニングデータは、機械学習アルゴリズムのトレーニングに使用される初期データセットです。モデルは、このデータを使用してルールを作成および改良します。これは、機械学習モデルのパラメーターを例に合わせてトレーニングするために使用されるデータサンプルのセットです。

トレーニングデータは、トレーニングデータセット、学習セット、トレーニングセットとも呼ばれます。これは、すべての機械学習モデルに不可欠なコンポーネントであり、正確な予測や目的のタスクの実行に役立ちます。

簡単に言えば、トレーニングデータによって機械学習モデルが構築されます。期待される出力がどのように見えるかを教えてくれます。モデルはデータセットを繰り返し分析して、その特性を深く理解し、パフォーマンスが向上するように調整します。

より広い意味で、トレーニングデータは、ラベル付きデータとラベルなしデータの 2 つのカテゴリに分類できます。

ラベル付きデータとは

ラベル付きデータは、1 つ以上の意味のあるラベルでタグ付けされたデータサンプルのグループです。これは注釈付きデータとも呼ばれ、そのラベルは特定の特性、プロパティ、分類、または含まれるオブジェクトを識別します。

たとえば、果物の画像には、リンゴ、バナナ、ブドウなどのタグを付けることができます。

ラベル付けされたトレーニングデータは、教師あり学習。これにより、ML モデルは特定のラベルに関連付けられた特性を学習できるようになり、新しいデータポイントを分類するために使用できます。上記の例では、モデルがラベル付きの画像データを使用して特定の果物の特徴を理解し、この情報を使用して新しい画像をグループ化できることを意味します。

データのラベル付けまたは注釈は、人間がデータポイントにタグ付けまたはラベル付けする必要があるため、時間のかかるプロセスです。ラベル付きデータの収集は困難で費用がかかります。ラベル付けされていないデータと比較すると、ラベル付けされたデータを保存するのは簡単ではありません。

ラベルなしデータとは

予想どおり、ラベルなしデータはラベル付きデータの反対です。分類、特性、またはプロパティを識別するためのラベルでタグ付けされていない生データまたはデータです。で使用されています教師なし機械学習であり、ML モデルはデータのパターンまたは類似点を見つけて結論に到達する必要があります。

前のリンゴ、バナナ、ブドウの例に戻ると、ラベル付けされていないトレーニングデータでは、これらの果物の画像はラベル付けされません。モデルは、色や形などの特徴を見て、各画像を評価する必要があります。

かなりの数の画像を分析した後、モデルは新しい画像 (新しいデータ) をリンゴ、バナナ、またはブドウの果物の種類に区別できるようになります。もちろん、モデルは特定の果物がリンゴであることを知りません。代わりに、それを識別するために必要な特性を知っています。

教師あり機械学習と教師なし機械学習を組み合わせて使用するハイブリッドモデルがあります。

機械学習でのトレーニングデータの使用方法

機械学習アルゴリズムとは異なり、従来のプログラミングアルゴリズムは一連の命令に従って、入力データを受け取り、出力を提供します。過去のデータには依存せず、すべてのアクションはルールに基づいています。これはまた、時間が経っても改善されないことを意味しますが、これは機械学習には当てはまりません。

機械学習モデルの場合、履歴データは飼料です。人間がより良い意思決定を行うために過去の経験に依存するのと同じように、ML モデルは、予測を行うために過去の観察でトレーニングデータセットを調べます。

予測には、次の場合のように画像を分類することが含まれる場合があります。画像認識、または自然言語処理 (NLP) のような文のコンテキストの理解。

データサイエンティストを教師、機械学習アルゴリズムを生徒、トレーニングデータセットをすべての教科書のコレクションと考えてください。

教師の願望は、学生が試験と現実の世界で良い成績を収めることです。 ML アルゴリズムの場合、テストは試験のようなものです。教科書 (トレーニングデータセット) には、試験で出題される問題の種類の例がいくつか含まれています。

ヒント:ビッグデータ分析を確認してくださいビッグデータがどのように収集、構造化、クリーニング、分析されるかを知る。

もちろん、試験で出題される問題のすべての例が含まれているわけではなく、教科書に含まれているすべての例が試験で出題されるわけでもありません。教科書は、生徒に何を期待し、どのように反応するかを教えることで、生徒の準備に役立ちます。

教科書が完全に完成することはありません。時間が経てば出題される問題も変わってくるので、教科書の内容も変えていかなければなりません。 ML アルゴリズムの場合、トレーニングセットを定期的に更新して、新しい情報を含める必要があります。

要するに、トレーニングデータは、データサイエンティストが ML アルゴリズムに何を期待するかについてのアイデアを与えるのに役立つ教科書です。トレーニングデータセットには考えられるすべての例が含まれているわけではありませんが、予測を行うことができるアルゴリズムが作成されます。

トレーニングデータ vs. テストデータ vs. 検証データ

トレーニングデータは、モデルのトレーニングで使用されます。つまり、モデルを適合させるために使用されるデータです。反対に、テストデータは、モデルのパフォーマンスまたは精度を評価するために使用されます。これは、トレーニングデータに適合する最終モデルの偏りのない評価を行うために使用されるデータのサンプルです。

トレーニングデータセットは、ML モデルに目的のパターンを識別したり、特定のタスクを実行したりすることを教える初期データセットです。テストデータセットは、トレーニングの効果やモデルの精度を評価するために使用されます。

ML アルゴリズムが特定のデータセットでトレーニングされ、同じデータセットでテストすると、モデルが何を期待するかを知っているため、精度が高くなる可能性が高くなります。トレーニングデータセットに、モデルが将来遭遇する可能性のあるすべての値が含まれている場合は、問題ありません。

しかし、決してそうではありません。トレーニングデータセットは決して包括的ではなく、モデルが現実の世界で遭遇する可能性のあるすべてを教えることはできません。したがって、モデルの精度を評価するために、目に見えないデータポイントを含むテストデータセットが使用されます。

トレーニングデータ vs. 検証データ vs. テストデータ

次に、検証データがあります。これは、トレーニングフェーズで頻繁に評価するために使用されるデータセットです。モデルはこのデータセットをときどき見ますが、そこから学習することはありません。検証セットは、開発セットまたは開発セットとも呼ばれます。モデルをオーバーフィッティングやアンダーフィッティングから保護するのに役立ちます。

検証データはトレーニングデータとは別のものですが、データサイエンティストは検証のためにトレーニングデータの一部を予約する場合があります。しかしもちろん、これは自動的に、トレーニング中に検証データが遠ざけられたことを意味します。

ヒント:データの量が限られている場合は、クロス検証と呼ばれる手法を使用してモデルのパフォーマンスを推定できます。この方法では、トレーニングデータをランダムに複数のサブセットに分割し、評価用に 1 つを確保します。

多くの場合、「テストデータ」と「検証データ」という用語は同じ意味で使用されます。この 2 つの主な違いは、トレーニング中にモデルを検証するために検証データが使用されるのに対し、トレーニングが完了した後にモデルをテストするためにテストセットが使用されることです。

検証データセットは、モデルに目に見えないデータの最初の味を与えます。ただし、すべてのデータサイエンティストが検証データを使用して初期チェックを行うわけではありません。彼らはこの部分をスキップして、直接データのテストに進むかもしれません。

ループ内の人間とは何ですか?

ヒューマンインザループとは、トレーニングデータの収集と準備に関与する人々を指します。

生データは、IoT デバイス、ソーシャルメディアプラットフォーム、Web サイト、顧客からのフィードバックなど、複数のソースから収集されます。収集が完了すると、プロセスに関与する個人が、モデルで予測する結果の優れた指標となるデータの重要な属性を決定します。

データは、クリーニング、欠損値の説明、外れ値の削除、データポイントのタグ付け、ML アルゴリズムのトレーニングに適した場所への読み込みによって準備されます。また、品質チェックも数回行われます。ご存知のように、ラベルが正しくないと、モデルの精度に大きな影響を与える可能性があります。

トレーニングデータが優れている理由は何ですか?

高品質のデータは、正確な機械学習モデルに変換されます。

低品質のデータは、モデルの精度に大きな影響を与える可能性があり、深刻な経済的損失につながる可能性があります。それはまるで、学生に間違った情報を含む教科書を渡して、試験で優秀になることを期待するようなものです.

以下は、質の高いトレーニングデータの 4 つの主な特徴です。

代表

AI トレーニングデータには、アプリケーションが予測または分類するデータポイントまたは特徴が含まれている必要があります。もちろん、データセットは決して絶対的なものではありませんが、少なくとも AI アプリケーションが認識できる属性を持っている必要があります。

たとえば、モデルが画像内の顔を認識することを意図している場合、さまざまな民族の人々の顔を含む多様なデータをモデルに供給する必要があります。これにより、AI バイアスの問題が軽減され、モデルが特定の人種、性別、または年齢層に対して偏見を持たなくなります。

ユニフォーム

すべてのデータは同じ属性を持つ必要があり、同じソースから取得する必要があります。

機械学習プロジェクトが、顧客情報を見て解約率を予測することを目的としているとします。そのために、顧客名、住所、注文数、注文頻度、およびその他の関連情報を含む顧客情報データベースを用意します。これは履歴データであり、トレーニングデータとして使用できます。

データの一部に、年齢や性別などの追加情報を含めることはできません。これにより、トレーニングデータが不完全になり、モデルが不正確になります。つまり、均一性は高品質のトレーニングデータの重要な側面です。

包括的

繰り返しますが、トレーニングデータは決して絶対的なものではありません。ただし、モデルのユースケースの大部分を表す大規模なデータセットにする必要があります。トレーニングデータには、モデルが適切に学習できるように十分な例が含まれている必要があります。モデルをトレーニングして何を期待するかを理解するのに役立つため、実世界のデータサンプルを含める必要があります。

トレーニングデータを多数の行と列に配置された値と考えている場合は、申し訳ありませんが、それは間違いです。テキスト、画像、音声、動画など、どのようなデータ型でもかまいません。

トレーニングデータの品質に影響を与えるものは何ですか?

人間は非常に社会的な生き物ですが、子供の頃に選んだかもしれない偏見がいくつかあり、それを取り除くには常に意識的な努力が必要です. 好ましくはありませんが、そのようなバイアスは私たちの作品に影響を与える可能性があり、機械学習アプリケーションも例外ではありません.

ML モデルの場合、トレーニングデータは彼らが読む唯一の本です。それらのパフォーマンスまたは正確さは、その本がどれほど包括的で、関連性があり、代表的であるかによって異なります。

そうは言っても、次の 3 つの要因がトレーニングデータの品質に影響します。

人:モデルをトレーニングする人は、モデルの精度やパフォーマンスに大きな影響を与えます。偏見があると、データのタグ付け方法に自然に影響し、最終的には ML モデルの機能に影響します。
プロセス:データのラベル付けプロセスでは、厳密な品質管理チェックを実施する必要があります。これにより、トレーニングデータの品質が大幅に向上します。
ツール:互換性のないツールや古いツールを使用すると、データの品質が低下する可能性があります。堅牢なデータラベル付けソフトウェアを使用すると、プロセスに関連するコストと時間を削減できます。

トレーニングデータの入手先

トレーニングデータを取得するには、いくつかの方法があります。ソースの選択は、機械学習プロジェクトの規模、予算、利用可能な時間によって異なります。以下は、データを収集するための 3 つの主要な情報源です。

オープンソースのトレーニングデータ

データ収集やラベル付けを行う余裕のないアマチュア ML 開発者や中小企業のほとんどは、オープンソースのトレーニングデータに依存しています。すでに収集済みで無料であるため、選択は簡単です。ただし、トレーニングのニーズに合わせて、そのようなデータセットを調整したり、再度注釈を付けたりする必要があります。 ImageNet、Kaggle、Google Dataset Search は、オープンソースデータセットの例です。

インターネットとIoT

ほとんどの中規模企業は、インターネットと IoT デバイスを使用してデータを収集します。カメラ、センサー、およびその他のインテリジェントデバイスは、生データの収集に役立ちます。これらのデータは後でクリーニングされ、注釈が付けられます。このデータ収集方法は、オープンソースのデータセットとは異なり、機械学習プロジェクトの要件に合わせて特別に調整されます。ただし、データのクリーニング、標準化、およびラベル付けは、時間とリソースを大量に消費するプロセスです。

人工訓練データ

人工学習データはその名の通り、機械学習モデルを用いて人工的に作成されたデータです。これは合成データとも呼ばれ、アルゴリズムをトレーニングするための特定の機能を備えた高品質のトレーニングデータが必要な場合に最適です。もちろん、この方法には大量の計算リソースと十分な時間が必要です。

どのくらいのトレーニングデータで十分ですか?

どの程度のトレーニングデータが十分なトレーニングデータであるかについて、具体的な答えはありません。それは、トレーニングしているアルゴリズム (予想される結果、アプリケーション、複雑さ、およびその他の多くの要因) によって異なります。

「cat」と「dog」という用語の出現と、「kitty」、「kitten」、「pussycat」、「puppy」、「doggy」などの同義語に基づいて文を分類するテキスト分類子をトレーニングするとします。 . 照合およびソートする用語はわずかしかないため、大規模なデータセットは必要ない場合があります。

しかし、これが画像を「猫」と「犬」に分類する画像分類器である場合、トレーニングデータセットに必要なデータポイントの数は大幅に増加します。要するに、どのトレーニングデータが十分なトレーニングデータであるかを決定するには、多くの要因が関係します。

必要なデータ量は、使用するアルゴリズムによって異なります。

コンテキストについては、機械学習のサブセットであるディープラーニングでは、人工ニューラルネットワーク (ANN) をトレーニングするために数百万のデータポイントが必要です。対照的に、機械学習アルゴリズムは数千のデータポイントしか必要としません。しかしもちろん、必要なデータの量はアプリケーションによって異なるため、これはとてつもない一般化です。

モデルをトレーニングすればするほど、モデルはより正確になります。そのため、トレーニングデータとして大量のデータを用意することをお勧めします。

ガベージイン、ガベージアウト

「ガベージイン、ガベージアウト」というフレーズは、データサイエンスで最も古く、最もよく使われるフレーズの 1 つです。データ生成の速度が指数関数的に増加しても、それは依然として当てはまります。

重要なのは、高品質で代表的なデータを機械学習アルゴリズムにフィードすることです。これにより、モデルの精度を大幅に向上させることができます。偏りのない機械学習アプリケーションを作成するには、高品質のトレーニングデータも重要です。

人間のような知性を備えたコンピューターで何ができるか考えたことはありますか? 人間の知性に相当するコンピュータは汎用人工知能として知られており、これが史上最大の発明になるか、最も危険な発明になるかはまだ結論が出ていません。

トレーニング データとは機械学習での使用方法