監督學習:如何教機器幫助我們

已發表: 2021-02-11

您可以將監督學習視為監督整個學習過程的老師。

這是機器學習最常見的方式之一,也是人工智能領域的寶貴工具。 這種學習過程類似於師生關係,儘管機器不像人類那麼頑固。

如果你剛剛踏入人工智能的世界,監督學習可能不是你以前遇到過的一個術語。 簡而言之,它是一種機器學習策略,使人工智能係統能夠學習和進步。

簡而言之,監督學習算法旨在通過示例進行學習。 這樣的例子被稱為訓練數據,每個例子都是一對輸入對象和期望的輸出值。 饋入系統的輸入和輸出數據對通常稱為標記數據

通過提供標記數據,您可以向機器展示不同變量和已知結果之間的聯繫。 通過監督學習,人工智能係統被明確告知要在給定的輸入數據中尋找什麼。 這使算法能夠定期變得更好,並創建機器學習模型,當出現不熟悉的數據時,可以預測結果或準確分類數據。

通常,在模型創建過程的不同階段使用三個數據集:

  • 訓練數據集:用於訓練模型的樣本數據。 換句話說,它是一組用於擬合模型參數的訓練樣例。
  • 驗證數據集:用於提供對訓練數據集上模型擬合的無偏評估的樣本數據
  • 測試數據集:用於對訓練數據集擬合的最終模型進行無偏評估的樣本數據

模型擬合是指衡量模型泛化到與訓練數據相似的數據的程度。 擬合良好的模型會產生準確的結果; 過度擬合的模型與數據的匹配過於緊密; 擬合不足的模型與數據的匹配不夠緊密。

監督學習是如何工作的?

訓練在監督學習中起著舉足輕重的作用。 在訓練階段,人工智能係統會收到大量標記的訓練數據。 如前所述,訓練數據會指導系統從每個不同的輸入值得到所需的輸出。

然後給訓練好的模型提供測試數據。 這使數據科學家能夠確定訓練的有效性和模型的準確性。 模型的準確性取決於訓練數據集的大小和質量以及使用的算法。

然而,高精度並不總是一件好事。 例如,高精度可能意味著模型存在過度擬合——當模型過度調整到其訓練數據集時,建模錯誤或模型優化不正確,甚至可能導致誤報。

在這種情況下,模型可能在測試場景中表現得非常好,但在現實環境中可能無法提供正確的輸出。 為了消除過度擬合的可能性,請確保測試數據與訓練數據完全不同。 此外,檢查模型是否沒有從以前的經驗中得出答案。

訓練示例也應該是多樣化的。 否則,當出現前所未見的案例時,模型將無法工作。

在數據科學和數據挖掘(將原始數據轉化為有用信息的過程)的背景下,監督學習可以進一步分為兩類:分類回歸

分類算法試圖確定它所呈現的數據的類別或類別。 垃圾郵件分類、計算機視覺和藥物分類是分類問題的一些常見示例。

另一方面,回歸算法試圖根據所提供數據的輸入特徵來預測輸出值。 預測數字廣告的點擊率並根據其特徵預測房價是一些常見的回歸問題。

監督與無監督與半監督學習

了解有監督學習和無監督學習之間區別的最佳方法之一是查看您將如何學習玩棋盤遊戲——比如說國際象棋。

監督與無監督與半監督學習

一種選擇是聘請國際象棋導師。 導師將通過向您解釋基本規則,每件國際象棋的作用等等,教您如何玩國際象棋遊戲。 一旦您了解了遊戲規則和每件作品的範圍,您就可以通過與導師對戰來繼續練習。

當你犯錯時,導師會監督你的動作並糾正你。 一旦你積累了足夠的知識和實踐,你就可以開始與他人競爭。

這種學習過程可以與監督學習相媲美。 在監督學習中,數據科學家就像導師一樣,通過提供基本規則和總體策略來訓練機器。

如果你不想請家教,你仍然可以學習國際象棋遊戲。 一種方法是觀看其他人玩遊戲。 您可能無法問他們任何問題,但您可以觀看並學習如何玩遊戲。

儘管不知道每個棋子的名稱,但您可以通過觀察遊戲來了解每個棋子的移動方式。 您觀看的比賽越多,您的理解就越好,您對可以採取的不同策略的了解也就越多。

這個學習過程類似於無監督學習。 數據科學家讓機器通過觀察來學習。 雖然機器不知道具體的名稱或標籤,但它可以自己找到圖案。

簡單地說,無監督學習就是給算法一個訓練數據集,該數據集只包含輸入數據而沒有相應的輸出數據。

正如你所看到的,這兩種學習方法都有明顯的優點和缺點。

對於監督學習,您需要一位知識淵博的導師,他可以教機器規則和策略。 在國際象棋的例子中,這意味著你需要一個導師來學習這個遊戲。 如果沒有,你最終可能會錯誤地學習遊戲。

在無監督學習的情況下,您需要大量數據供機器觀察和學習。 儘管未標記的數據便宜(且豐富)且易於收集和存儲,但它必須沒有重複或垃圾數據。 有缺陷或不完整的數據也可能導致機器學習偏差——算法產生歧視性結果的現象。

在國際象棋的例子中,如果你是通過觀察其他棋手來學習的,這意味著你需要觀看幾十場比賽才能理解它。 此外,如果您正在觀看不正確地玩遊戲的玩家,您最終可能也會這樣做。

然後是半監督學習

正如您可能已經猜到的那樣,半監督學習是監督學習和無監督學習的混合體。 在這個學習過程中,數據科學家只對機器進行一點訓練,以便獲得高級別的概述。 然後機器通過觀察模式來學習規則和策略。 一小部分訓練數據將被標記,其餘的將未標記。

在學習國際象棋的示例中,半監督學習類似於導師向您解釋基礎知識並讓您通過競爭來學習。

另一個學習過程是強化學習 (RL) 。 這是一種機器學習策略,其中人工智能係統面臨類似遊戲的情況。 為了教授人工智能,程序員使用了一種獎勵懲罰技術,其中系統必須專注於採取適當的行動來最大化獎勵並避免懲罰。

監督學習算法

在監督學習過程中使用了許多計算技術和算法。

在選擇監督機器學習算法時,一般會考慮以下因素:

  • 系統試圖學習的模型的複雜性
  • 算法中存在的偏差和方差
  • 訓練數據的大小
  • 數據的準確性、異質性、冗餘和線性
  • 可訓練時間

以下是您會遇到的一些常見的監督機器學習算法。

線性回歸

線性回歸既是一種統計算法,也是一種機器學習算法。 這是一種算法,它試圖通過將線性方程附加到觀察到的數據來模擬兩個變量之間的關係。 在這兩個變量中,一個被認為是解釋變量,另一個被認為是因變量。

線性回歸也可用於識別因變量與一個或多個自變量之間的關係。 在機器學習領域,線性回歸用於進行預測。

邏輯回歸

邏輯回歸是一種數學模型,用於根據提供的先前數據估計事件的概率。 信用評分和在線交易欺詐檢測是該算法的一些實際應用。 換句話說,它是一種基於概率概念的預測分析算法,用於解決二進制分類問題。

就像邏輯回歸一樣,線性回歸也是從統計學領域借來的。 但是,與處理連續因變量的線性回歸不同,邏輯回歸處理二進制數據,例如“真”或“假”。

神經網絡

人工神經網絡 (ANN) 主要用於深度學習算法。 它們是一系列模仿人腦功能的算法,以識別大量數據之間的關係。 正如您可能已經猜到的那樣,人工神經網絡對於人工智能係統至關重要。

神經網絡由多個節點的層組成。 每個節點由輸入、權重、偏差和輸出組成。 通過根據網絡性能調整輸入權重來訓練 ANN。 例如,如果神經網絡對圖像進行正確分類,則有助於正確答案的權重會增加,而其他權重會減少。

樸素貝葉斯

樸素貝葉斯是一種基於貝葉斯定理類條件獨立性原理的分類方法。 簡單來說,樸素貝葉斯分類器方法假設類中特定特徵的存在不會影響任何其他特徵的存在。

例如,如果一個水果呈紅色、圓形且直徑約為 3 英寸,則可以認為它是蘋果。 即使這些特徵是相互依賴的,所有這些屬性都單獨影響了這個水果是蘋果的概率。

樸素貝葉斯模型在處理大型數據集時很有用。 它易於構建、速度快,並且比高級分類方法表現更好。

支持向量機 (SVM)

支持向量機(SVM)是一種著名的監督機器學習算法,由 Vladimir Vapnik 開發。 儘管主要用於分類問題,但 SVM 也可用於回歸。

支持向量機建立在尋找一個超平面的想法之上,該超平面最好地將給定的數據集分為兩類。 這樣的超平面被稱為決策邊界並將數據點分離到任一側。 人臉檢測、文本分類、圖像分類是 SVM 的許多實際應用中的一部分。

K-最近鄰(KNN)

K-最近鄰(KNN)算法是一種用於解決回歸和分類問題的監督機器學習算法。 這是一種根據數據點與其他數據的接近程度和關係對數據點進行分組的算法。

它易於理解,易於實現,並且計算時間短。 但是,隨著使用的數據量的增加,該算法變得非常緩慢。 KNN 通常用於圖像識別和推薦系統。

隨機森林

隨機森林是一種學習方法,它由大量作為集成操作的決策樹組成(使用多種學習算法來獲得更好的預測性能)。 每個決策樹都提供一個類預測,得票最高的類成為模型的預測。

隨機森林算法廣泛應用於股票市場、銀行和醫療領域。 例如,它可以用來識別更有可能按時償還債務的客戶。

監督學習示例

如前所述,預測房價、在線廣告的點擊率,甚至客戶對特定產品的支付意願都是監督學習模型的一些顯著例子。

以下是您在日常生活中可能會遇到的更多示例。

  • 情緒分析一種用於確定產品情緒和了解客戶需求的自然語言處理技術
  • 圖像識別:一種用於定位、識別和分類視頻和圖像中的對象的技術
  • 垃圾郵件檢測:通過識別數據中的模式和異常對垃圾郵件和非垃圾郵件內容進行分類的方法

教機器思考

通過利用標記數據,監督學習算法可以創建可以輕鬆分類大數據甚至預測未來結果的模型。 這是一種將機器引入人類世界的絕妙學習技術。

說到讓機器變得智能的學習技術,你有沒有想過我們今天擁有的人工智能係統真正具備哪些能力? 如果是這樣,請閱讀更多關於狹義 AI 的內容來滿足您的好奇心。