關於機器學習你需要知道的一切[數據科學家訪談]
已發表: 2022-05-25科幻小說描繪了許多關於機器接管世界的未來的恐怖畫面。 這些對全能機器的嚴峻願景是人們對人工智能和機器學習的許多誤解中的一部分。
在本文中,我們的機器學習專家Juuso Lassila回答了有關機器學習的最常見問題,並告訴我們為什麼機器還沒有準備好接管世界。
1. 什麼是機器學習?
機器學習意味著機器無需編程即可學習。 機器學習和 AI 經常被錯誤地用作同義詞,但它們並不相同。 機器學習實際上是人工智能的一個子集。
“人工智能是一個定義不明確的術語。 它可能意味著任何東西,”Lassila 解釋道。
機器學習和人工智能之間的最大區別在於人工智能並不總是需要數據。 例如,有人說在地圖上找到最佳路線是人工智能。 這個過程不是基於數據的,而是一種算法。
另一方面,機器學習是使用數據進行學習的人工智能。 機器學習的好處是程序員不需要知道模型是如何解決問題的。 這意味著機器可以使用程序員不知道的技術。 如今,機器學習在許多行業中發揮著重要作用。
2. 機器學習是如何使用的?
機器學習試圖理解數據和其中的結構。 簡單來說,讓我們來看看互聯網喜歡的東西:貓和狗的照片! 因此,如果您有數百張您最喜歡的毛茸茸朋友的隨機圖像,您可以使用機器學習來區分這些圖像。 例如,機器可以組織數據,以便您最終只得到貓的照片。
“機器學習將從你提供給它的數據中預測值並理解這些數據,”Lassila 說。
使用機器學習的一種常見方法是對數據進行分類,就像在我們上面的貓和狗圖片的示例中一樣。 但是,機器學習也用於AI 聊天機器人並進行不同類型的預測。 例如,機器學習可用於根據房屋的大小、位置、建造年份等信息來估計房屋的價值。
3. 機器如何學習?
機器學習通常試圖最小化模型的錯誤。 首先,它從隨機答案開始。 Lassila 解釋說,然後人類會給出正確的答案。
有一種方法可以衡量機器給出的答案有多錯誤。 在一些機器學習模型中,微分用於最小化錯誤。
通過微分,您可以計算出應該改變參數的方向以降低誤差函數的值。
“然後你知道如何改變你的參數,使函數的值減小。 然後,您可以通過更改參數向更小的錯誤邁出一小步。 這樣可以最大限度地減少錯誤,”Lassila 說。
4. 機器可以無差錯嗎?
理論上,可能沒有錯誤,但在現實世界中,它並沒有真正發生。 即使在最好的情況下,機器也只能獲得 99.9% 的正確數據。
“對於分類,我們可以測量準確性,”Lassila 說。 通常,90-95% 的準確率被認為是相當好的。 當誤差範圍足夠低時,機器就可以投入生產了。 在產品上線之前,誤差幅度必須有多低取決於機器應該完成的任務。
在談論人工智能聊天機器人時,很難說什麼時候機器人會比煩人更有幫助,因為人工智能聊天機器人可以有盡可能多的示例問題。 機器總是必須選擇可用答案中最好的一個。 機器的正確程度取決於有多少樣題。
“如果你有一個問題,機器總是正確的。 如果你有兩個,希望它經常是正確的,但如果你有 100 個問題,那麼機器很可能會選擇錯誤的答案,”Lassila 解釋道。
5. 什麼是深度學習?
深度學習是一種在模型中使用層的機器學習方法。 一層產生一個輸出,該輸出被轉移到第二層,依此類推。 深度學習通常在神經網絡中完成。
“神經網絡非常方便,因為它們可以很好地適應不同的輸入和輸出格式,”Lassila 說。
神經網絡用途廣泛,這就是它們有很多用例的原因。 人工智能聊天機器人通常也使用神經網絡。
“我們從只是空間中的向量點的消息中創建那些句子嵌入。 然後我們測量它們的相似性。 它使用神經網絡。 它有很多層,最後會給出輸出,”Lassila 解釋道。
還有很多機器學習方法並不深入。 如支持向量機或決策樹。
6、機器學習的瓶頸是什麼?
數據是限制機器學習的因素之一。 如果您沒有數據,機器學習將無法工作。 您還需要計算資源。 模型通常也會造成限制。
“對於分類等基本任務,模型很好。 在這些情況下,您只會受到數據和計算資源的限制。 但在某些領域,模型還不是很好,”Lassila 說。
只要您有計算數據的資源,數據越多越好。 但是,數據必須具有良好的質量。 此外,模型必須很大,以便模型能夠處理它可能獲得的所有復雜輸入。 機器需要大量的處理能力來處理這些數據。
“您可以訪問大量數據。 這真的不是問題。” 拉西拉說。 “問題在於模型和訓練它們所需的時間。 存儲這些模型需要大量內存。”

機器學習的另一個缺陷是當前可用於某些任務的模型架構。 目前還沒有很好的句子嵌入模型架構。
“尋找一個非常好的模型仍在進行中,”拉西拉說。
7. 你如何教機器?
首先,您需要大量數據,而用於訓練模型的數據需要人工標籤。
Lassila 解釋說:“使用機器學習的大公司有一大群人只是給數據貼標籤。”
即使機器人可以隨時間開始標記數據,您也不希望使用模型為您提供的答案作為訓練數據。 模型比人類犯的錯誤更多。 如果你使用機器標籤作為訓練數據,你會再次將這些錯誤傳授給模型。
“這將使錯誤變得越來越大。 “
也可以使用主動學習,模型可以告訴哪些類型的數據點對標記有用。 這樣可以提高學習效率。 “機器可以指導貼標過程。 儘管如此,人類還是應該進行標記,以免錯誤傳播。 “
一旦人類用數據訓練了一個模型,那麼機器應該能夠為看不見的輸入重現該標籤。 但是,如果您需要新的答案,則需要人工再次標記數據。
8. 機器學習的未來是什麼?
機器學習目前發展非常迅速。 幾年前,引入了另一種深度學習模型,即 Transformer 模型。 變壓器模型的發現對機器學習產生了巨大的影響。
“我們一直在圍繞這一發現重建整個研究領域。 它確實運作良好,”Lassila 解釋道。
變壓器模型也用於具有自然語言處理的 AI 聊天機器人。 Lassila 說:“但在某個時候,我們將在如何充分利用該架構方面走到盡頭。” “希望我們能找到一些新的東西,帶來更好的結果。”
9. 機器會接管世界嗎?
人們對人工智能和機器學習的期望過高或過低。
“人們對人工智能的能力缺乏了解,”拉西拉說。
因此,機器似乎還不會接管世界。 在此之前,機器人需要克服一些障礙。
“模型和架構還沒有。 我們確實擁有打造優秀人工智能的數據和計算資源,但我們仍然需要那些優秀的架構讓機器人接管。”
儘管人工智能還沒有準備好接管世界,但它會接管一些工作。
“某些工作可能會在某些時候被人工智能取代。 這些將是不需要太多思考的重複性工作,”Lassila 說。
有兩種方法可以思考人工智能將如何改變就業市場。 一是人工智能取代了工作,但它也可以增強工作。 它可以與人類一起工作。 一個很好的例子是聊天機器人,當他們無法幫助網站訪問者時,它可以連接到現場代理。
“人工智能可以提高許多工作的效率。”
但是,您仍然需要人力資源來消除不准確之處。 AI不像人類那樣思考。 它使用不同的方法。 有時它為什麼顯示某些東西對我們來說沒有意義。
“人工智能最大的問題之一是機器無法解釋為什麼它會產生特定的輸出。 這可能對模型有意義,但對人類沒有意義。“
如果您想了解有關機器學習和 AI 的更多信息,請查看我們的AI 聊天機器人指南。