关于机器学习你需要知道的一切[数据科学家访谈]
已发表: 2022-05-25科幻小说描绘了许多关于机器接管世界的未来的恐怖画面。 这些对全能机器的严峻愿景是人们对人工智能和机器学习的许多误解中的一部分。
在本文中,我们的机器学习专家Juuso Lassila回答了有关机器学习的最常见问题,并告诉我们为什么机器还没有准备好接管世界。
1. 什么是机器学习?
机器学习意味着机器无需编程即可学习。 机器学习和 AI 经常被错误地用作同义词,但它们并不相同。 机器学习实际上是人工智能的一个子集。
“人工智能是一个定义不明确的术语。 它可能意味着任何东西,”Lassila 解释道。
机器学习和人工智能之间的最大区别在于人工智能并不总是需要数据。 例如,有人说在地图上找到最佳路线是人工智能。 这个过程不是基于数据的,而是一种算法。
另一方面,机器学习是使用数据进行学习的人工智能。 机器学习的好处是程序员不需要知道模型是如何解决问题的。 这意味着机器可以使用程序员不知道的技术。 如今,机器学习在许多行业中发挥着重要作用。
2. 机器学习是如何使用的?
机器学习试图理解数据和其中的结构。 简单来说,让我们来看看互联网喜欢的东西:猫和狗的照片! 因此,如果您有数百张您最喜欢的毛茸茸朋友的随机图像,您可以使用机器学习来区分这些图像。 例如,机器可以组织数据,以便您最终只得到猫的照片。
“机器学习将从你提供给它的数据中预测值并理解这些数据,”Lassila 说。
使用机器学习的一种常见方法是对数据进行分类,就像在我们上面的猫和狗图片的示例中一样。 但是,机器学习也用于AI 聊天机器人并进行不同类型的预测。 例如,机器学习可用于根据房屋的大小、位置、建造年份等信息来估计房屋的价值。
3. 机器如何学习?
机器学习通常试图最小化模型的错误。 首先,它从随机答案开始。 Lassila 解释说,然后人类会给出正确的答案。
有一种方法可以衡量机器给出的答案有多错误。 在一些机器学习模型中,微分用于最小化错误。
通过微分,您可以计算出应该改变参数的方向以降低误差函数的值。
“然后你知道如何改变你的参数,使函数的值减小。 然后,您可以通过更改参数向更小的错误迈出一小步。 这样可以最大限度地减少错误,”Lassila 说。
4. 机器可以无差错吗?
理论上,可能没有错误,但在现实世界中,它并没有真正发生。 即使在最好的情况下,机器也只能获得 99.9% 的正确数据。
“对于分类,我们可以测量准确性,”Lassila 说。 通常,90-95% 的准确率被认为是相当好的。 当误差范围足够低时,机器就可以投入生产了。 在产品上线之前,误差幅度必须有多低取决于机器应该完成的任务。
在谈论人工智能聊天机器人时,很难说什么时候机器人会比烦人更有帮助,因为人工智能聊天机器人可以有尽可能多的示例问题。 机器总是必须选择可用答案中最好的一个。 机器的正确程度取决于有多少样题。
“如果你有一个问题,机器总是正确的。 如果你有两个,希望它经常是正确的,但如果你有 100 个问题,那么机器很可能会选择错误的答案,”Lassila 解释道。
5. 什么是深度学习?
深度学习是一种在模型中使用层的机器学习方法。 一层产生一个输出,该输出被转移到第二层,依此类推。 深度学习通常在神经网络中完成。
“神经网络非常方便,因为它们可以很好地适应不同的输入和输出格式,”Lassila 说。
神经网络用途广泛,这就是它们有很多用例的原因。 人工智能聊天机器人通常也使用神经网络。
“我们从只是空间中的向量点的消息中创建那些句子嵌入。 然后我们测量它们的相似性。 它使用神经网络。 它有很多层,最后会给出输出,”Lassila 解释道。
还有很多机器学习方法并不深入。 如支持向量机或决策树。
6、机器学习的瓶颈是什么?
数据是限制机器学习的因素之一。 如果您没有数据,机器学习将无法工作。 您还需要计算资源。 模型通常也会造成限制。
“对于分类等基本任务,模型很好。 在这些情况下,您只会受到数据和计算资源的限制。 但在某些领域,模型还不是很好,”Lassila 说。
只要您有计算数据的资源,数据越多越好。 但是,数据必须具有良好的质量。 此外,模型必须很大,以便模型能够处理它可能获得的所有复杂输入。 机器需要大量的处理能力来处理这些数据。
“您可以访问大量数据。 这真的不是问题。” 拉西拉说。 “问题在于模型和训练它们所需的时间。 存储这些模型需要大量内存。”

机器学习的另一个缺陷是当前可用于某些任务的模型架构。 目前还没有很好的句子嵌入模型架构。
“寻找一个非常好的模型仍在进行中,”拉西拉说。
7. 你如何教机器?
首先,您需要大量数据,而用于训练模型的数据需要人工标签。
Lassila 解释说:“使用机器学习的大公司有一大群人只是给数据贴标签。”
即使机器人可以随时间开始标记数据,您也不希望使用模型为您提供的答案作为训练数据。 模型比人类犯的错误更多。 如果你使用机器标签作为训练数据,你会再次将这些错误传授给模型。
“这将使错误变得越来越大。 “
也可以使用主动学习,模型可以告诉哪些类型的数据点对标记有用。 这样可以提高学习效率。 “机器可以指导贴标过程。 尽管如此,人类还是应该进行标记,以免错误传播。 “
一旦人类用数据训练了一个模型,那么机器应该能够为看不见的输入重现该标签。 但是,如果您需要新的答案,则需要人工再次标记数据。
8. 机器学习的未来是什么?
机器学习目前发展非常迅速。 几年前,引入了另一种深度学习模型,即 Transformer 模型。 变压器模型的发现对机器学习产生了巨大的影响。
“我们一直在围绕这一发现重建整个研究领域。 它确实运作良好,”Lassila 解释道。
变压器模型也用于具有自然语言处理的 AI 聊天机器人。 Lassila 说:“但在某个时候,我们将在如何充分利用该架构方面走到尽头。” “希望我们能找到一些新的东西,带来更好的结果。”
9. 机器会接管世界吗?
人们对人工智能和机器学习的期望过高或过低。
“人们对人工智能的能力缺乏了解,”拉西拉说。
因此,机器似乎还不会接管世界。 在此之前,机器人需要克服一些障碍。
“模型和架构还没有。 我们确实拥有打造优秀人工智能的数据和计算资源,但我们仍然需要那些优秀的架构让机器人接管。”
尽管人工智能还没有准备好接管世界,但它会接管一些工作。
“某些工作可能会在某些时候被人工智能取代。 这些将是不需要太多思考的重复性工作,”Lassila 说。
有两种方法可以思考人工智能将如何改变就业市场。 一是人工智能取代了工作,但它也可以增强工作。 它可以与人类一起工作。 一个很好的例子是聊天机器人,当他们无法帮助网站访问者时,它可以连接到现场代理。
“人工智能可以提高许多工作的效率。”
但是,您仍然需要人力资源来消除不准确之处。 AI不像人类那样思考。 它使用不同的方法。 有时它为什么显示某些东西对我们来说没有意义。
“人工智能最大的问题之一是机器无法解释为什么它会产生特定的输出。 这可能对模型有意义,但对人类没有意义。“
如果您想了解有关机器学习和 AI 的更多信息,请查看我们的AI 聊天机器人指南。