什么是语音转文本软件 - 2022 年初学者指南

已发表: 2022-04-25

Speech-to-text 软件自称是转录服务的一站式商店,提供您一直在寻找的低成本、易于使用、准确且快速的转录本。 然而,它是否像 hoopla 所暗示的那样好? 究竟什么是语音转文本软件?

简而言之,语音转文本软件,也称为自动语音识别 (ASR) 软件或语音转文本软件,是一种计算机程序,可对听觉数据进行分类,并利用语言算法使用 Unicode 字符将其转换为单词。

简而言之,语音转文本软件“聆听”音频并生成可编辑的逐字记录。

在互联网上,有大量的自动转录服务提供商。 大多数提供引人注目的价格点,任何熟悉人工转录服务的人都会觉得很有吸引力——平均每分钟录制的音频约为 0.10 英镑,有些甚至是免费的。

大多数人声称准确率在 90% 到 95% 之间。 这仅适用于“干净”的录音,在选择 ASR 软件是否可以满足您的转录需求之前了解这一点至关重要。

在您过于兴奋并放弃您的转录预算以支持语音转文本软件之前,最好复习一下您对该技术的了解。 以下是有关语音转文本软件的事实概要,以及它与传统人工转录服务的比较。

语音转文本软件如何工作?

将语音转化为文本的过程需要几个过程。 当你说话时,你会发出一系列的振动。 模数转换器或 ADC 将这些转换为数字语言。

通过从音频文件中采样声音并对波形进行定期、非常详细的测量,ADC 能够完成这种转换。 系统中的滤波器可区分显着噪声并区分频率。 说话速度也被调整,响度被设置为预设水平。

然后将信号分割成百分之一或千分之一秒,这些片段与音素相匹配(音素是一种声音单位,用于区分特定语言中的一个词与另一个词)。 英语包含 40 多个音素。 然后将每个音素与附近的其他音素联系起来进行调查和评估,并且系统使用复杂的数学模型将音素网络与众所周知的句子、特定单词和短语进行比较。 然后,系统会根据该人最有可能说的话,使用自然语言处理生成文本。 这可以是一段文本(文本文件)或最终计算机指令的形式。

ASR/语音转文本软件的好、坏和丑

从表面上看,ASR 似乎是一个绝妙的解决方案。 但是,如果您再深入一点,您会发现存在一定的困难,尤其是在某些类型的录音方面。 在将 ASR 与基于人工的转录服务进行比较时,重要的是要考虑优点、缺点和丑陋。

语音转文本软件的好处

ASR 最大的好处是它的快速和低成本。 自动语音识别 (ASR) 提供快速结果,在某些情况下,甚至可以提供实时服务。 随之而来的成本同样比人工服务便宜得多。

有些公司按分钟收费。 其他人有固定的每月价格。 对于收费程序,您通常每月只能上传一定数量的内容。 无论您的收费方式如何,您都应该预计每分钟音频花费大约 0.07 英镑到 0.10 英镑用于自动转录服务。

另一方面,一些服务是完全免费的。 如果您为转录软件访问付费,您更有可能获得明显更好的结果。 但首先,让我们看一下语音转文本软件的一些问题。

语音转文本软件的缺点

自动语音识别技术仅产生逐字文本的能力是其主要缺点之一。 在没有人的情况下,系统只能转录已经存在的内容。 因此,您可能会得到一份难以阅读的成绩单。

犹豫不决、发出“erm”之类的声音以及在说话时因特定单词而绊倒是很常见的。 磁带上的所有内容都将包含在逐字文本中。 人工服务可以整理并提供更易于理解的成绩单,同时保留所有原始录音的细节和准确性。

语音转文本软件的丑陋一面

ASR 的准确性是最受关注的部分。 即使是最出色的语音转文本软件也很少能达到 80% 以上的准确率,这意味着您必须花费时间和精力来纠正和改进您的工作。

如果存在“复杂”元素,ASR 会产生无意义的结果。 您需要“干净”的录音才能从语音到文本服务接收可通过的成绩单。 这意味着对人们仔细说话的高质量录音,一次一个,没有口音,背景噪音最小。

ASR 也可能难以理解专业语言或识别品牌名称和行业术语。 为防止此类问题,大多数人工转录服务将允许您提供词汇表或将您与具有相关领域知识的转录员联系起来。 随着时间的推移,可以针对特定领域或主题训练 ASR 软件,但这需要付出努力,而且不太可能是开箱即用的。

ASR 与人工辅助转录服务的比较

语音转文本技术和基于人工的转录服务有一些重要的区别。

成本

对于许多人来说,价格是一个主要考虑因素,人工转录服务比 ASR 贵得多。 一些 ASR 服务是免费的,而大多数收费在每分钟 0.10 英镑到 0.20 英镑之间。 另一方面,人性化服务通常每分钟收费 2 英镑左右。 对于较长的周转期,可能会降低定价。 即使您可以等待一周的成绩单,基于人工的服务也将比语音转文本软件更昂贵。

时间

与 ASR 相比,人工服务的运行时间要长得多。 人工服务的周转时间通常为 12-24 小时,其中许多提供交货时间保证。 ASR 的速度要快得多,只需几秒钟即可生成转录本。 如果您需要立即进行人工转录,您几乎肯定会被收取更多费用。

多功能性和选项

使用 ASR 获得逐字记录的唯一方法是语音识别软件在准确性方面是否能够胜任任务。 以人为本的服务提供了更广泛的可能性,例如逐字记录和详细说明。 大多数基于人工的转录服务的逐字记录选项仍将删除错误、减少停顿以及“嗯”和“错误”,从而使版本更易于阅读(除非您要求保留所有细节)。 详细说明通过提供更简洁的成绩单更进一步。 这可能涉及总结查询并删除离题的闲聊和客套话。

质量和信心

当您使用基于人工的转录服务时,您可以确保结果质量更高。 人工服务具有质量控制保证,通常提供 99% 或更高的准确率,但完全无法辨认的音频除外。

成绩单将为您校对,因此您不必花时间验证文本或自己进行更改。 如果您使用 ASR,您可能会发现您必须花费大量时间在文本中搜索错误、纠正乱码文本以及删除单词和不受欢迎的噪音。

摘要:Speech to Text 是一种经济高效的解决方案

对于需要快速转录服务的个人来说,语音转文本软件是一种经济高效的选择。

因为 ASR 非常便宜,而且通常甚至是免费的,所以值得尝试看看您可以获得什么类型的结果。 您可以通过尝试不同的替代方案来确定需要什么样的音质才能创建可理解的结果。

您必须投资制作高质量的录音,以使用 ASR 制作高质量的转录。 但是,如果您想要多种选择、准确的转录以及对细节的无与伦比的关注,您将需要投资基于人工的服务。