¿Qué es el software de voz a texto? Guía para principiantes 2022

Publicado: 2022-04-25

El software de voz a texto se anuncia a sí mismo como una ventanilla única para los servicios de transcripción, brindando la transcripción de bajo costo, fácil de usar, precisa y rápida que ha estado buscando. ¿Es, sin embargo, tan bueno como sugiere el alboroto? ¿Qué es exactamente el software de voz a texto?

En pocas palabras, el software de voz a texto, también conocido como software de reconocimiento automático de voz (ASR) o software de voz a texto, es un programa informático que clasifica los datos auditivos y los convierte en palabras utilizando caracteres Unicode utilizando algoritmos lingüísticos.

En pocas palabras, el software de voz a texto 'escucha' el audio y produce una transcripción palabra por palabra que se puede editar.

En Internet, hay una plétora de proveedores de servicios de transcripción automática. La mayoría ofrece puntos de precio atractivos que cualquiera que esté familiarizado con los servicios de transcripción humana encontrará atractivos: un promedio de alrededor de £ 0.10 por minuto de audio grabado, y algunos incluso son gratuitos.

La mayoría afirma tasas de precisión del 90 al 95 por ciento. Esto solo es cierto para las grabaciones 'limpias', lo cual es crucial para comprender antes de elegir si el software ASR puede satisfacer sus necesidades de transcripción.

Antes de que se entusiasme demasiado y renuncie a su presupuesto de transcripción en favor del software de voz a texto, es una buena idea repasar su conocimiento de la tecnología. Aquí hay un resumen de los hechos sobre el software de voz a texto y cómo se compara con los servicios tradicionales de transcripción humana.

¿Cómo funciona el software de voz a texto?

El proceso de convertir el habla en texto implica varios procesos. Cuando hablas, envías una serie de vibraciones. El convertidor de analógico a digital, o ADC, los convierte en lenguaje digital.

Al muestrear sonidos de un archivo de audio y tomar medidas periódicas y muy detalladas de las ondas, el ADC puede completar esta conversión. Un filtro en el sistema distingue los ruidos significativos y diferencia las frecuencias. La velocidad del habla también se ajusta y el volumen se establece en un nivel preestablecido.

Luego, la señal se segmenta en centésimas o milésimas de segundo, y estos segmentos se relacionan con fonemas (un fonema es una unidad de sonido que distingue una palabra de otra en un idioma en particular). El idioma inglés contiene más de 40 fonemas. Luego, cada fonema se investiga y evalúa en relación con otros fonemas cercanos, y el sistema compara la red de fonemas con oraciones conocidas, palabras particulares y frases utilizando un modelo matemático complejo. Luego, el sistema genera texto utilizando el procesamiento de lenguaje natural basado en lo que es más probable que haya dicho la persona. Esto puede ser en forma de fragmento de texto (archivo de texto) o instrucción final de computadora.

Lo bueno, lo malo y lo feo del software ASR/de voz a texto

En la superficie, ASR parece ser una solución fantástica. Sin embargo, si profundiza un poco más, encontrará que existen ciertas dificultades, especialmente con ciertos tipos de grabación. Al comparar ASR con los servicios de transcripción basados en humanos, es importante tener en cuenta los pros, los contras y lo feo.

Los beneficios del software de voz a texto

Los beneficios más importantes de ASR son su rapidez y bajo costo. El reconocimiento automático de voz (ASR) proporciona resultados rápidos y, en algunas situaciones, incluso puede proporcionar un servicio en tiempo real. El costo que lo acompaña también es significativamente más barato que el de los servicios humanos.

Algunas empresas cobran por minuto. Otros tienen un precio fijo mensual. Por lo general, está limitado a una cierta cantidad de cargas por mes con programas basados en tarifas. Debe anticipar gastar aproximadamente £ 0.07-£ 0.10 por minuto de audio para un servicio de transcripción automática, independientemente de cómo se le cobre.

Algunos servicios, por otro lado, son completamente gratuitos. Es más probable que obtenga resultados significativamente mejores si paga por el acceso al software de transcripción. Pero primero, veamos algunos de los problemas con el software de voz a texto.

Los inconvenientes del software de voz a texto

La capacidad de la tecnología de reconocimiento automático de voz para producir únicamente texto textual es uno de sus principales inconvenientes. En ausencia de un ser humano, el sistema solo puede transcribir lo que ya está presente. Como resultado, puede terminar con una transcripción que sea difícil de leer.

Es muy habitual dudar, hacer ruidos como 'erm' y tropezar con palabras específicas al hablar. Todo en la cinta se incluirá en texto textual. Los servicios humanos pueden arreglar esto y proporcionar una transcripción mucho más comprensible mientras conservan todos los detalles y la precisión de la grabación original.

El lado feo del software de voz a texto

La precisión de ASR es el componente más preocupante. Incluso el mejor software de conversión de voz a texto rara vez logra índices de precisión de más del 80 %, lo que significa que tendrá que dedicar tiempo y esfuerzo a corregir y mejorar su trabajo.

ASR puede generar resultados sin sentido si hay elementos 'complicantes'. Necesitará grabaciones de audio "limpias" para recibir una transcripción aceptable de un servicio de voz a texto. Eso significa una grabación de alta calidad de personas hablando cuidadosamente, una a la vez, sin acentos y con un ruido de fondo mínimo.

ASR también puede tener dificultades para comprender el lenguaje especializado o reconocer nombres de marcas y jerga de la industria. Para evitar tales problemas, la mayoría de los servicios de transcripción humana le permitirán ofrecer un glosario de palabras o conectarlo con un transcriptor que tenga conocimiento en el campo relevante. Es posible entrenar el software ASR para sectores o temas específicos a lo largo del tiempo, pero esto requiere esfuerzo y es poco probable que sea lo que obtiene de la caja.

Cómo se compara ASR con los servicios de transcripción asistidos por humanos

Las tecnologías de voz a texto y los servicios de transcripción basados en humanos tienen algunas diferencias importantes.

Costo

Para muchas personas, el precio es una consideración importante y los servicios de transcripción humana son mucho más caros que ASR. Algunos servicios de ASR son gratuitos, mientras que la mayoría cobran entre £0,10 y £0,20 por minuto. Los servicios humanos, por otro lado, normalmente cobran alrededor de £ 2 por minuto. Para períodos de entrega largos, es posible que se puedan aplicar precios más bajos. Incluso si puede esperar una semana para su transcripción, un servicio humano será más costoso que el software de voz a texto.

Tiempo

Los servicios humanos funcionan durante un período de tiempo considerablemente más largo que ASR. Los servicios humanos a menudo tienen un tiempo de respuesta de 12 a 24 horas, y muchos ofrecen una garantía de tiempo de entrega. ASR es sustancialmente más rápido y genera transcripciones en cuestión de segundos. Es casi seguro que se le cobrará más si necesita una transcripción humana de inmediato.

Versatilidad y Opciones

La única forma de obtener una transcripción literal con ASR es si el software de reconocimiento de voz está a la altura en términos de precisión. Los servicios humanos brindan una gama mucho más amplia de posibilidades, como notas textuales y detalladas. La opción palabra por palabra de la mayoría de los servicios de transcripción basados en humanos aún eliminará errores, reducirá las pausas y los 'ums' y 'errs', lo que dará como resultado una versión que es considerablemente más fácil de leer (a menos que solicite que se dejen todos los detalles). Las notas detalladas van un paso más allá al proporcionar una transcripción más condensada. Esto puede implicar resumir consultas y eliminar charlas y bromas que no estén relacionadas con el tema.

Calidad y Confianza

Cuando utiliza servicios de transcripción basados en humanos, puede estar seguro de que el resultado será de mayor calidad. Los servicios humanos tienen garantías de control de calidad y normalmente brindan tasas de precisión del 99 por ciento o más, con la excepción del audio que es completamente indescifrable.

Las transcripciones se revisarán por usted, por lo que no tendrá que perder tiempo verificando el texto o haciendo cambios usted mismo. Si utiliza ASR, es posible que descubra que tiene que pasar una cantidad significativa de tiempo buscando errores en el texto, corrigiendo texto distorsionado y eliminando palabras y ruidos no deseados.

Resumen: Speech to Text es una solución rentable

El software de voz a texto es una opción rentable para las personas que necesitan servicios de transcripción rápidamente.

Debido a que ASR es tan económico y, a menudo, incluso gratuito, vale la pena intentar ver qué tipo de resultados puede obtener. Puede averiguar qué tipo de calidad de sonido se requiere para crear resultados comprensibles al experimentar con diferentes alternativas.

Debe invertir en hacer una grabación de alta calidad para producir una transcripción de buena calidad con ASR. Sin embargo, deberá invertir en un servicio humano si desea una variedad de opciones, una transcripción exacta y una atención al detalle inigualable.