Qu'est-ce qu'un logiciel de synthèse vocale - Guide du débutant 2022

Publié: 2022-04-25

Le logiciel de synthèse vocale se présente comme un guichet unique pour les services de transcription, offrant la transcription peu coûteuse, facile à utiliser, précise et rapide que vous recherchiez. Est-ce cependant aussi bon que le battage le suggère ? Qu'est-ce qu'un logiciel de synthèse vocale ?

En un mot, un logiciel de synthèse vocale, également connu sous le nom de logiciel de reconnaissance automatique de la parole (ASR) ou logiciel de synthèse vocale, est un programme informatique qui trie les données auditives et les convertit en mots à l'aide de caractères Unicode utilisant des algorithmes linguistiques.

En termes simples, un logiciel de synthèse vocale "écoute" l'audio et produit une transcription textuelle qui peut être modifiée.

Sur Internet, il existe une pléthore de fournisseurs de services de transcription automatique. La plupart offrent des prix attractifs que toute personne familiarisée avec les services de transcription humaine trouvera attrayants - en moyenne environ 0,10 £ par minute d'audio enregistré, et certains sont même gratuits.

La majorité revendique des taux d'exactitude de 90 % à 95 %. Cela n'est vrai que pour les enregistrements "propres", ce qu'il est essentiel de comprendre avant de choisir si le logiciel ASR peut répondre à vos besoins de transcription.

Avant de devenir trop excité et de renoncer à votre budget de transcription en faveur d'un logiciel de synthèse vocale, c'est une bonne idée de parfaire vos connaissances sur la technologie. Voici un aperçu des faits sur les logiciels de synthèse vocale et comment ils se comparent aux services traditionnels de transcription humaine.

Comment fonctionne le logiciel de synthèse vocale ?

Le processus de transformation de la parole en texte implique plusieurs processus. Lorsque vous parlez, vous envoyez une série de vibrations. Le convertisseur analogique-numérique, ou ADC, les convertit en langage numérique.

En échantillonnant les sons d'un fichier audio et en prenant des mesures régulières et très détaillées des ondes, l'ADC est capable de compléter cette conversion. Un filtre dans le système distingue les bruits significatifs et différencie les fréquences. La vitesse de parole est également ajustée et le volume est réglé sur un niveau prédéfini.

Le signal est ensuite segmenté en centièmes ou millièmes de secondes, et ces segments sont mis en correspondance avec des phonèmes (un phonème est une unité sonore qui distingue un mot d'un autre dans une langue particulière). La langue anglaise contient plus de 40 phonèmes. Chaque phonème est ensuite étudié et évalué en relation avec d'autres phonèmes à proximité, et le système compare le réseau de phonèmes à des phrases bien connues, des mots particuliers et des phrases à l'aide d'un modèle mathématique complexe. Le système génère ensuite du texte en utilisant le traitement du langage naturel en fonction de ce que la personne est la plus susceptible d'avoir dit. Cela peut prendre la forme d'un bloc de texte (fichier texte) ou d'une instruction informatique finale.

Le bon, le mauvais et le laid des logiciels ASR/Speech to Text

À première vue, l'ASR semble être une solution fantastique. Cependant, si vous creusez un peu plus, vous constaterez qu'il y a certaines difficultés, notamment avec certains types d'enregistrement. Lorsque l'on compare l'ASR avec les services de transcription basés sur l'homme, il est important de considérer les avantages, les inconvénients et la laideur.

Les avantages du logiciel de synthèse vocale

Les principaux avantages de l'ASR sont sa rapidité et son faible coût. La reconnaissance vocale automatique (ASR) fournit des résultats rapides et, dans certaines situations, peut même fournir un service en temps réel. Le coût d'accompagnement est également nettement moins cher que celui des services à la personne.

Certaines entreprises facturent à la minute. D'autres ont un prix mensuel fixe. Vous êtes généralement limité à un certain nombre de téléchargements par mois avec des programmes payants. Vous devez prévoir de dépenser environ 0,07 £ à 0,10 £ par minute d'audio pour un service de transcription automatique, quel que soit le mode de facturation.

Quelques services, en revanche, sont entièrement gratuits. Vous êtes plus susceptible d'obtenir des résultats nettement meilleurs si vous payez pour l'accès au logiciel de transcription. Mais d'abord, regardons quelques-uns des problèmes avec les logiciels de synthèse vocale.

Les inconvénients des logiciels de synthèse vocale

La capacité de la technologie de reconnaissance vocale automatique à produire uniquement du texte textuel est l'un de ses principaux inconvénients. En l'absence d'humain, le système ne peut que retranscrire ce qui est déjà présent. En conséquence, vous pouvez vous retrouver avec une transcription difficile à lire.

Il est très courant d'hésiter, de faire des bruits comme « euh » et de trébucher sur des mots spécifiques en parlant. Tout sur la bande sera inclus dans le texte textuel. Les services humains peuvent ranger cela et fournir une transcription beaucoup plus compréhensible tout en conservant tous les détails et la précision de l'enregistrement original.

Le côté laid du logiciel de synthèse vocale

La précision de l'ASR est le composant le plus préoccupant. Même le meilleur logiciel de synthèse vocale atteint rarement des taux de précision supérieurs à 80 %, ce qui signifie que vous devrez consacrer du temps et des efforts à corriger et à améliorer votre travail.

L'ASR peut générer des résultats absurdes s'il y a des éléments «compliqués». Vous aurez besoin d'enregistrements audio "propres" pour recevoir une transcription passable d'un service de synthèse vocale. Cela signifie un enregistrement de haute qualité de personnes parlant attentivement, une à la fois, sans accents et avec un minimum de bruit de fond.

ASR peut également avoir des difficultés à comprendre le langage spécialisé ou à reconnaître les noms de marque et le jargon de l'industrie. Pour éviter de tels problèmes, la plupart des services de transcription humaine vous permettront de proposer un glossaire de mots ou de vous mettre en contact avec un transcripteur qui possède des connaissances dans le domaine concerné. Il est possible de former des logiciels ASR pour des secteurs ou des thèmes spécifiques au fil du temps, mais cela demande des efforts et il est peu probable que ce soit ce que vous obtenez par défaut.

Comment ASR se compare aux services de transcription assistés par l'homme

Les technologies de synthèse vocale et les services de transcription basés sur l'homme présentent des différences importantes.

Coût

Pour de nombreuses personnes, le prix est une considération majeure et les services de transcription humaine sont beaucoup plus chers que l'ASR. Certains services ASR sont gratuits, tandis que la majorité facturent entre 0,10 £ et 0,20 £ par minute. Les services à la personne, en revanche, facturent normalement environ 2 £ par minute. Pour de longues périodes d'exécution, des prix plus bas peuvent être possibles. Même si vous pouvez attendre une semaine pour votre relevé de notes, un service humain sera plus cher qu'un logiciel de synthèse vocale.

Temps

Les services à la personne fonctionnent sur une période de temps considérablement plus longue que l'ASR. Les services à la personne ont souvent un délai d'exécution de 12 à 24 heures, et beaucoup offrent une garantie de délai de livraison. ASR est nettement plus rapide, générant des transcriptions en quelques secondes. Vous serez presque certainement facturé plus si vous avez besoin d'une transcription humaine tout de suite.

Polyvalence et options

La seule façon d'obtenir une transcription textuelle avec ASR est que le logiciel de reconnaissance vocale soit à la hauteur de la tâche en termes de précision. Les services humains offrent un éventail beaucoup plus large de possibilités, telles que des notes textuelles et détaillées. L'option verbatim de la plupart des services de transcription basés sur l'homme supprimera toujours les erreurs, réduira les pauses, les « euh » et les « erreurs », ce qui se traduira par une version considérablement plus facile à lire (à moins que vous ne demandiez que tous les détails soient conservés). Les notes détaillées vont encore plus loin en fournissant une transcription plus condensée. Cela peut impliquer de résumer les demandes de renseignements et de supprimer les bavardages et les plaisanteries qui sont hors sujet.

Qualité et confiance

Lorsque vous utilisez des services de transcription basés sur l'homme, vous pouvez être sûr que le résultat sera de meilleure qualité. Les services humains ont des garanties de contrôle de la qualité et fournissent normalement des taux de précision de 99 % ou plus, à l'exception de l'audio qui est totalement indéchiffrable.

Les transcriptions seront relues pour vous, vous n'aurez donc pas à passer du temps à vérifier le texte ou à apporter des modifications vous-même. Si vous utilisez ASR, vous découvrirez peut-être que vous devez passer beaucoup de temps à rechercher des erreurs dans le texte, à corriger du texte brouillé et à supprimer des mots et des bruits indésirables.

Résumé : Speech to Text est une solution rentable

Le logiciel de synthèse vocale est une option rentable pour les personnes ayant besoin de services de transcription rapidement.

Parce que l'ASR est si peu coûteux, et souvent même gratuit, cela vaut la peine d'essayer de voir quel type de résultats vous pouvez obtenir. Vous pouvez déterminer le type de qualité sonore nécessaire pour créer des résultats compréhensibles en expérimentant différentes alternatives.

Vous devez investir dans la réalisation d'un enregistrement de haute qualité pour produire une transcription de bonne qualité avec ASR. Cependant, vous devrez investir dans un service humain si vous souhaitez une variété d'options, une transcription exacte et une attention inégalée aux détails.