Was ist Speech-to-Text-Software – Anfängerleitfaden 2022

Veröffentlicht: 2022-04-25

Speech-to-Text-Software stellt sich selbst als One-Stop-Shop für Transkriptionsdienste in Rechnung und bietet die kostengünstige, benutzerfreundliche, genaue und schnelle Transkription, nach der Sie gesucht haben. Ist es jedoch so gut, wie der Hoopla suggeriert? Was genau ist Sprache-zu-Text-Software?

Kurz gesagt, Speech-to-Text-Software, auch als automatische Spracherkennungssoftware (ASR) oder Voice-to-Text-Software bekannt, ist ein Computerprogramm, das Hördaten sortiert und sie unter Verwendung von Unicode-Zeichen unter Verwendung linguistischer Algorithmen in Wörter umwandelt.

Einfach gesagt, Voice-to-Text-Software „hört“ Audio und erstellt eine wörtliche Abschrift, die bearbeitet werden kann.

Im Internet gibt es eine Vielzahl von Anbietern von automatischen Transkriptionsdiensten. Die meisten bieten überzeugende Preispunkte, die jeder, der mit menschlichen Transkriptionsdiensten vertraut ist, attraktiv finden wird – durchschnittlich etwa 0,10 £ pro Minute aufgezeichneter Audiodaten, und einige sind sogar kostenlos.

Die Mehrheit behauptet Genauigkeitsraten von 90 bis 95 Prozent. Dies gilt nur für „saubere“ Aufnahmen, die Sie unbedingt verstehen müssen, bevor Sie entscheiden, ob ASR-Software Ihre Transkriptionsanforderungen erfüllen kann.

Bevor Sie zu aufgeregt sind und Ihr Transkriptionsbudget zugunsten einer Sprache-zu-Text-Software aufgeben, ist es eine gute Idee, Ihr Wissen über die Technologie aufzufrischen. Hier ist ein Überblick über die Fakten über Speech-to-Text-Software und wie sie im Vergleich zu herkömmlichen menschlichen Transkriptionsdiensten abschneidet.

Wie funktioniert Speech-to-Text-Software?

Der Prozess der Umwandlung von Sprache in Text beinhaltet mehrere Prozesse. Wenn Sie sprechen, senden Sie eine Reihe von Vibrationen aus. Der Analog-Digital-Wandler oder ADC wandelt diese in digitale Sprache um.

Durch das Sampling von Tönen aus einer Audiodatei und regelmäßige, sehr detaillierte Messungen der Wellen kann der ADC diese Konvertierung durchführen. Ein Filter im System unterscheidet signifikante Geräusche und differenziert Frequenzen. Die Sprechgeschwindigkeit wird ebenfalls angepasst und die Lautstärke auf einen voreingestellten Pegel eingestellt.

Das Signal wird dann in Hundertstel- oder Tausendstelsekunden segmentiert, und diese Segmente werden Phonemen zugeordnet (ein Phonem ist eine Klangeinheit, die in einer bestimmten Sprache ein Wort von einem anderen unterscheidet). Die englische Sprache enthält über 40 Phoneme. Jedes Phonem wird dann in Verbindung mit anderen Phonemen in der Nähe untersucht und bewertet, und das System vergleicht das Netzwerk von Phonemen unter Verwendung eines komplexen mathematischen Modells mit wohlbekannten Sätzen, bestimmten Wörtern und Phrasen. Das System generiert dann Text unter Verwendung natürlicher Sprachverarbeitung basierend auf dem, was die Person am wahrscheinlichsten gesagt hat. Dies kann in Form eines Textstücks (Textdatei) oder einer abschließenden Computeranweisung erfolgen.

Das Gute, das Schlechte und das Hässliche von ASR/Sprache-zu-Text-Software

An der Oberfläche scheint ASR eine fantastische Lösung zu sein. Wenn Sie jedoch etwas tiefer graben, werden Sie feststellen, dass es bestimmte Schwierigkeiten gibt, insbesondere bei bestimmten Arten von Aufnahmen. Beim Vergleich von ASR mit menschenbasierten Transkriptionsdiensten ist es wichtig, die Vor- und Nachteile sowie die Nachteile abzuwägen.

Die Vorteile von Speech-to-Text-Software

Die größten Vorteile von ASR sind seine Schnelligkeit und seine geringen Kosten. Die automatische Spracherkennung (ASR) liefert schnelle Ergebnisse und kann in manchen Situationen sogar Echtzeitdienste bereitstellen. Die Begleitkosten sind ebenfalls deutlich günstiger als die von Human Services.

Einige Unternehmen berechnen im Minutentakt. Andere haben einen festen monatlichen Preis. Bei kostenpflichtigen Programmen sind Sie in der Regel auf eine bestimmte Anzahl von Uploads pro Monat beschränkt. Sie sollten damit rechnen, ungefähr 0,07 bis 0,10 £ pro Minute Audio für einen automatischen Transkriptionsdienst auszugeben, unabhängig davon, wie Sie abgerechnet werden.

Einige Dienste hingegen sind komplett kostenlos. Es ist wahrscheinlicher, dass Sie deutlich bessere Ergebnisse erzielen, wenn Sie für den Zugriff auf die Transkriptionssoftware bezahlen. Aber zuerst schauen wir uns einige der Probleme mit Speech-to-Text-Software an.

Die Nachteile von Speech-to-Text-Software

Die Fähigkeit der automatischen Spracherkennungstechnologie, ausschließlich wörtlichen Text zu erzeugen, ist einer ihrer Hauptnachteile. In Abwesenheit eines Menschen kann das System nur das transkribieren, was bereits vorhanden ist. Infolgedessen erhalten Sie möglicherweise ein schwer lesbares Transkript.

Es ist sehr üblich zu zögern, Geräusche wie „ähm“ zu machen und beim Sprechen über bestimmte Wörter zu stolpern. Alles auf dem Band wird im wörtlichen Text enthalten sein. Human Services kann dies aufräumen und ein weitaus verständlicheres Transkript erstellen, während alle Details und Genauigkeit der Originalaufzeichnung erhalten bleiben.

Die hässliche Seite der Speech-to-Text-Software

Die Genauigkeit von ASR ist die am meisten besorgniserregende Komponente. Selbst die beste Sprache-zu-Text-Software erreicht selten Genauigkeitsraten von mehr als 80 %, was bedeutet, dass Sie Zeit und Mühe aufwenden müssen, um Ihre Arbeit zu korrigieren und zu verbessern.

ASR kann unsinnige Ergebnisse erzeugen, wenn es „komplizierte“ Elemente gibt. Sie benötigen „saubere“ Audioaufnahmen, um ein passables Transkript von einem Sprache-zu-Text-Dienst zu erhalten. Das bedeutet eine qualitativ hochwertige Aufnahme von Personen, die sorgfältig sprechen, einzeln, ohne Akzente und mit minimalen Hintergrundgeräuschen.

ASR kann auch Schwierigkeiten haben, Fachsprache zu verstehen oder Markennamen und Branchenjargon zu erkennen. Um solche Probleme zu vermeiden, erlauben Ihnen die meisten menschlichen Transkriptionsdienste, ein Glossar mit Wörtern anzubieten oder Sie mit einem Transkriptor zu verbinden, der über Kenntnisse auf dem relevanten Gebiet verfügt. Es ist möglich, ASR-Software im Laufe der Zeit für bestimmte Sektoren oder Themen zu trainieren, aber dies ist mühsam und wird wahrscheinlich nicht das sein, was Sie von Anfang an bekommen.

Wie ASR im Vergleich zu von Menschen unterstützten Transkriptionsdiensten abschneidet

Speech-to-Text-Technologien und menschenbasierte Transkriptionsdienste weisen einige wichtige Unterschiede auf.

Kosten

Für viele Menschen ist der Preis ein wichtiger Aspekt, und menschliche Transkriptionsdienste sind viel teurer als ASR. Einige ASR-Dienste sind kostenlos, während die meisten zwischen 0,10 £ und 0,20 £ pro Minute kosten. Menschliche Dienste hingegen berechnen normalerweise etwa 2 £ pro Minute. Bei langen Bearbeitungszeiten können niedrigere Preise möglich sein. Selbst wenn Sie eine Woche auf Ihr Transkript warten können, ist ein menschlicher Dienst teurer als eine Sprache-zu-Text-Software.

Zeit

Human Services funktionieren über einen wesentlich längeren Zeitraum als ASR. Menschliche Dienstleistungen haben oft eine Bearbeitungszeit von 12-24 Stunden, wobei viele eine Lieferzeitgarantie anbieten. ASR ist wesentlich schneller und erstellt Transkripte in Sekundenschnelle. Ihnen werden mit ziemlicher Sicherheit mehr berechnet, wenn Sie sofort eine menschliche Transkription benötigen.

Vielseitigkeit und Optionen

Die einzige Möglichkeit, mit ASR ein wörtliches Transkript zu erhalten, besteht darin, dass die Spracherkennungssoftware der Aufgabe in Bezug auf Genauigkeit gewachsen ist. Human-based Services bieten eine viel breitere Palette an Möglichkeiten, wie z. B. wörtliche und detaillierte Notizen. Die wörtliche Option der meisten benutzergestützten Transkriptionsdienste wird immer noch Fehler entfernen, Pausen und „ähm“ und „irr“ reduzieren, was zu einer Version führt, die erheblich einfacher zu lesen ist (es sei denn, Sie möchten, dass alle Details erhalten bleiben). Detaillierte Notizen gehen noch einen Schritt weiter, indem sie eine komprimiertere Abschrift bereitstellen. Dies kann das Zusammenfassen von Anfragen und das Löschen von Geschwätz und Höflichkeiten beinhalten, die nicht zum Thema gehören.

Qualität und Vertrauen

Wenn Sie menschliche Transkriptionsdienste nutzen, können Sie sicher sein, dass das Ergebnis von höherer Qualität sein wird. Human Services haben Qualitätskontrollgarantien und liefern normalerweise Genauigkeitsraten von 99 Prozent oder höher, mit Ausnahme von Audio, das absolut nicht entzifferbar ist.

Transkripte werden für Sie Korrektur gelesen, sodass Sie keine Zeit damit verbringen müssen, den Text zu überprüfen oder selbst Änderungen vorzunehmen. Wenn Sie ASR verwenden, stellen Sie möglicherweise fest, dass Sie viel Zeit damit verbringen müssen, den Text nach Fehlern zu durchsuchen, verstümmelten Text zu korrigieren und Wörter und unerwünschte Geräusche zu löschen.

Zusammenfassung: Speech to Text ist eine kostengünstige Lösung

Speech-to-Text-Software ist eine kostengünstige Option für Personen, die schnell Transkriptionsdienste benötigen.

Da ASR so günstig und oft sogar kostenlos ist, lohnt es sich zu sehen, welche Art von Ergebnissen Sie erzielen können. Sie können herausfinden, welche Art von Klangqualität erforderlich ist, um verständliche Ergebnisse zu erzielen, indem Sie mit verschiedenen Alternativen experimentieren.

Sie müssen in eine qualitativ hochwertige Aufnahme investieren, um mit ASR eine qualitativ hochwertige Transkription zu erstellen. Sie müssen jedoch in einen menschlichen Service investieren, wenn Sie eine Vielzahl von Optionen, eine exakte Transkription und eine unvergleichliche Liebe zum Detail wünschen.