Co to jest oprogramowanie mowy na tekst — przewodnik dla początkujących 2022

Opublikowany: 2022-04-25

Oprogramowanie do zamiany mowy na tekst stanowi punkt kompleksowej obsługi usług transkrypcyjnych, zapewniając niedrogą, łatwą w użyciu, dokładną i szybką transkrypcję, której szukałeś. Czy jednak jest tak dobry, jak sugeruje hoopla? Czym dokładnie jest oprogramowanie do zamiany mowy na tekst?

Krótko mówiąc, oprogramowanie do zamiany mowy na tekst, znane również jako oprogramowanie do automatycznego rozpoznawania mowy (ASR) lub oprogramowanie do zamiany głosu na tekst, to program komputerowy, który sortuje dane dźwiękowe i konwertuje je na słowa za pomocą znaków Unicode wykorzystujących algorytmy językowe.

Mówiąc najprościej, oprogramowanie do zamiany głosu na tekst „odsłuchuje” dźwięk i tworzy dosłowną transkrypcję, którą można edytować.

W Internecie istnieje mnóstwo dostawców usług automatycznej transkrypcji. Większość z nich oferuje atrakcyjne ceny, które każdy zaznajomiony z usługami transkrypcji dla ludzi uzna za atrakcyjne — średnio około 0,10 GBP za minutę nagranego dźwięku, a niektóre są nawet bezpłatne.

Większość twierdzi, że dokładność wynosi od 90 do 95 procent. Dotyczy to tylko „czystych” nagrań, co jest niezbędne do zrozumienia przed wyborem, czy oprogramowanie ASR może zaspokoić Twoje potrzeby w zakresie transkrypcji.

Zanim będziesz zbyt podekscytowany i zrezygnujesz z budżetu na transkrypcję na rzecz oprogramowania do zamiany mowy na tekst, dobrym pomysłem jest odświeżenie swojej wiedzy na temat technologii. Oto zestawienie faktów na temat oprogramowania do zamiany mowy na tekst i porównanie go z tradycyjnymi usługami transkrypcji dla ludzi.

Jak działa oprogramowanie mowy na tekst?

Proces przekształcania mowy w tekst obejmuje kilka procesów. Kiedy mówisz, wysyłasz serię wibracji. Konwerter analogowo-cyfrowy lub ADC konwertuje je na język cyfrowy.

Próbkując dźwięki z pliku audio i dokonując regularnych, bardzo szczegółowych pomiarów fal, przetwornik ADC jest w stanie zakończyć tę konwersję. Filtr w systemie rozróżnia znaczące szumy i różnicuje częstotliwości. Szybkość mówienia jest również regulowana, a głośność ustawiona na wstępnie ustawionym poziomie.

Sygnał jest następnie dzielony na setne lub tysięczne sekundy, a segmenty te są dopasowywane do fonemów (fonem to jednostka dźwięku, która odróżnia jedno słowo od drugiego w danym języku). Język angielski zawiera ponad 40 fonemów. Każdy fonem jest następnie badany i oceniany w połączeniu z innymi fonemami w pobliżu, a system porównuje sieć fonemów ze znanymi zdaniami, konkretnymi słowami i frazami przy użyciu złożonego modelu matematycznego. Następnie system generuje tekst przy użyciu przetwarzania języka naturalnego na podstawie tego, co najprawdopodobniej powiedziała dana osoba. Może to być fragment tekstu (plik tekstowy) lub ostateczna instrukcja komputerowa.

Dobre, złe i brzydkie oprogramowanie ASR / mowa na tekst

Z pozoru ASR wydaje się być fantastycznym rozwiązaniem. Jeśli jednak zagłębisz się nieco głębiej, odkryjesz, że istnieją pewne trudności, zwłaszcza z pewnymi rodzajami nagrywania. Porównując ASR z usługami transkrypcji opartymi na ludziach, ważne jest, aby wziąć pod uwagę zalety, wady i brzydotę.

Korzyści płynące z oprogramowania mowy na tekst

Największe zalety ASR to szybkość i niski koszt. Automatyczne rozpoznawanie mowy (ASR) zapewnia szybkie wyniki, aw niektórych sytuacjach może nawet zapewniać obsługę w czasie rzeczywistym. Towarzyszący koszt jest również znacznie tańszy niż koszty usług ludzkich.

Niektóre firmy pobierają opłaty za minutę. Inni mają ustaloną cenę miesięczną. W przypadku programów płatnych zwykle ograniczasz się do określonej liczby przesyłanych plików miesięcznie. Powinieneś spodziewać się wydania około 0,07-0,10 GBP za minutę dźwięku w usłudze automatycznej transkrypcji, niezależnie od tego, jaka jest opłata.

Z drugiej strony kilka usług jest całkowicie bezpłatnych. Bardziej prawdopodobne jest uzyskanie znacznie lepszych wyników, jeśli zapłacisz za dostęp do oprogramowania do transkrypcji. Ale najpierw przyjrzyjmy się niektórym problemom związanym z oprogramowaniem do zamiany mowy na tekst.

Wady oprogramowania przemawiającego do tekstu

Zdolność technologii automatycznego rozpoznawania głosu do tworzenia wyłącznie dosłownego tekstu jest jedną z jej głównych wad. W przypadku nieobecności człowieka system może jedynie dokonać transkrypcji tego, co już jest obecne. W rezultacie możesz skończyć z transkrypcją, która jest trudna do odczytania.

Bardzo często się wahamy, wydajemy dźwięki typu „hmm” i potykamy się o określone słowa podczas mówienia. Wszystko na taśmie zostanie zawarte w dosłownym tekście. Służby ludzkie mogą to uporządkować i zapewnić znacznie bardziej zrozumiały zapis, zachowując jednocześnie wszystkie szczegóły i dokładność oryginalnego nagrania.

Brzydka strona mowy na oprogramowanie tekstowe

Dokładność ASR jest najbardziej niepokojącym elementem. Nawet największe oprogramowanie do zamiany mowy na tekst rzadko osiąga dokładność przekraczającą 80%, co oznacza, że ​​będziesz musiał poświęcić czas i wysiłek na poprawianie i ulepszanie swojej pracy.

ASR może generować bezsensowne wyniki, jeśli istnieją „komplikujące” elementy. Będziesz potrzebować „czystych” nagrań dźwiękowych, aby otrzymać zadowalającą transkrypcję z usługi zamiany mowy na tekst. Oznacza to wysokiej jakości nagranie osób mówiących ostrożnie, pojedynczo, bez akcentów iz minimalnym hałasem w tle.

ASR może również mieć trudności ze zrozumieniem języka specjalistycznego lub rozpoznaniem nazw marek i żargonu branżowego. Aby zapobiec takim problemom, większość usług transkrypcji dla ludzi pozwoli Ci zaoferować glosariusz słów lub połączyć Cię z transkrybującym, który ma wiedzę w odpowiedniej dziedzinie. Możliwe jest wyszkolenie oprogramowania ASR dla określonych sektorów lub tematów z biegiem czasu, ale wymaga to wysiłku i jest mało prawdopodobne, aby było to coś, co otrzymasz po wyjęciu z pudełka.

Jak ASR wypada w porównaniu z usługami transkrypcji wspomaganymi przez człowieka

Technologie zamiany mowy na tekst i usługi transkrypcji oparte na ludziach mają pewne istotne różnice.

Koszt

Dla wielu osób cena jest głównym czynnikiem, a usługi transkrypcji dla ludzi są znacznie droższe niż ASR. Niektóre usługi ASR są bezpłatne, podczas gdy większość kosztuje od 0,10 GBP do 0,20 GBP za minutę. Z drugiej strony usługi humanitarne zwykle kosztują około 2 GBP za minutę. W przypadku długich okresów realizacji mogą być możliwe niższe ceny. Nawet jeśli możesz poczekać tydzień na transkrypcję, usługa oparta na ludziach będzie droższa niż oprogramowanie mowy do tekstu.

Czas

Służby ludzkie funkcjonują znacznie dłużej niż ASR. Usługi ludzkie często mają czas realizacji od 12 do 24 godzin, a wiele z nich oferuje gwarancję czasu dostawy. ASR jest znacznie szybszy, generując transkrypcje w ciągu kilku sekund. Prawie na pewno zapłacisz więcej, jeśli od razu będziesz potrzebować transkrypcji opartej na ludziach.

Wszechstronność i opcje

Jedynym sposobem na uzyskanie dosłownego zapisu za pomocą ASR jest sprawdzenie, czy oprogramowanie do rozpoznawania mowy jest w stanie sprostać zadaniu pod względem dokładności. Usługi oparte na ludziach zapewniają znacznie szerszy zakres możliwości, takich jak dosłowne i szczegółowe notatki. Większość opcji dosłownych usług transkrypcyjnych opartych na ludziach nadal będzie usuwać błędy, redukować przerwy oraz „ums” i „błędy”, dzięki czemu wersja jest znacznie łatwiejsza do odczytania (chyba że poprosisz o pozostawienie wszystkich szczegółów). Szczegółowe notatki idą o krok dalej, dostarczając bardziej skondensowany transkrypcja. Może to obejmować podsumowywanie zapytań i usuwanie pogawędek i uprzejmości, które nie są na temat.

Jakość i zaufanie

Korzystając z usług transkrypcji opartych na ludziach, możesz mieć pewność, że wynik będzie lepszej jakości. Usługi ludzkie mają gwarancje kontroli jakości i zwykle zapewniają dokładność na poziomie 99 procent lub wyższym, z wyjątkiem dźwięku, który jest całkowicie nieczytelny.

Transkrypcje zostaną dla Ciebie sprawdzone, dzięki czemu nie będziesz musiał tracić czasu na weryfikację tekstu lub samodzielne wprowadzanie zmian. Jeśli korzystasz z ASR, możesz odkryć, że będziesz musiał poświęcić znaczną ilość czasu na przeszukiwanie tekstu w poszukiwaniu błędów, poprawianie zniekształconego tekstu oraz usuwanie słów i niepożądanych dźwięków.

Podsumowanie: Mowa na tekst to opłacalne rozwiązanie

Oprogramowanie zamiany mowy na tekst jest opłacalną opcją dla osób potrzebujących szybkiego przepisywania usług.

Ponieważ ASR jest tak niedrogi, a często nawet darmowy, warto spróbować zobaczyć, jakie wyniki można uzyskać. Możesz dowiedzieć się, jaka jakość dźwięku jest wymagana do uzyskania zrozumiałych wyników, eksperymentując z różnymi alternatywami.

Musisz zainwestować w wykonanie wysokiej jakości nagrania, aby stworzyć dobrej jakości transkrypcję z ASR. Będziesz jednak musiał zainwestować w usługę opartą na ludziach, jeśli chcesz mieć różne opcje, dokładną transkrypcję i niezrównaną dbałość o szczegóły.