Speech to Text 소프트웨어란 무엇입니까 – 초보자 가이드 2022
게시 됨: 2022-04-25Speech-to-text 소프트웨어는 당신이 찾던 저렴하고 사용하기 쉬우며 정확하고 빠른 기록을 제공하는 전사 서비스를 위한 원스톱 상점으로 스스로를 청구합니다. 그러나 훌라가 제안하는 것처럼 좋은가요? 음성을 텍스트로 변환하는 소프트웨어란 정확히 무엇입니까?
간단히 말해서 ASR(자동 음성 인식) 소프트웨어 또는 음성-텍스트 소프트웨어라고도 하는 음성-텍스트 소프트웨어는 언어 알고리즘을 사용하여 청각 데이터를 분류하고 이를 유니코드 문자를 사용하여 단어로 변환하는 컴퓨터 프로그램입니다.
간단히 말해서, 음성-텍스트 소프트웨어는 오디오를 '듣고' 편집할 수 있는 그대로의 대본을 생성합니다.
인터넷에는 수많은 자동 전사 서비스 제공업체가 있습니다. 대부분은 녹음된 오디오의 분당 평균 £0.10이며 일부는 무료로 제공됩니다.
대다수는 90%에서 95%의 정확도를 주장합니다. 이것은 '깨끗한' 녹음에만 해당되며 ASR 소프트웨어가 필사 요구 사항을 충족할 수 있는지 여부를 선택하기 전에 이해하는 것이 중요합니다.
너무 흥분하여 음성-텍스트 소프트웨어를 위해 필사본 예산을 포기하기 전에 해당 기술에 대한 지식을 복습하는 것이 좋습니다. 다음은 음성-텍스트 소프트웨어에 대한 사실과 기존의 인간 전사 서비스와 비교하는 방법에 대한 요약입니다.
Speech to Text 소프트웨어는 어떻게 작동합니까?
말을 텍스트로 바꾸는 과정은 여러 과정을 수반합니다. 말할 때 일련의 진동을 보냅니다. 아날로그-디지털 변환기(ADC)는 이를 디지털 언어로 변환합니다.
오디오 파일에서 사운드를 샘플링하고 정기적으로 매우 상세한 파도 측정을 수행함으로써 ADC는 이 변환을 완료할 수 있습니다. 시스템의 필터는 중요한 노이즈를 구별하고 주파수를 구별합니다. 말하기 속도도 조정되고 음량은 미리 설정된 수준으로 설정됩니다.
그런 다음 신호는 1/100 또는 1000초로 분할되고 이 세그먼트는 음소와 일치합니다(음소는 특정 언어에서 한 단어를 다른 단어와 구별하는 소리 단위입니다). 영어에는 40개 이상의 음소가 있습니다. 그런 다음 각 음소는 주변의 다른 음소와 연결하여 조사 및 평가되며 시스템은 복잡한 수학적 모델을 사용하여 음소 네트워크를 잘 알려진 문장, 특정 단어 및 구와 비교합니다. 그런 다음 시스템은 사람이 말했을 가능성이 가장 높은 내용을 기반으로 자연어 처리를 사용하여 텍스트를 생성합니다. 이것은 텍스트 덩어리(텍스트 파일) 또는 최종 컴퓨터 명령의 형태일 수 있습니다.
ASR/Speech to Text 소프트웨어의 좋은 점, 나쁜 점, 추한 점
표면적으로 ASR은 환상적인 솔루션으로 보입니다. 그러나 조금 더 깊이 파고들면 특정 종류의 녹음, 특히 특정 유형의 녹음에서 특정 어려움이 있음을 알 수 있습니다. ASR을 인간 기반 전사 서비스와 비교할 때 장단점을 고려하는 것이 중요합니다.
Speech to Text 소프트웨어의 이점
ASR의 가장 큰 장점은 신속성과 저렴한 비용입니다. 자동 음성 인식(ASR)은 빠른 결과를 제공하며 경우에 따라 실시간 서비스를 제공할 수도 있습니다. 수반되는 비용은 마찬가지로 인적 서비스 비용보다 훨씬 저렴합니다.
일부 회사는 분 단위로 청구합니다. 다른 사람들은 월별 가격이 정해져 있습니다. 일반적으로 유료 프로그램을 사용하면 매월 특정 수의 업로드로 제한됩니다. 요금 청구 방식에 관계없이 자동 필사본 서비스에 대해 오디오에 대해 분당 대략 £0.07-£0.10를 지출할 것으로 예상해야 합니다.
반면에 일부 서비스는 완전 무료입니다. 트랜스크립션 소프트웨어 액세스 비용을 지불하면 훨씬 더 나은 결과를 얻을 수 있습니다. 그러나 먼저 음성-텍스트 소프트웨어의 몇 가지 문제를 살펴보겠습니다.
Speech to Text 소프트웨어의 단점
자동 음성 인식 기술이 그대로 그대로의 텍스트만 생성할 수 있다는 것이 주요 단점 중 하나입니다. 사람이 없으면 시스템은 이미 존재하는 것만 전사할 수 있습니다. 결과적으로 읽기 어려운 대본을 작성하게 될 수 있습니다.
말을 할 때 머뭇거리고, '에르'와 같은 소리를 내고, 특정 단어에 걸려 넘어지는 것은 매우 흔한 일입니다. 테이프의 모든 내용은 그대로 텍스트에 포함됩니다. 휴먼 서비스는 원본 녹음의 세부 사항과 정확성을 모두 유지하면서 이를 정리하고 훨씬 더 이해하기 쉬운 스크립트를 제공할 수 있습니다.

Speech to Text 소프트웨어의 추악한 측면
ASR의 정확도는 가장 중요한 구성 요소입니다. 가장 뛰어난 음성 텍스트 변환 소프트웨어라도 80% 이상의 정확도를 달성하는 경우는 거의 없으므로 작업을 수정하고 개선하는 데 시간과 노력을 들여야 합니다.
ASR은 '복잡한' 요소가 있는 경우 무의미한 결과를 생성할 수 있습니다. 음성을 텍스트로 변환하는 서비스에서 합격 가능한 대본을 받으려면 '깨끗한' 오디오 녹음이 필요합니다. 이는 한 번에 한 명씩 조심스럽게 말하는 사람들을 액센트 없이 최소한의 배경 소음으로 고품질로 녹음하는 것을 의미합니다.
ASR은 또한 전문 언어를 이해하거나 브랜드 이름과 업계 전문 용어를 인식하는 데 어려움을 겪을 수 있습니다. 이러한 문제를 방지하기 위해 대부분의 인간 필사 서비스는 단어의 용어집을 제공하거나 관련 분야에 지식이 있는 필사자와 연결할 수 있습니다. 시간이 지남에 따라 특정 부문이나 테마에 대해 ASR 소프트웨어를 훈련하는 것이 가능하지만 이것은 노력이 필요하고 즉시 얻을 수 있는 것은 아닙니다.
ASR을 인간 지원 전사 서비스와 비교하는 방법
음성을 텍스트로 변환하는 기술과 인간 기반 전사 서비스에는 몇 가지 중요한 차이점이 있습니다.
비용
많은 사람들에게 가격은 주요 고려 사항이며 인간 전사 서비스는 ASR보다 훨씬 비쌉니다. 일부 ASR 서비스는 무료이지만 대부분은 분당 £0.10에서 £0.20 사이입니다. 반면에 휴먼 서비스는 일반적으로 분당 약 2파운드를 청구합니다. 긴 처리 기간의 경우 더 낮은 가격이 가능할 수 있습니다. 당신이 당신의 성적표를 위해 일주일을 기다릴 수 있다 하더라도 인간 기반 서비스는 음성-텍스트 소프트웨어보다 더 비쌀 것입니다.
시간
인적 서비스는 ASR보다 훨씬 더 오랜 기간 동안 작동합니다. 휴먼 서비스의 처리 시간은 12-24시간인 경우가 많으며 많은 경우 배달 시간을 보장합니다. ASR은 훨씬 빨라서 몇 초 만에 성적표를 생성합니다. 사람 기반 전사가 즉시 필요한 경우 거의 확실히 더 많은 비용이 청구됩니다.
다양성 및 옵션
ASR로 축어적 대본을 얻는 유일한 방법은 음성 인식 소프트웨어가 정확성 면에서 작업에 달려 있는 경우입니다. 인간 기반 서비스는 말 그대로 및 자세한 메모와 같은 훨씬 더 광범위한 가능성을 제공합니다. 대부분의 인간 기반 필사 서비스의 그대로 옵션은 여전히 오류를 제거하고 일시 중지 및 'ums' 및 'errs'를 줄여 훨씬 읽기 쉬운 버전이 됩니다(모든 세부 정보를 남겨달라고 요청하지 않는 한). 상세 노트는 더 압축된 스크립트를 제공하여 한 단계 더 나아갑니다. 여기에는 문의를 요약하고 주제에서 벗어난 잡담과 유쾌한 대화를 삭제하는 작업이 포함될 수 있습니다.
품질과 자신감
인간 기반 전사 서비스를 사용하면 결과의 품질이 더 높다는 것을 확신할 수 있습니다. 휴먼 서비스는 품질 관리가 보장되며 완전히 해독할 수 없는 오디오를 제외하고 일반적으로 99% 이상의 정확도를 제공합니다.
대본이 교정되므로 텍스트를 확인하거나 직접 변경하는 데 시간을 할애할 필요가 없습니다. ASR을 사용하면 텍스트에서 오류를 검색하고, 왜곡된 텍스트를 수정하고, 단어와 바람직하지 않은 노이즈를 삭제하는 데 상당한 시간을 소비해야 한다는 것을 발견할 수 있습니다.
요약: Speech to Text는 비용 효율적인 솔루션입니다.
Speech-to-text 소프트웨어는 신속하게 필사 서비스를 필요로 하는 개인을 위한 비용 효율적인 옵션입니다.
ASR은 매우 저렴하고 종종 무료이기 때문에 어떤 유형의 결과를 얻을 수 있는지 확인하는 것이 좋습니다. 다양한 대안을 실험해 보면 이해할 수 있는 결과를 만들기 위해 어떤 음질이 필요한지 알 수 있습니다.
ASR로 양질의 전사를 생성하려면 고품질 녹음에 투자해야 합니다. 그러나 다양한 옵션, 정확한 필사본 및 타의 추종을 불허하는 세부 사항에 대한 관심을 원한다면 인간 기반 서비스에 투자해야 합니다.