Apa itu Perangkat Lunak Pidato ke Teks – Panduan Pemula 2022

Diterbitkan: 2022-04-25

Perangkat lunak ucapan-ke-teks menyebut dirinya sebagai toko serba ada untuk layanan transkripsi, memberikan transkrip berbiaya rendah, mudah digunakan, akurat, dan cepat yang Anda cari. Namun, apakah itu sebagus yang disarankan kehebohan itu? Apa sebenarnya perangkat lunak pidato-ke-teks?

Singkatnya, perangkat lunak ucapan-ke-teks, juga dikenal sebagai perangkat lunak pengenalan suara otomatis (ASR) atau perangkat lunak suara-ke-teks, adalah program komputer yang menyortir data pendengaran dan mengubahnya menjadi kata-kata menggunakan karakter Unicode menggunakan algoritme linguistik.

Sederhananya, perangkat lunak suara-ke-teks 'mendengarkan' audio dan menghasilkan transkrip kata demi kata yang dapat diedit.

Di internet, ada banyak sekali penyedia layanan transkripsi otomatis. Sebagian besar menawarkan poin harga menarik yang akan menarik bagi siapa pun yang akrab dengan layanan transkripsi manusia — rata-rata sekitar £0,10 per menit rekaman audio, dan beberapa bahkan gratis.

Mayoritas mengklaim tingkat akurasi 90 persen hingga 95 persen. Ini hanya berlaku untuk rekaman 'bersih', yang penting untuk dipahami sebelum memilih apakah perangkat lunak ASR dapat memenuhi kebutuhan transkripsi Anda.

Sebelum Anda terlalu bersemangat dan mengorbankan anggaran transkripsi Anda demi perangkat lunak ucapan-ke-teks, ada baiknya untuk memoles pengetahuan Anda tentang teknologi tersebut. Berikut adalah ikhtisar fakta tentang perangkat lunak ucapan-ke-teks dan bagaimana membandingkannya dengan layanan transkripsi manusia tradisional.

Bagaimana Cara Kerja Perangkat Lunak Speech to Text?

Proses mengubah ucapan menjadi teks memerlukan beberapa proses. Ketika Anda berbicara, Anda mengirimkan serangkaian getaran. Konverter analog-ke-digital, atau ADC, mengubahnya menjadi bahasa digital.

Dengan mengambil sampel suara dari file audio dan melakukan pengukuran gelombang secara teratur dan sangat rinci, ADC dapat menyelesaikan konversi ini. Filter dalam sistem membedakan suara yang signifikan dan membedakan frekuensi. Kecepatan bicara juga disesuaikan, dan kenyaringan diatur ke tingkat preset.

Sinyal tersebut kemudian disegmentasi menjadi seperseratus atau seperseribu detik, dan segmen ini dicocokkan dengan fonem (fonem adalah unit suara yang membedakan satu kata dari kata lain dalam bahasa tertentu). Bahasa Inggris berisi lebih dari 40 fonem. Setiap fonem kemudian diselidiki dan dievaluasi sehubungan dengan fonem lain di sekitarnya, dan sistem membandingkan jaringan fonem dengan kalimat terkenal, kata-kata tertentu, dan frasa menggunakan model matematika yang kompleks. Sistem kemudian menghasilkan teks menggunakan pemrosesan bahasa alami berdasarkan apa yang paling mungkin dikatakan orang tersebut. Ini bisa dalam bentuk potongan teks (file teks) atau instruksi komputer akhir.

Baik, Buruk, dan Jeleknya Perangkat Lunak ASR/Speech to Text

Di permukaan, ASR tampaknya menjadi solusi yang fantastis. Namun, jika Anda menggali lebih dalam, Anda akan menemukan bahwa ada kesulitan tertentu, terutama dengan jenis rekaman tertentu. Saat membandingkan ASR dengan layanan transkripsi berbasis manusia, penting untuk mempertimbangkan pro, kontra, dan buruknya.

Manfaat Perangkat Lunak Speech to Text

Manfaat paling utama dari ASR adalah kecepatan dan biayanya yang rendah. Pengenalan ucapan otomatis (ASR) memberikan hasil yang cepat dan, dalam beberapa situasi, bahkan dapat memberikan layanan waktu nyata. Biaya yang menyertainya juga jauh lebih murah daripada layanan manusia.

Beberapa perusahaan mengenakan biaya per menit. Lainnya memiliki harga bulanan yang ditetapkan. Anda biasanya dibatasi pada jumlah unggahan tertentu per bulan dengan program berbasis biaya. Anda harus mengantisipasi pengeluaran sekitar £0,07-£0,10 per menit audio untuk layanan transkripsi otomatis, terlepas dari bagaimana Anda ditagih.

Beberapa layanan, di sisi lain, benar-benar gratis. Anda lebih mungkin menerima hasil yang jauh lebih baik jika Anda membayar untuk akses perangkat lunak transkripsi. Tapi pertama-tama, mari kita lihat beberapa masalah dengan perangkat lunak ucapan-ke-teks.

Kelemahan dari Speech to Text Software

Kemampuan teknologi pengenalan suara otomatis untuk hanya menghasilkan teks kata demi kata adalah salah satu kelemahan utamanya. Dengan tidak adanya manusia, sistem hanya dapat menyalin apa yang sudah ada. Akibatnya, Anda mungkin mendapatkan transkrip yang sulit dibaca.

Sangat biasa untuk ragu-ragu, membuat suara seperti 'erm', dan tersandung kata-kata tertentu saat berbicara. Semua yang ada di kaset akan dimasukkan dalam teks kata demi kata. Layanan manusia dapat merapikan ini dan memberikan transkrip yang jauh lebih mudah dipahami sambil mempertahankan semua detail dan akurasi rekaman asli.

Sisi Buruk Bicara ke Perangkat Lunak Teks

Keakuratan ASR adalah komponen yang paling memprihatinkan. Bahkan perangkat lunak ucapan-ke-teks terbaik jarang mencapai tingkat akurasi lebih dari 80%, yang berarti Anda harus menghabiskan waktu dan upaya untuk memperbaiki dan meningkatkan pekerjaan Anda.

ASR dapat menghasilkan hasil yang tidak masuk akal jika ada elemen 'rumit'. Anda memerlukan rekaman audio 'bersih' untuk menerima transkrip yang dapat diterima dari layanan ucapan-ke-teks. Itu berarti rekaman berkualitas tinggi dari orang-orang yang berbicara dengan hati-hati, satu per satu, tanpa aksen, dan dengan kebisingan latar belakang yang minimal.

ASR mungkin juga mengalami kesulitan memahami bahasa khusus atau mengenali nama merek dan jargon industri. Untuk mencegah masalah seperti itu, sebagian besar layanan transkripsi manusia akan memungkinkan Anda untuk menawarkan daftar kata atau menghubungkan Anda dengan transkrip yang memiliki pengetahuan di bidang yang relevan. Dimungkinkan untuk melatih perangkat lunak ASR untuk sektor atau tema tertentu dari waktu ke waktu, tetapi ini membutuhkan usaha dan tidak mungkin Anda dapatkan di luar kotak.

Bagaimana ASR Dibandingkan dengan Layanan Transkripsi Berbantuan Manusia

Teknologi ucapan-ke-teks dan layanan transkripsi berbasis manusia memiliki beberapa perbedaan penting.

Biaya

Bagi banyak orang, harga merupakan pertimbangan utama, dan layanan transkripsi manusia jauh lebih mahal daripada ASR. Beberapa layanan ASR gratis, sementara sebagian besar mengenakan biaya antara £0,10 dan £0,20 per menit. Layanan manusia, di sisi lain, biasanya mengenakan biaya sekitar £ 2 per menit. Untuk periode turnaround yang lama, harga yang lebih rendah dimungkinkan. Bahkan jika Anda dapat menunggu seminggu untuk transkrip Anda, layanan berbasis manusia akan lebih mahal daripada perangkat lunak ucapan ke teks.

Waktu

Layanan manusia berfungsi dalam jangka waktu yang jauh lebih lama daripada ASR. Layanan manusia sering kali memiliki waktu penyelesaian 12-24 jam, dengan banyak yang menawarkan jaminan waktu pengiriman. ASR secara substansial lebih cepat, menghasilkan transkrip dalam hitungan detik. Anda hampir pasti akan dikenakan biaya lebih jika Anda membutuhkan transkripsi berbasis manusia segera.

Fleksibilitas dan Pilihan

Satu-satunya cara untuk mendapatkan transkrip kata demi kata dengan ASR adalah jika perangkat lunak pengenalan suara memenuhi tugas dalam hal akurasi. Layanan berbasis manusia memberikan kemungkinan yang jauh lebih luas, seperti kata demi kata dan catatan terperinci. Sebagian besar opsi verbatim layanan transkripsi berbasis manusia masih akan menghapus kesalahan, mengurangi jeda, dan 'ums' dan 'errs', menghasilkan versi yang jauh lebih mudah dibaca (kecuali jika Anda meminta untuk memasukkan semua detail). Catatan Terperinci selangkah lebih maju dengan menyediakan transkrip yang lebih ringkas. Ini dapat melibatkan meringkas pertanyaan dan menghapus obrolan dan basa-basi yang di luar topik.

Kualitas dan Keyakinan

Ketika Anda menggunakan layanan transkripsi berbasis manusia, Anda dapat yakin bahwa hasilnya akan lebih berkualitas. Layanan manusia memiliki jaminan kontrol kualitas dan biasanya memberikan tingkat akurasi 99 persen atau lebih tinggi, dengan pengecualian audio yang sama sekali tidak dapat dipahami.

Transkrip akan dikoreksi untuk Anda, jadi Anda tidak perlu menghabiskan waktu untuk memverifikasi teks atau membuat perubahan sendiri. Jika Anda menggunakan ASR, Anda mungkin menemukan bahwa Anda harus menghabiskan banyak waktu untuk mencari kesalahan dalam teks, mengoreksi teks yang kacau, dan menghapus kata-kata dan suara-suara yang tidak diinginkan.

Ringkasan: Speech to Text adalah solusi hemat biaya

Perangkat lunak ucapan-ke-teks adalah pilihan hemat biaya bagi individu yang membutuhkan layanan menyalin dengan cepat.

Karena ASR sangat murah, dan seringkali bahkan gratis, ada baiknya mencoba melihat jenis hasil apa yang bisa Anda dapatkan. Anda dapat mengetahui kualitas suara seperti apa yang diperlukan untuk menciptakan hasil yang dapat dipahami dengan bereksperimen dengan berbagai alternatif.

Anda harus berinvestasi dalam membuat rekaman berkualitas tinggi untuk menghasilkan transkripsi berkualitas baik dengan ASR. Namun, Anda perlu berinvestasi dalam layanan berbasis manusia jika Anda menginginkan berbagai opsi, transkripsi yang tepat, dan perhatian terhadap detail yang tak tertandingi.