ซอฟต์แวร์พูดเป็นข้อความคืออะไร – คู่มือสำหรับผู้เริ่มต้นใช้งาน 2022

เผยแพร่แล้ว: 2022-04-25

ซอฟต์แวร์แปลงเสียงพูดเป็นข้อความเรียกเก็บเงินจากตัวมันเองเป็นร้านค้าครบวงจรสำหรับบริการถอดความ ให้ต้นทุนต่ำ ใช้งานง่าย ถูกต้อง และรวดเร็วตามที่คุณต้องการ อย่างไรก็ตามมันดีเท่าที่ hoopla แนะนำหรือไม่? ซอฟต์แวร์แปลงคำพูดเป็นข้อความคืออะไรกันแน่?

โดยสรุป ซอฟต์แวร์แปลงคำพูดเป็นข้อความหรือที่เรียกว่าซอฟต์แวร์รู้จำเสียงพูดอัตโนมัติ (ASR) หรือซอฟต์แวร์แปลงเสียงเป็นข้อความ เป็นโปรแกรมคอมพิวเตอร์ที่จัดเรียงข้อมูลการได้ยินและแปลงเป็นคำโดยใช้อักขระ Unicode โดยใช้อัลกอริธึมทางภาษาศาสตร์

พูดง่ายๆ ก็คือ ซอฟต์แวร์แปลงเสียงเป็นข้อความ 'ฟัง' เสียงและสร้างการถอดเสียงแบบคำต่อคำที่สามารถแก้ไขได้

บนอินเทอร์เน็ต มีผู้ให้บริการถอดเสียงอัตโนมัติอยู่มากมาย ส่วนใหญ่เสนอราคาที่น่าสนใจซึ่งทุกคนที่คุ้นเคยกับบริการถอดความโดยมนุษย์จะพบว่าน่าสนใจ — โดยเฉลี่ยอยู่ที่ 0.10 ปอนด์ต่อนาทีของเสียงที่บันทึก และบางรายการก็ฟรีด้วยซ้ำ

ส่วนใหญ่เรียกร้องอัตราความถูกต้องของ 90 เปอร์เซ็นต์ถึง 95 เปอร์เซ็นต์ สิ่งนี้เป็นจริงสำหรับการบันทึกที่ 'สะอาด' เท่านั้น ซึ่งเป็นสิ่งสำคัญที่ต้องทำความเข้าใจก่อนเลือกว่าซอฟต์แวร์ ASR สามารถตอบสนองความต้องการในการถอดความของคุณได้หรือไม่

ก่อนที่คุณจะตื่นเต้นเกินไปและละทิ้งงบประมาณการถอดเสียงของคุณไปใช้ซอฟต์แวร์แปลงเสียงเป็นข้อความแทน คุณควรทบทวนความรู้เกี่ยวกับเทคโนโลยีเสียก่อน ต่อไปนี้เป็นข้อมูลสรุปเกี่ยวกับซอฟต์แวร์แปลงเสียงเป็นข้อความและเปรียบเทียบกับบริการถอดความแบบดั้งเดิมของมนุษย์

ซอฟต์แวร์ Speech to Text ทำงานอย่างไร

กระบวนการเปลี่ยนคำพูดเป็นข้อความประกอบด้วยกระบวนการหลายอย่าง เมื่อคุณพูด คุณจะส่งชุดการสั่นออก ตัวแปลงแอนะล็อกเป็นดิจิทัลหรือ ADC จะแปลงสิ่งเหล่านี้เป็นภาษาดิจิทัล

ด้วยการสุ่มตัวอย่างเสียงจากไฟล์เสียงและการวัดคลื่นที่มีรายละเอียดสูงเป็นประจำ ADC สามารถแปลงนี้ให้เสร็จสิ้นได้ ตัวกรองในระบบแยกสัญญาณรบกวนที่สำคัญและแยกความถี่ ความเร็วในการพูดจะถูกปรับด้วย และระดับความดังจะถูกตั้งไว้ที่ระดับที่กำหนดไว้ล่วงหน้า

จากนั้นสัญญาณจะถูกแบ่งเป็นส่วนๆ ในหนึ่งร้อยหรือหนึ่งพันวินาที และส่วนเหล่านี้จะถูกจับคู่กับหน่วยเสียง (ฟอนิมคือหน่วยของเสียงที่แยกคำหนึ่งออกจากอีกคำหนึ่งในภาษาหนึ่งๆ) ภาษาอังกฤษมีหน่วยเสียงมากกว่า 40 หน่วยเสียง จากนั้นระบบเสียงแต่ละชุดจะได้รับการตรวจสอบและประเมินผลโดยเชื่อมโยงกับหน่วยเสียงอื่นๆ ในบริเวณใกล้เคียง และระบบจะเปรียบเทียบเครือข่ายหน่วยเสียงกับประโยคที่เป็นที่รู้จัก คำบางคำ และวลีโดยใช้แบบจำลองทางคณิตศาสตร์ที่ซับซ้อน จากนั้นระบบจะสร้างข้อความโดยใช้การประมวลผลภาษาธรรมชาติโดยพิจารณาจากสิ่งที่บุคคลนั้นน่าจะพูดมากที่สุด ซึ่งอาจอยู่ในรูปแบบของกลุ่มข้อความ (ไฟล์ข้อความ) หรือคำสั่งคอมพิวเตอร์ขั้นสุดท้าย

ข้อดี ข้อเสีย และความน่าเกลียดของ ASR/Speech to Text Software

บนพื้นผิว ASR ดูเหมือนจะเป็นวิธีแก้ปัญหาที่ยอดเยี่ยม อย่างไรก็ตาม หากคุณขุดลึกลงไปอีกเล็กน้อย คุณจะพบว่ามีปัญหาบางอย่าง โดยเฉพาะการบันทึกบางประเภท เมื่อเปรียบเทียบ ASR กับบริการถอดความโดยมนุษย์ ควรพิจารณาข้อดี ข้อเสีย และความน่าเกลียด

ประโยชน์ของซอฟต์แวร์แปลงคำพูดเป็นข้อความ

ประโยชน์ที่สำคัญที่สุดของ ASR คือความรวดเร็วและต้นทุนต่ำ การรู้จำคำพูดอัตโนมัติ (ASR) ให้ผลลัพธ์ที่รวดเร็ว และในบางสถานการณ์ก็สามารถให้บริการแบบเรียลไทม์ได้เช่นกัน ค่าใช้จ่ายที่ตามมาก็ถูกกว่าค่าบริการของมนุษย์เช่นกัน

บางบริษัทคิดค่าบริการเป็นนาที อื่นๆ มีกำหนดราคารายเดือน โดยปกติคุณจะถูกจำกัดจำนวนการอัปโหลดต่อเดือนด้วยโปรแกรมที่คิดค่าธรรมเนียม คุณควรใช้จ่ายประมาณ 0.07-0.10 ปอนด์ต่อนาทีของเสียงสำหรับบริการถอดเสียงอัตโนมัติ โดยไม่คำนึงว่าคุณจะถูกเรียกเก็บเงินอย่างไร

ในทางกลับกัน บริการบางอย่างนั้นฟรีทั้งหมด คุณมีแนวโน้มที่จะได้รับผลลัพธ์ที่ดีขึ้นอย่างมากหากคุณจ่ายค่าการเข้าถึงซอฟต์แวร์การถอดความ แต่ก่อนอื่น มาดูปัญหาบางอย่างเกี่ยวกับซอฟต์แวร์แปลงเสียงเป็นข้อความ

ข้อเสียของซอฟต์แวร์คำพูดเป็นข้อความ

ความสามารถของเทคโนโลยีการจดจำเสียงอัตโนมัติในการผลิตข้อความแบบคำต่อคำเพียงอย่างเดียวเป็นหนึ่งในข้อเสียที่สำคัญ ในกรณีที่ไม่มีมนุษย์ ระบบสามารถถอดความเฉพาะสิ่งที่มีอยู่แล้วเท่านั้น ด้วยเหตุนี้ คุณอาจจบลงด้วยการถอดเสียงที่อ่านยาก

เป็นเรื่องปกติมากที่จะลังเล ทำเสียงเหมือน 'เอ๋อ' และสะดุดกับคำบางคำเมื่อพูด ทุกอย่างในเทปจะรวมอยู่ในข้อความแบบคำต่อคำ บริการของมนุษย์สามารถจัดระเบียบสิ่งนี้และให้บันทึกที่เข้าใจได้มากขึ้นในขณะที่ยังคงรายละเอียดและความถูกต้องของการบันทึกดั้งเดิมทั้งหมด

ซอฟต์แวร์คำพูดเป็นข้อความที่น่าเกลียด

ความแม่นยำของ ASR เป็นองค์ประกอบที่เกี่ยวข้องมากที่สุด แม้แต่ซอฟต์แวร์แปลงเสียงพูดเป็นข้อความที่ดีที่สุดยังไม่ค่อยได้รับอัตราความถูกต้องมากกว่า 80% ซึ่งหมายความว่าคุณจะต้องใช้เวลาและความพยายามในการแก้ไขและปรับปรุงงานของคุณ

ASR สามารถสร้างผลลัพธ์ที่ไร้สาระได้หากมีองค์ประกอบที่ 'ซับซ้อน' คุณจะต้องใช้การบันทึกเสียงที่ "สะอาด" เพื่อรับการถอดเสียงที่ผ่านได้จากบริการเสียงพูดเป็นข้อความ นั่นหมายถึงการบันทึกคุณภาพสูงของผู้คนที่พูดอย่างระมัดระวัง ทีละคนโดยไม่มีการเน้นเสียง และไม่มีเสียงรบกวน

ASR ยังอาจมีปัญหาในการทำความเข้าใจภาษาเฉพาะหรือรู้จักชื่อตราสินค้าและศัพท์แสงในอุตสาหกรรม เพื่อป้องกันปัญหาดังกล่าว บริการถอดเสียงโดยมนุษย์ส่วนใหญ่จะอนุญาตให้คุณเสนออภิธานศัพท์หรือเชื่อมโยงคุณกับผู้ถอดเสียงที่มีความรู้ในสาขาที่เกี่ยวข้อง เป็นไปได้ที่จะฝึกอบรมซอฟต์แวร์ ASR สำหรับภาคส่วนหรือธีมที่เฉพาะเจาะจงเมื่อเวลาผ่านไป แต่สิ่งนี้ต้องใช้ความพยายามและไม่น่าจะเป็นสิ่งที่คุณจะได้รับจากกล่อง

วิธีที่ ASR เปรียบเทียบกับบริการถอดเสียงโดยมนุษย์

เทคโนโลยีการแปลงคำพูดเป็นข้อความและบริการถอดความโดยมนุษย์มีความแตกต่างที่สำคัญบางประการ

ค่าใช้จ่าย

สำหรับคนจำนวนมาก ราคาถือเป็นปัจจัยสำคัญ และบริการถอดความโดยมนุษย์นั้นแพงกว่า ASR มาก บริการ ASR บางบริการฟรี ในขณะที่ค่าบริการส่วนใหญ่อยู่ระหว่าง 0.10 ถึง 0.20 ปอนด์ต่อนาที ในทางกลับกัน บริการของมนุษย์มักจะคิดค่าใช้จ่ายประมาณ 2 ปอนด์ต่อนาที สำหรับระยะเวลาตอบสนองที่ยาวนาน อาจมีการกำหนดราคาที่ต่ำกว่า แม้ว่าคุณสามารถรอการถอดเสียงได้เป็นสัปดาห์ แต่บริการที่อิงจากมนุษย์ก็ยังมีราคาแพงกว่าซอฟต์แวร์แปลงเสียงพูดเป็นข้อความ

เวลา

บริการมนุษย์ทำงานเป็นระยะเวลานานกว่า ASR มาก ฝ่ายบริการมนุษย์มักมีระยะเวลาตอบสนอง 12-24 ชั่วโมง โดยส่วนใหญ่มีการรับประกันเวลาจัดส่ง ASR นั้นเร็วกว่ามาก สร้างการถอดเสียงได้ในเวลาไม่กี่วินาที คุณจะถูกเรียกเก็บเงินเพิ่มขึ้นเกือบแน่นอน หากคุณต้องการการถอดเสียงโดยมนุษย์ในทันที

ความเก่งกาจและตัวเลือก

วิธีเดียวที่จะได้การถอดเสียงแบบคำต่อคำด้วย ASR คือถ้าซอฟต์แวร์การรู้จำเสียงพูดนั้นขึ้นอยู่กับงานในแง่ของความแม่นยำ บริการที่อิงกับมนุษย์นั้นมีความเป็นไปได้ที่หลากหลาย เช่น การบันทึกแบบคำต่อคำและรายละเอียด ตัวเลือกคำต่อคำของบริการถอดเสียงตามมนุษย์ส่วนใหญ่จะยังคงลบข้อผิดพลาด ลดการหยุดชั่วคราว และ 'อืม' และ 'ผิดพลาด' ส่งผลให้เวอร์ชันที่อ่านง่ายขึ้นมาก (เว้นแต่คุณจะขอให้มีรายละเอียดทั้งหมดเหลืออยู่) บันทึกโดยละเอียดก้าวไปอีกขั้นด้วยการให้การถอดเสียงที่กระชับยิ่งขึ้น สิ่งนี้อาจเกี่ยวข้องกับการสรุปคำถามและการลบการพูดคุยและความสนุกสนานที่ไม่เกี่ยวกับหัวข้อ

คุณภาพและความมั่นใจ

เมื่อคุณใช้บริการถอดความโดยมนุษย์ คุณสามารถมั่นใจได้ว่าผลลัพธ์จะมีคุณภาพสูงขึ้น บริการของมนุษย์มีการรับประกันการควบคุมคุณภาพและโดยปกติให้อัตราความถูกต้อง 99 เปอร์เซ็นต์หรือสูงกว่า ยกเว้นเสียงที่อ่านไม่ออกโดยสิ้นเชิง

การถอดเสียงจะเป็นการพิสูจน์อักษรสำหรับคุณ ดังนั้นคุณจึงไม่ต้องใช้เวลาในการตรวจสอบข้อความหรือทำการเปลี่ยนแปลงด้วยตนเอง หากคุณใช้ ASR คุณอาจพบว่าคุณต้องใช้เวลานานมากในการค้นหาข้อความเพื่อหาข้อผิดพลาด แก้ไขข้อความที่อ่านไม่ออก ลบคำและเสียงที่ไม่พึงประสงค์

สรุป: Speech to Text เป็นโซลูชันที่คุ้มค่า

ซอฟต์แวร์แปลงเสียงพูดเป็นข้อความเป็นตัวเลือกที่คุ้มค่าสำหรับบุคคลที่ต้องการบริการถอดเสียงอย่างรวดเร็ว

เนื่องจาก ASR มีราคาไม่แพงและมักจะฟรีด้วย คุณจึงควรลองดูว่าคุณจะได้ผลลัพธ์ประเภทใด คุณสามารถทราบได้ว่าต้องใช้คุณภาพเสียงแบบใดเพื่อสร้างผลลัพธ์ที่เข้าใจได้โดยการทดลองกับทางเลือกอื่น

คุณต้องลงทุนในการทำบันทึกคุณภาพสูงเพื่อสร้างการถอดความคุณภาพดีด้วย ASR อย่างไรก็ตาม คุณจะต้องลงทุนในบริการที่อิงจากมนุษย์ หากคุณต้องการตัวเลือกที่หลากหลาย การถอดความที่ถูกต้อง และความใส่ใจในรายละเอียดที่ไม่มีใครเทียบได้