การประมวลผลเอกสารโดยใช้คู่คีย์-ค่าที่มีโครงสร้าง

เผยแพร่แล้ว: 2022-03-31

เหตุใดจึงต้องใช้คู่คีย์-ค่าในระบบประมวลผลเอกสารนี้

การเขียนโพสต์นี้ทำให้ฉันนึกถึงโพสต์ปี 2007 ที่ฉันเขียนเกี่ยวกับการค้นหาในท้องถิ่นและข้อมูลที่มีโครงสร้างซึ่งคู่ของคีย์-ค่าเป็นส่วนสำคัญของสิทธิบัตรปี 2007 นั้น โพสต์คือ:

ข้อมูลที่มีโครงสร้างในการค้นหาในท้องถิ่นของ Google

ฉันไม่รู้สึกว่าน่าสนใจที่ได้เห็น Google เขียนเกี่ยวกับการแทรกคู่คีย์-ค่าลงในระบบประมวลผลเอกสารเช่นเดียวกับที่นี่ โดยมีแนวทางการเรียนรู้ของเครื่องเป็นหัวใจหลัก เข้าสู่เทคนิค SEO

การใช้ Ppairs ของคีย์-ค่ายังคงมีความสำคัญหลังจากผ่านไป 15 ปี

การประมวลผลเอกสารที่ Google

การประมวลผลเอกสารด้วยคู่ค่าคีย์

การทำความเข้าใจการประมวลผลเอกสาร (เช่น ใบแจ้งหนี้ สลิปการจ่ายเงิน ใบเสร็จรับเงิน และอื่นๆ) เป็นความต้องการทางธุรกิจที่สำคัญ ข้อมูลองค์กรส่วนใหญ่ (เช่น 90% ขึ้นไป) จะถูกจัดเก็บและแสดงในเอกสารที่ไม่มีโครงสร้าง การดึงข้อมูลที่มีโครงสร้างออกจากเรกคอร์ดอาจมีราคาแพง ใช้เวลานาน และเกิดข้อผิดพลาดได้ง่าย

สิทธิบัตรนี้อธิบายระบบแยกวิเคราะห์การประมวลผลเอกสารและวิธีการที่ใช้เป็นโปรแกรมคอมพิวเตอร์บนคอมพิวเตอร์ในตำแหน่งที่แปลงเอกสารที่ไม่มีโครงสร้างเป็นคู่คีย์-ค่าที่มีโครงสร้าง

ระบบแยกวิเคราะห์ได้รับการกำหนดค่าให้ประมวลผลเอกสารเพื่อระบุข้อความ "คีย์" และข้อมูลข้อความ "ค่า" ที่สอดคล้องกันในกระดาษ คีย์กำหนดป้ายกำกับที่กำหนดลักษณะ (กล่าวคือ เป็นคำอธิบาย) ค่าที่สอดคล้องกัน

ตัวอย่างเช่น คีย์ "วันที่" อาจตรงกับค่า "2-23-2019"

มีวิธีการที่ดำเนินการโดยเครื่องมือประมวลผลข้อมูล ซึ่งจัดเตรียมรูปภาพของเอกสารให้กับโมเดลการตรวจจับ โดยที่ โมเดลการตรวจจับได้รับการกำหนดค่าให้ประมวลผลภาพด้วยค่าพารามิเตอร์ของโมเดลการตรวจจับจำนวนมากเพื่อสร้างเอาต์พุตที่กำหนดขอบเขตของกล่อง สร้างขึ้นสำหรับความคิด

กรอบขอบเขตแต่ละช่องที่สร้างขึ้นสำหรับรูปภาพจะได้รับการคาดคะเนให้ปิดคู่คีย์-ค่าที่ประกอบด้วยข้อมูลข้อความที่สำคัญและข้อมูลข้อความเกี่ยวกับค่า โดยที่ข้อมูลข้อความที่จำเป็นจะกำหนดป้ายกำกับที่แสดงลักษณะของข้อมูลค่าข้อความ

กรอบล้อมรอบแต่ละช่องที่สร้างขึ้นสำหรับรูปภาพ: ระบุข้อความที่ล้อมรอบด้วยกรอบโดยใช้เทคนิคการรู้จำอักขระด้วยแสง การพิจารณาว่าข้อความที่เก็บไว้โดยกล่องขอบเขตกำหนดคู่คีย์-ค่าหรือไม่ และเพื่อตอบสนองต่อการพิจารณาว่าข้อความที่ล้อมรอบโดยกล่องขอบเขตแสดงถึงคู่ของคีย์-ค่า โดยให้คู่คีย์-ค่าสำหรับใช้ในการกำหนดลักษณะเอกสาร

โมเดลการตรวจจับเป็นโมเดลโครงข่ายประสาทเทียม

โมเดลโครงข่ายประสาทเทียมประกอบด้วยโครงข่ายประสาทเทียม

โมเดลโครงข่ายประสาทเทียมได้รับการฝึกอบรมจากชุดตัวอย่างการฝึก ตัวอย่างการฝึกอบรมแต่ละรายการประกอบด้วยข้อมูลการฝึกอบรมและผลลัพธ์เป้าหมาย ข้อมูลการฝึกอบรมรวมถึงภาพการฝึกอบรมของเอกสารการฝึกอบรม เอาต์พุตเป้าหมายประกอบด้วยข้อมูลที่กำหนดขอบเขตในอิมเมจการฝึกที่ล้อมรอบคู่คีย์-ค่าตามลำดับ

เอกสารเป็นใบแจ้งหนี้

การประมวลผลเอกสาร - ใบแจ้งหนี้ของลูกค้า

การให้รูปภาพของเอกสารกับโมเดลการตรวจจับประกอบด้วย: การระบุคลาสเฉพาะของกระดาษ และให้แนวคิดของเอกสารกับแบบจำลองการตรวจจับที่ได้รับการฝึกอบรมเพื่อประมวลผลสำเนาของประเภทเฉพาะ

  • การพิจารณาว่าข้อความที่ล้อมรอบด้วยกรอบกำหนดคู่คีย์-ค่าประกอบด้วย:
  • การตัดสินใจว่าข้อความที่มีอยู่ในกล่องขอบเขตนั้นรวมถึงคีย์จากชุดคีย์ที่ถูกต้องที่กำหนดไว้ล่วงหน้า
  • ค้นหาประเภทของข้อมูลที่เป็นข้อความที่อยู่ในกรอบที่ไม่มีคีย์ การระบุตำแหน่งของพันธุ์ที่เหมาะสมสำหรับค่าที่สอดคล้องกับคีย์
  • การเลือกลักษณะของส่วนของข้อความที่ล้อมรอบด้วยกล่องขอบเขตที่ไม่รวมคีย์จะรวมอยู่ในชุดของประเภทที่ถูกต้องสำหรับค่าที่สอดคล้องกับคีย์
  • การเรียนรู้ว่าชุดของประเภทที่ถูกต้องสำหรับค่าที่สอดคล้องกับคีย์ประกอบด้วย: การจับคู่คีย์กับคอลเล็กชันประเภทที่เหมาะสมสำหรับค่าที่สอดคล้องกับคีย์โดยใช้การแมปที่กำหนดไว้ล่วงหน้า

ชุดของคีย์ที่ถูกต้องและการแมปจากคีย์ไปยังตำแหน่งที่สอดคล้องกันของประเภทที่เหมาะสมสำหรับค่าที่สอดคล้องกับคีย์ที่ผู้ใช้จัดเตรียมไว้

กล่องที่มีขอบเป็นรูปทรงสี่เหลี่ยมผืนผ้า

วิธีการยังประกอบด้วย: การรับเอกสารจากผู้ใช้; และแปลงกระดาษให้เป็นภาพโดยที่ภาพเขียนบรรยายถึงเอกสาร

วิธีการที่ดำเนินการโดยระบบการประมวลผลเอกสาร วิธีการที่ประกอบรวมด้วย:

  • จัดเตรียมรูปภาพของเอกสารให้กับแบบจำลองการตรวจจับที่กำหนดค่าให้ประมวลผลรูปภาพเพื่อระบุในกล่องขอบเขตรูปภาพที่คาดการณ์ว่าจะมีคู่คีย์-ค่าที่ประกอบด้วยข้อมูลข้อความที่สำคัญและค่าข้อมูลที่เป็นข้อความ โดยคีย์จะกำหนดป้ายกำกับที่แสดงค่าที่สัมพันธ์กัน ไปที่คีย์; สำหรับแต่ละกรอบที่สร้างขึ้นสำหรับรูปภาพ
  • การระบุข้อความที่ล้อมรอบกล่องขอบเขตโดยใช้เทคนิคการรู้จำอักขระด้วยแสงและการพิจารณาว่าข้อความที่ถือโดยกล่องขอบเขตกำหนดคู่คีย์-ค่าหรือไม่
  • นำทีมคีย์-ค่ามาใช้ในการจัดทำเอกสาร

โมเดลการตรวจจับคือโมเดลแมชชีนเลิร์นนิงที่มีพารามิเตอร์ที่สามารถฝึกได้ในชุดข้อมูลการฝึก

โมเดลการเรียนรู้ของเครื่องประกอบด้วยโมเดลโครงข่ายประสาทเทียม โดยเฉพาะโครงข่ายประสาทเทียม

โมเดลแมชชีนเลิร์นนิงได้รับการฝึกอบรมจากชุดตัวอย่างการฝึก และตัวอย่างการฝึกแต่ละรายการจะมีอินพุตการฝึกและเอาต์พุตเป้าหมาย

ข้อมูลการฝึกอบรมประกอบด้วยภาพการฝึกอบรมของเอกสารการฝึกอบรม เอาต์พุตเป้าหมายรวมถึงกล่องขอบเขตที่กำหนดข้อมูลในอิมเมจการฝึก ซึ่งแต่ละอันจะใส่คู่คีย์-ค่าตามลำดับ

เอกสารเป็นใบแจ้งหนี้

การให้รูปภาพของเอกสารกับโมเดลการตรวจจับประกอบด้วย: การระบุคลาสเฉพาะของกระดาษ และให้แนวคิดของเอกสารกับแบบจำลองการตรวจจับที่ได้รับการฝึกอบรมเพื่อดำเนินการกับเอกสารประเภทเฉพาะ

เป็นคู่คีย์-ค่า?

การพิจารณาว่าข้อความที่ล้อมรอบด้วยกล่องขอบเขตกำหนดคู่คีย์-ค่าหรือไม่ หมายความว่า:

  • การตัดสินใจว่าข้อความที่อยู่ในกล่องขอบเขตนั้นรวมถึงคีย์จากชุดคีย์ที่ถูกต้องที่กำหนดไว้ล่วงหน้า
  • ค้นหาประเภทของข้อมูลที่เป็นข้อความที่อยู่ในกรอบที่ไม่มีคีย์
  • สังเกตตำแหน่งของพันธุ์ที่เหมาะสมสำหรับค่าที่สอดคล้องกับคีย์
  • การเลือกลักษณะของส่วนของข้อความที่ล้อมรอบด้วยกล่องขอบเขตที่ไม่มีคีย์จะรวมอยู่ในชุดของประเภทที่ถูกต้องสำหรับค่าที่สอดคล้องกับคีย์

การระบุชุดของประเภทที่ถูกต้องสำหรับค่าที่สอดคล้องกับคีย์ประกอบด้วย: การจับคู่คีย์กับคอลเล็กชันของชนิดที่เหมาะสมสำหรับค่าที่สอดคล้องกับคีย์โดยใช้การแมปที่กำหนดไว้ล่วงหน้า

ชุดของคีย์ที่ถูกต้องและการแมปจากคีย์ไปยังตำแหน่งที่สอดคล้องกันของประเภทที่เหมาะสมสำหรับค่าที่สอดคล้องกับคีย์ที่ผู้ใช้จัดเตรียมไว้

กล่องที่มีขอบเป็นรูปทรงสี่เหลี่ยมผืนผ้า

วิธีการยังประกอบด้วย: การรับเอกสารจากผู้ใช้; และแปลงกระดาษให้เป็นภาพโดยที่ภาพเขียนบรรยายถึงเอกสาร

ในอีกแง่หนึ่ง มีระบบที่ประกอบด้วย: คอมพิวเตอร์; และอุปกรณ์จัดเก็บข้อมูลที่เชื่อมต่อกับคอมพิวเตอร์ โดยอุปกรณ์จัดเก็บข้อมูลจะจัดเก็บคำสั่งที่เมื่อดำเนินการโดยคอมพิวเตอร์ จะทำให้คอมพิวเตอร์ดำเนินการต่างๆ ซึ่งประกอบด้วยการดำเนินการตามวิธีการที่อธิบายไว้ก่อนหน้านี้

ข้อดีของวิธีการประมวลผลเอกสารนี้

การประมวลผลเอกสาร-ผังงาน

ระบบที่อธิบายในข้อกำหนดนี้สามารถใช้เพื่อแปลงเอกสารที่ไม่มีโครงสร้างจำนวนมากเป็นคู่คีย์-ค่าที่มีโครงสร้างได้ ดังนั้น ระบบจึงขจัดความจำเป็นในการดึงข้อมูลที่มีโครงสร้างจากเอกสารที่ไม่มีโครงสร้าง ซึ่งอาจมีราคาแพง ใช้เวลานาน และเกิดข้อผิดพลาดได้ง่าย

ระบบที่อธิบายในข้อกำหนดนี้สามารถระบุคู่คีย์-ค่าในเอกสารที่มีระดับความถูกต้องแม่นยำสูง (เช่น สำหรับเอกสารบางประเภทที่มีความถูกต้องมากกว่า 99%) ดังนั้น ระบบอาจเหมาะสำหรับการปรับใช้ในแอปพลิเคชัน (เช่น การประมวลผลเอกสารทางการเงิน) ที่ต้องการความแม่นยำในระดับสูง

ระบบที่อธิบายในข้อกำหนดนี้สามารถสรุปได้ดีกว่าระบบทั่วไปบางระบบ กล่าวคือ ได้ปรับปรุงความสามารถในการทำให้เป็นนัยทั่วไปเมื่อเทียบกับวิธีการแบบเดิมบางวิธี

โดยเฉพาะอย่างยิ่ง โดยการใช้ประโยชน์จากแบบจำลองการตรวจจับที่เรียนรู้ด้วยเครื่องซึ่งได้รับการฝึกฝนให้จดจำสัญญาณภาพที่แยกคู่ของคีย์-ค่าในเอกสาร ระบบสามารถระบุคู่ของคีย์-ค่าของรูปแบบ โครงสร้าง หรือเนื้อหาเฉพาะของเอกสารได้

การระบุคู่คีย์-ค่าในสิทธิบัตรการประมวลผลเอกสาร

การระบุคู่คีย์-ค่าในเอกสาร
ผู้ประดิษฐ์: Yang Xu, Jiang Wang และ Shengyang Dai
ผู้รับมอบหมาย: Google LLC
สิทธิบัตรสหรัฐอเมริกา: 11,288,719
ได้รับ: 29 มีนาคม 2022
ยื่น: กุมภาพันธ์ 27, 2020

เชิงนามธรรม

วิธีการ ระบบ และอุปกรณ์ รวมถึงโปรแกรมคอมพิวเตอร์ที่เข้ารหัสบนสื่อบันทึกข้อมูลคอมพิวเตอร์ สำหรับการแปลงเอกสารที่ไม่มีโครงสร้างเป็นคู่คีย์-ค่าที่มีโครงสร้าง

ในด้านหนึ่ง วิธีการประกอบด้วย: จัดเตรียมรูปภาพของเอกสารให้กับแบบจำลองการตรวจจับ โดยที่: โมเดลการตรวจจับได้รับการกำหนดค่าให้ประมวลผลรูปภาพเพื่อสร้างผลลัพธ์ที่กำหนดกล่องที่มีขอบเขตที่สร้างขึ้นสำหรับรูปภาพ และกรอบขอบเขตแต่ละกล่องที่สร้างขึ้นสำหรับรูปภาพจะถูกคาดคะเนให้ปิดคู่ของคีย์-ค่าที่ประกอบด้วยข้อมูลข้อความของคีย์และข้อมูลข้อความของค่า โดยที่ข้อมูลข้อความหลักกำหนดป้ายกำกับที่แสดงลักษณะของข้อมูลข้อความของค่า และสำหรับกล่องขอบเขตแต่ละกล่องที่สร้างขึ้นสำหรับ รูปภาพ: การระบุข้อความที่ล้อมรอบด้วยกล่องขอบเขตโดยใช้เทคนิคการรู้จำอักขระด้วยแสง และการพิจารณาว่าข้อความที่ล้อมรอบด้วยกล่องขอบเขตกำหนดคู่คีย์-ค่าหรือไม่

ตัวอย่างระบบแยกวิเคราะห์

ระบบแยกวิเคราะห์เป็นตัวอย่างของวิธีการที่นำมาใช้เป็นโปรแกรมคอมพิวเตอร์ในคอมพิวเตอร์ในตำแหน่งที่ระบบ ส่วนประกอบ และเทคนิคที่อธิบายไว้ด้านล่างได้รับการใช้งาน

ระบบแยกวิเคราะห์ได้รับการกำหนดค่าให้ประมวลผลเอกสาร (เช่น ใบแจ้งหนี้ ต้นขั้วการชำระเงิน หรือใบเสร็จรับเงิน) เพื่อระบุคู่คีย์-ค่าในกระดาษ “คู่คีย์-ค่า” หมายถึงคีย์และค่าที่สอดคล้องกัน โดยทั่วไปจะเป็นข้อมูลที่เป็นข้อความ "ข้อมูลข้อความ" ควรทำความเข้าใจเพื่ออ้างถึงอย่างน้อย: ตัวอักษร ตัวเลข และสัญลักษณ์พิเศษ ตามที่อธิบายไว้ก่อนหน้านี้ คีย์จะกำหนดป้ายกำกับที่กำหนดค่าที่สอดคล้องกัน

ระบบอาจรับเอกสารได้หลากหลายวิธี

ตัวอย่างเช่น ระบบสามารถรับกระดาษเป็นการอัปโหลดจากผู้ใช้ระบบระยะไกลผ่านเครือข่ายการสื่อสารข้อมูล (เช่น การใช้ Application Programming Interface (API) ที่ระบบมีให้) เอกสารสามารถแสดงในรูปแบบข้อมูลที่ไม่มีโครงสร้างที่เหมาะสมได้ เช่น เป็นเอกสาร Portable Document Format (PDF) หรือเป็นเอกสารรูปภาพ (เช่น เอกสาร Portable Network Graphics (PNG) หรือเอกสาร Joint Photographic Experts Group (JPEG)

ระบุคู่คีย์-ค่าในการประมวลผลเอกสาร

ระบบใช้แบบจำลองการตรวจจับ เอ็นจินการรู้จำอักขระด้วยแสง (OCR) และเอ็นจิ้นการกรองเพื่อระบุคู่คีย์-ค่าในการประมวลผลเอกสาร

แบบจำลองการตรวจจับได้รับการกำหนดค่าให้ประมวลผลรูปภาพของเอกสารเพื่อสร้างผลลัพธ์ที่กำหนดกล่องที่มีขอบเขตในรูปภาพ แต่ละรายการได้รับการคาดคะเนให้ใส่ข้อความที่แสดงคู่คีย์-ค่าตามลำดับ กล่าวคือ ขอบเขตแต่ละกรอบคาดว่าจะมีข้อมูลที่เป็นข้อความที่กำหนด:

(i) กุญแจและ
(ii) ค่าที่สอดคล้องกับคีย์ ตัวอย่างเช่น กรอบขอบเขตอาจล้อมรอบข้อความ "ชื่อ: John Smith" ซึ่งกำหนดคีย์ "ชื่อ" และค่าที่เกี่ยวข้อง "John Smith" แบบจำลองการตรวจหาอาจได้รับการกำหนดค่าให้สร้างกรอบขอบเขตที่ล้อมรอบคู่คีย์-ค่าคู่เดียว (กล่าวคือ แทนที่จะเป็นคู่คีย์-ค่าหลายคู่)

รูปภาพของเอกสารคือชุดของค่าตัวเลขที่เรียงลำดับซึ่งแสดงถึงลักษณะที่ปรากฏของกระดาษ รูปภาพอาจเป็นภาพขาวดำของเอกสาร ในตัวอย่างนี้ รูปภาพอาจได้รับการอธิบายว่าเป็นอาร์เรย์สองมิติของค่าความเข้มของตัวเลข อีกตัวอย่างหนึ่ง รูปภาพอาจเป็นภาพสีของเอกสาร ในตัวอย่างนี้ รูปภาพอาจแสดงเป็นรูปภาพหลายช่องสัญญาณ แต่ละช่องจะสอดคล้องกับสีที่เกี่ยวข้อง (เช่น สีแดง สีเขียว หรือสีน้ำเงิน) และได้รับการกำหนดเป็นอาร์เรย์สองมิติของค่าความเข้มของตัวเลข

กล่องที่มีขอบอาจเป็นกล่องที่มีขอบเป็นสี่เหลี่ยมผืนผ้า กล่องขอบสี่เหลี่ยมอาจแสดงโดยพิกัดของมุมเฉพาะของกรอบล้อมรอบและความกว้างและความสูงที่สอดคล้องกันของคอนเทนเนอร์ที่ล้อมรอบ โดยทั่วไปแล้ว รูปร่างกล่องที่มีขอบอื่นๆ และวิธีอื่นๆ ในการแสดงกล่องที่มีขอบเขตก็สามารถทำได้

ในขณะที่รูปแบบการตรวจจับอาจจดจำและใช้กรอบหรือเส้นขอบใดๆ ที่มีอยู่ในเอกสารเป็นสัญญาณภาพ แต่กล่องที่มีขอบเขตไม่ได้จำกัดให้จัดแนว (กล่าวคือ จะเหมือนกัน) กับโครงสร้างที่มีอยู่ของขอบเขตปัจจุบันในกระดาษ นอกจากนี้ ระบบอาจสร้างกรอบล้อมรอบโดยไม่แสดงกรอบในรูปภาพของเอกสาร

กล่าวคือ ระบบอาจสร้างข้อมูลที่กำหนดแพ็คเกจขอบเขตโดยไม่ให้สัญญาณภาพของตำแหน่งของกล่องขอบเขตแก่ผู้ใช้ของระบบ

โดยทั่วไปแล้ว โมเดลการตรวจจับจะเป็นโมเดลแมชชีนเลิร์นนิง กล่าวคือ โมเดลที่มีชุดพารามิเตอร์ที่สามารถรับการฝึกกับชุดข้อมูลการฝึกได้ ข้อมูลการฝึกอบรมประกอบด้วยตัวอย่างการฝึกอบรมมากมาย ซึ่งแต่ละตัวอย่างรวมถึง:

(i) ภาพการฝึกอบรมที่แสดงเอกสารการฝึกอบรมและ
(ii) เอาต์พุตเป้าหมายที่กำหนดกรอบล้อมรอบคู่คีย์-ค่าที่เกี่ยวข้องในรูปภาพการฝึก

ข้อมูลการฝึกอบรมอาจถูกสร้างขึ้นโดยการทำหมายเหตุประกอบด้วยตนเอง กล่าวคือ โดยบุคคลที่ระบุกรอบล้อมรอบคู่คีย์-ค่าในเอกสารการฝึกอบรม (เช่น การใช้ซอฟต์แวร์คำอธิบายประกอบที่เหมาะสม)

การฝึกโมเดลการตรวจจับโดยใช้เทคนิคแมชชีนเลิร์นนิงในชุดข้อมูลการฝึกช่วยให้สามารถจดจำสัญญาณภาพที่จะช่วยในการระบุคู่คีย์-ค่าในเอกสาร ตัวอย่างเช่น โมเดลการตรวจจับอาจได้รับการฝึกอบรมให้จดจำสัญญาณท้องถิ่น (เช่น รูปแบบข้อความและตำแหน่งเชิงพื้นที่ของคำ) และสัญญาณทั่วโลก (เช่น การมีอยู่ของเส้นขอบในเอกสาร) เพื่อระบุคู่คีย์-ค่า

ตัวชี้นำที่มองเห็นได้ทำให้โมเดลการตรวจจับสามารถจดจำทีมคีย์-ค่าในเรกคอร์ดได้ โดยทั่วไปจะไม่รวมสัญญาณที่แสดงถึงความหมายที่ชัดเจนของคำในเอกสาร

สัญญาณภาพที่แยกคู่คีย์-ค่า

การฝึกโมเดลการตรวจจับเพื่อจดจำสัญญาณภาพที่แยกคู่คีย์-ค่าในเอกสารช่วยให้โมเดลการตรวจจับสามารถ "สร้างภาพรวม" นอกเหนือจากข้อมูลการฝึกที่ใช้ในการเตรียมโมเดลการตรวจจับ โมเดลการตรวจจับที่ได้รับการฝึกอบรมอาจประมวลผลภาพที่แสดงถึงเอกสารเพื่อสร้างกรอบล้อมรอบคู่คีย์-ค่าในกระดาษ แม้ว่าสำเนาจะไม่รวมอยู่ในข้อมูลการฝึกที่ใช้ในการฝึกโมเดลการตรวจจับ

ในตัวอย่างหนึ่ง โมเดลการตรวจจับอาจเป็นโมเดลการตรวจจับวัตถุโครงข่ายประสาทเทียม (เช่น รวมถึงโครงข่ายประสาทเทียม) โดยที่ "วัตถุ" สอดคล้องกับคู่คีย์-ค่าในเอกสาร พารามิเตอร์ที่ฝึกได้ของโมเดลโครงข่ายประสาทเทียมจะรวมน้ำหนักของแบบจำลองโครงข่ายประสาทเทียม เช่น น้ำหนักที่กำหนดตัวกรองแบบโค้งในแบบจำลองโครงข่ายประสาทเทียม

โมเดลโครงข่ายประสาทเทียมอาจได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลการฝึกอบรมโดยใช้ขั้นตอนการฝึกอบรมการเรียนรู้ของเครื่องที่เหมาะสม เช่น การไล่ระดับสีแบบสุ่ม โดยเฉพาะอย่างยิ่ง ในการทำซ้ำการฝึกแต่ละครั้ง โมเดลโครงข่ายประสาทเทียมอาจประมวลผลภาพการฝึกจาก "ชุด" (เช่น ชุด) ของตัวอย่างการฝึกเพื่อสร้างกรอบขอบเขตที่คาดการณ์ว่าจะใส่คู่คีย์-ค่าที่เกี่ยวข้องในภาพการฝึก ระบบอาจทดสอบฟังก์ชันการเล็งที่กำหนดลักษณะการวัดความคล้ายคลึงกันระหว่างกล่องขอบเขตที่สร้างโดยแบบจำลองโครงข่ายประสาทเทียมและกล่องขอบเขตที่ระบุโดยผลลัพธ์เป้าหมายที่สอดคล้องกันของตัวอย่างการฝึก

การวัดความคล้ายคลึงกันระหว่างกรอบล้อมรอบสองกล่อง เช่น ผลรวมของระยะทางกำลังสองระหว่างจุดยอดตามลำดับของกรอบล้อมรอบ ระบบสามารถกำหนดความลาดชันของฟังก์ชันการเล็งที่ชนะค่าพารามิเตอร์โครงข่ายประสาทเทียม (เช่น การใช้ backpropagation) และหลังจากนั้นใช้ความชันเพื่อปรับค่าพารามิเตอร์โครงข่ายประสาทเทียมในปัจจุบัน

โดยเฉพาะอย่างยิ่ง ระบบสามารถใช้กฎการอัพเดตพารามิเตอร์จากอัลกอริธึมการปรับให้เหมาะสมการไล่ระดับการไล่ระดับสีที่เหมาะสม (เช่น Adam หรือ RMSprop) เพื่อปรับค่าพารามิเตอร์เครือข่ายประสาทเทียมในปัจจุบันโดยใช้การไล่ระดับสี ระบบจะฝึกโมเดลโครงข่ายประสาทเทียมจนกว่าจะตรงตามเกณฑ์การยุติการฝึก (เช่น จนกว่าจะมีการดำเนินการซ้ำในการฝึกตามจำนวนที่กำหนดไว้ หรือการเปลี่ยนแปลงค่าของฟังก์ชันจุดมุ่งหมายของวัตถุระหว่างการทำซ้ำการฝึกต่ำกว่าเกณฑ์ที่กำหนดไว้)

ก่อนใช้รูปแบบการตรวจจับ ระบบอาจระบุ "ประเภท" ของเอกสาร (เช่น ใบแจ้งหนี้ ต้นขั้วการจ่ายเงิน หรือใบเสร็จรับเงิน) ผู้ใช้ระบบอาจระบุคลาสของเร็กคอร์ดเมื่อจัดเตรียมเอกสารให้กับระบบ วิธีการนี้อาจใช้โครงข่ายประสาทจำแนกประเภทเพื่อจำแนกชั้นเรียนของกระดาษ ระบบอาจใช้เทคนิค OCR เพื่อระบุข้อความในเอกสาร และหลังจากนั้น วางรูปแบบของเอกสารตามข้อความในเอกสาร ในตัวอย่างเฉพาะ เพื่อตอบสนองต่อการกำหนดวลี "Net Pay" ระบบอาจระบุประเภทกระดาษว่าเป็น "ต้นขั้วการจ่าย"

ในอีกตัวอย่างหนึ่ง ในการตอบสนองต่อการระบุวลี "ภาษีขาย" ระบบอาจระบุประเภทของเอกสารเป็น "ใบแจ้งหนี้" หลังจากระบุคลาสเฉพาะของเร็กคอร์ดแล้ว ระบบอาจใช้โมเดลการตรวจจับที่ได้รับการฝึกให้ประมวลผลสำเนาของคลาสที่ระบุ วิธีนี้อาจใช้รูปแบบการตรวจจับที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลการฝึกอบรมที่รวมเฉพาะเอกสารของชั้นเรียนเฉพาะเดียวกันกับเอกสาร

การใช้แบบจำลองการตรวจจับที่ได้รับการฝึกให้ประมวลผลเอกสารในระดับเดียวกันกับเอกสารอาจช่วยเพิ่มประสิทธิภาพการทำงานของแบบจำลองการตรวจจับ (เช่น โดยการเปิดใช้งานแบบจำลองการตรวจจับเพื่อสร้างกล่องขอบเขตรอบคู่คีย์-ค่าที่มีความแม่นยำมากขึ้น)

สำหรับแต่ละกรอบล้อมรอบ ระบบจะประมวลผลส่วนของรูปภาพที่ล้อมรอบกล่องขอบเขตโดยใช้กลไก OCR เพื่อระบุข้อมูลที่เป็นข้อความ (เช่น ข้อความ) ที่ถือโดยกล่องล้อมรอบ โดยเฉพาะอย่างยิ่ง กลไก OCR จะระบุข้อความที่ล้อมรอบด้วยกล่องขอบเขตโดยระบุตัวอักษร ตัวเลข หรืออักขระเฉพาะแต่ละตัวที่ล้อมรอบด้วยกล่องขอบเขต เอ็นจิ้น OCR สามารถใช้เทคนิคที่เหมาะสมเพื่อระบุข้อความที่ล้อมรอบด้วยกรอบล้อมรอบ

เอ็นจินการกรองจะกำหนดว่าข้อความที่ล้อมรอบกล่องล้อมรอบแสดงถึงคู่คีย์-ค่าหรือไม่ เอ็นจิ้นการกรองสามารถตัดสินใจได้ว่าข้อความที่อยู่รอบกล่องขอบเขตแสดงถึงคู่คีย์-ค่าอย่างเหมาะสมหรือไม่ ตัวอย่างเช่น เอ็นจินการกรองอาจกำหนดว่าข้อความที่ล้อมรอบกล่องขอบเขตมีคีย์ที่ถูกต้องจากชุดคีย์ด้านขวาที่กำหนดไว้ล่วงหน้าสำหรับกล่องที่มีขอบเขตที่กำหนดหรือไม่ ตัวอย่างเช่น การรวบรวมคีย์ที่ถูกต้องอาจประกอบด้วย: "วันที่" "เวลา" "ใบแจ้งหนี้ #" "จำนวนเงินที่ครบกำหนด" และอื่นๆ

ในการเปรียบเทียบส่วนต่างๆ ของข้อความเพื่อพิจารณาว่าข้อความที่อยู่ในกรอบล้อมรอบมีคีย์ที่ถูกต้องหรือไม่ กลไกการกรองอาจพิจารณาว่าข้อความสองส่วนนั้น "ตรงกัน" แม้ว่าจะไม่เหมือนกันก็ตาม ตัวอย่างเช่น กลไกการกรองอาจกำหนดว่าผู้อ่านสองส่วนตรงกัน แม้ว่าจะมีการใช้อักษรตัวพิมพ์ใหญ่หรือเครื่องหมายวรรคตอนต่างกัน (เช่น ระบบการกรองอาจกำหนดว่า "วันที่" "วันที่:" "วันที่" และ "วันที่:" ตรงกันหมด)

ในการตอบสนองต่อการพิจารณาว่าข้อความที่ล้อมรอบโดยกล่องขอบเขตไม่มีคีย์ที่ถูกต้องจากคีย์ที่ถูกต้อง กลไกการกรองจะพิจารณาว่าข้อความที่ล้อมรอบโดยกล่องที่มีขอบเขตไม่ได้แสดงถึงคู่คีย์-ค่า

ในการตอบสนองต่อการพิจารณาว่าข้อความที่ล้อมรอบกล่องขอบเขตมีคีย์ที่ถูกต้อง กลไกการกรองจะระบุ "ประเภท" (เช่น ตัวอักษร ตัวเลข เวลา) ของส่วนของข้อความที่ล้อมรอบด้วยกล่องขอบเขตที่ไม่ได้ระบุว่าเป็นคีย์ ( กล่าวคือ ข้อความ "ไม่ใช่คีย์") ตัวอย่างเช่น สำหรับกรอบที่มีข้อความ: "Date: 2-23-2019" ซึ่งกลไกการกรองระบุ "Date:" เป็นคีย์ (ตามที่อธิบายไว้ก่อนหน้านี้) กลไกการกรองอาจระบุประเภทที่ไม่ใช่ -ข้อความสำคัญ “2-23-2019” ว่าเป็น “ชั่วคราว”

นอกจากการระบุประเภทของข้อความที่ไม่ใช่คีย์แล้ว เอ็นจินการกรองยังระบุชุดของประเภทที่ถูกต้องสำหรับค่าที่สอดคล้องกับคีย์ โดยเฉพาะอย่างยิ่ง เอ็นจิ้นการกรองอาจจับคู่คีย์กับกลุ่มของชนิดข้อมูลที่เป็นประโยชน์สำหรับค่าที่สอดคล้องกับคีย์โดยการแมปที่กำหนดไว้ล่วงหน้า ตัวอย่างเช่น กลไกการกรองอาจจับคู่คีย์ "ชื่อ" กับประเภทข้อมูลค่าที่สอดคล้องกัน "เรียงตามตัวอักษร" ซึ่งบ่งชี้ว่าค่าที่สอดคล้องกับคีย์ควรมีประเภทข้อมูลตามตัวอักษร (เช่น "John Smith")

อีกตัวอย่างหนึ่ง เครื่องกรองอาจจับคู่คีย์ "วันที่" กับประเภทข้อมูลค่าที่สอดคล้องกัน "ชั่วคราว" ซึ่งบ่งชี้ว่าค่าที่สอดคล้องกับคีย์ควรมีประเภทข้อมูลชั่วคราว (เช่น "2-23-2019" หรือ " 17:30:22”).

เอ็นจินการกรองจะกำหนดว่าชนิดของข้อความที่ไม่ใช่คีย์จะรวมอยู่ในชุดของชนิดที่ถูกต้องสำหรับค่าที่สอดคล้องกับคีย์หรือไม่ เพื่อตอบสนองต่อการพิจารณาว่าสไตล์ของข้อความที่ไม่ใช่คีย์รวมอยู่ในคอลเล็กชันของประเภทที่เหมาะสมสำหรับค่าที่สอดคล้องกับคำอธิบายแผนภูมิ เอ็นจินการกรองจะกำหนดว่าข้อความที่ล้อมรอบโดยกล่องขอบเขตแสดงถึงคู่คีย์-ค่า โดยเฉพาะอย่างยิ่ง เอ็นจิ้นการกรองจะระบุข้อความที่ไม่ใช่คีย์เป็นค่าที่สอดคล้องกับคีย์ มิฉะนั้น กลไกการกรองจะกำหนดว่าข้อความที่ล้อมรอบกล่องขอบเขตไม่ได้แสดงถึงคู่ของคีย์-ค่า

ชุดคีย์ที่ถูกต้องและการแมปจากคีย์ด้านขวาไปยังตำแหน่งของชนิดข้อมูลที่เป็นประโยชน์สำหรับค่าที่สอดคล้องกับคีย์ที่ถูกต้องอาจได้รับจากผู้ใช้ระบบ (เช่น ผ่าน API ที่ระบบจัดให้)

หลังจากระบุคู่คีย์-ค่าจากข้อความที่ล้อมรอบโดยกล่องขอบเขตที่เกี่ยวข้องโดยใช้กลไกการกรอง ระบบจะส่งออกคู่คีย์-ค่าที่ระบุ ตัวอย่างเช่น ระบบสามารถจัดเตรียมทีมคีย์-ค่าให้กับผู้ใช้ระยะไกลของระบบผ่านเครือข่ายการสื่อสารข้อมูล (เช่น การใช้ API ที่ระบบจัดให้) อีกตัวอย่างหนึ่ง ระบบสามารถจัดเก็บข้อมูลที่กำหนดคู่คีย์-ค่าที่ระบุในฐานข้อมูล (หรือโครงสร้างข้อมูลอื่นๆ) ที่ผู้ใช้ของระบบสามารถเข้าถึงได้

ในบางกรณี ผู้ใช้ระบบอาจขอให้ระบบระบุค่าที่สอดคล้องกับคีย์เฉพาะในเอกสาร (เช่น “Invoice #”) ในกรณีเหล่านี้ แทนที่จะระบุและระบุคู่คีย์-ค่าทุกคู่ในเร็กคอร์ด ระบบอาจประมวลผลข้อความที่วางในกล่องขอบเขตที่เกี่ยวข้อง จนกว่าทีมคีย์-ค่าที่ร้องขอจะรับรู้และดำเนินการคู่คีย์-ค่าที่สั่งซื้อ

ตามที่อธิบายไว้ข้างต้น โมเดลการตรวจจับสามารถรับการฝึกอบรมเพื่อสร้างกรอบขอบเขตที่แต่ละคู่ล้อมรอบคู่คีย์-ค่าที่เกี่ยวข้องกัน หรือแทนที่จะใช้แบบจำลองการตรวจจับเดียว ระบบอาจรวมถึง:

(i) “แบบจำลองการตรวจจับคีย์” ที่ได้รับการฝึกอบรมเพื่อสร้างขอบเขตที่ล้อมรอบคีย์ที่เกี่ยวข้องและ
(ii) “แบบจำลองการตรวจจับค่า” ที่ได้รับการฝึกอบรมเพื่อสร้างกรอบขอบเขตที่ล้อมรอบค่าที่เกี่ยวข้อง

ระบบสามารถระบุคู่คีย์-ค่าจากกล่องขอบเขตคีย์และกล่องขอบเขตของค่าได้อย่างเหมาะสม ตัวอย่างเช่น สำหรับแต่ละทีมของ bounding box ที่มี key bounding box และ value bounding box ระบบสามารถสร้าง "คะแนนการแข่งขัน" ตาม:

(i) ความใกล้เคียงเชิงพื้นที่ของกล่องขอบ
(ii) ว่ากล่องขอบเขตของกุญแจนั้นปิดล้อมด้วยรหัสที่ถูกต้องหรือไม่ และ
(iii) ประเภทของค่าที่ล้อมรอบกล่องขอบเขตของค่ารวมอยู่ในชุดของประเภทที่ถูกต้องสำหรับค่าที่สอดคล้องกับคีย์หรือไม่

ระบบอาจระบุคีย์ที่ล้อมรอบกล่องขอบเขตของคีย์ และค่าที่ล้อมรอบด้วยกล่องขอบเขตของค่าเป็นคู่คีย์-ค่า ถ้าคะแนนการจับคู่ระหว่างกล่องขอบเขตคีย์และกล่องขอบเขตของค่าเกินเกณฑ์

ตัวอย่างเอกสารใบแจ้งหนี้

ผู้ใช้ระบบประมวลผลเอกสารอาจส่งใบแจ้งหนี้ (เช่น เป็นภาพที่สแกนหรือไฟล์ PDF) ให้กับระบบแยกวิเคราะห์

กล่องขอบเขตถูกสร้างขึ้นโดยโมเดลการตรวจจับของระบบการแยกวิเคราะห์ กรอบขอบเขตแต่ละช่องจะคาดคะเนว่าใส่ข้อความที่กำหนดคู่คีย์-ค่า โมเดลการตรวจหาไม่ได้สร้างกรอบที่มีข้อความ (เช่น "ขอบคุณสำหรับธุรกิจของคุณ!") เนื่องจากข้อความนี้ไม่ได้แสดงถึงคู่คีย์-ค่า

ระบบแยกวิเคราะห์ใช้เทคนิค OCR เพื่อระบุข้อความภายในกล่องขอบเขตแต่ละกล่อง จากนั้นจึงระบุคู่คีย์-ค่าที่ดีที่ล้อมรอบด้วยกล่องขอบเขต

คีย์ (เช่น “วันที่:”) และค่า (เช่น “2-23-2019”) ที่ล้อมรอบด้วยกล่องขอบเขต

คู่คีย์-ค่าและการประมวลผลเอกสาร

ระบบแยกวิเคราะห์ที่ตั้งโปรแกรมโดยข้อกำหนดนี้สามารถดำเนินการประมวลผลเอกสารได้

ระบบจะรับเอกสารเป็นการอัปโหลดจากผู้ใช้ระบบระยะไกลผ่านเครือข่ายการสื่อสารข้อมูล (เช่น การใช้ API ที่ระบบจัดให้) เอกสารสามารถแสดงในรูปแบบข้อมูลที่ไม่มีโครงสร้างที่เหมาะสม เช่น เอกสาร PDF หรือเอกสารรูปภาพ (เช่น เอกสาร PNG หรือ JPEG)

ระบบจะแปลงเอกสารเป็นรูปภาพ กล่าวคือ ชุดค่าตัวเลขที่เรียงลำดับซึ่งแสดงถึงลักษณะที่ปรากฏของกระดาษ ตัวอย่างเช่น รูปภาพอาจเป็นภาพขาวดำของเอกสารที่ได้รับการอธิบายว่าเป็นอาร์เรย์สองมิติของค่าความเข้มของตัวเลข

โดยชุดของพารามิเตอร์แบบจำลองการตรวจจับเพื่อสร้างผลลัพธ์ที่กำหนดกล่องขอบเขตในภาพของเอกสาร กรอบขอบเขตแต่ละช่องจะคาดคะเนให้ปิดคู่คีย์-ค่า ซึ่งรวมถึงข้อมูลข้อความที่สำคัญและข้อมูลข้อความของค่า โดยที่คีย์จะกำหนดป้ายกำกับที่แสดงลักษณะของค่า

โมเดลการตรวจจับอาจเป็นโมเดลการตรวจจับวัตถุที่มีโครงข่ายประสาทเทียม

ค้นหาข่าวตรงไปยังกล่องจดหมายของคุณ

ช่องนี้มีไว้เพื่อวัตถุประสงค์ในการตรวจสอบและไม่ควรเปลี่ยนแปลง

*ที่จำเป็น