Pemrosesan Dokumen Menggunakan Pasangan Nilai Kunci Terstruktur

Diterbitkan: 2022-03-31

Mengapa Key-Value Pairs dalam sistem pemrosesan dokumen ini?

Menulis posting ini mengingatkan saya pada posting 2007 yang saya tulis tentang pencarian lokal dan data terstruktur di mana pasangan nilai kunci merupakan aspek penting dari paten 2007 itu. Postingan itu adalah:

Informasi Terstruktur di Penelusuran Lokal Google.

Bagi saya, menarik untuk melihat Google menulis tentang memasukkan pasangan nilai kunci dalam sistem pemrosesan dokumen seperti yang ada di sini, dengan pendekatan Machine Learning pada intinya, masuk ke SEO teknis.

Penggunaan Ppairs nilai kunci masih penting sekarang setelah 15 tahun.

Pemrosesan Dokumen Di Google

pemrosesan dokumen dengan pasangan nilai kunci

Memahami pemrosesan dokumen (misalnya, faktur, slip gaji, kuitansi penjualan, dan sejenisnya) adalah kebutuhan bisnis yang penting. Sebagian besar (misalnya, 90% atau lebih) dari data perusahaan disimpan dan direpresentasikan dalam dokumen tidak terstruktur. Mengekstrak data terstruktur dari catatan bisa mahal, memakan waktu, dan rawan kesalahan.

Paten ini menjelaskan sistem penguraian pemrosesan dokumen dan metode yang diterapkan sebagai program komputer pada komputer di lokasi yang mengubah dokumen tidak terstruktur menjadi pasangan nilai kunci terstruktur.

Sistem parsing akan dikonfigurasi untuk pemrosesan dokumen untuk mengidentifikasi data tekstual "kunci" dan data tekstual "nilai" yang sesuai di kertas. Kunci mendefinisikan label yang mencirikan (yaitu, deskriptif) nilai yang sesuai.

Misalnya, kunci "Tanggal" mungkin sesuai dengan nilai "23-02-2019".

Ada metode yang dilakukan oleh peralatan pemrosesan data, yang menyediakan gambar dokumen ke model deteksi, di mana: model deteksi dikonfigurasi untuk memproses gambar dengan nilai sejumlah parameter model deteksi untuk menghasilkan output yang mendefinisikan kotak pembatas dihasilkan untuk ide tersebut.

Setiap kotak pembatas yang dihasilkan untuk gambar diprediksi akan menyertakan pasangan nilai kunci yang terdiri dari data tekstual penting dan data tekstual nilai, di mana data tekstual yang diperlukan menentukan label yang mencirikan data nilai tekstual.

Setiap kotak pembatas yang dihasilkan untuk gambar: mengidentifikasi informasi tekstual yang dilingkupi oleh kotak pembatas menggunakan teknik pengenalan karakter optik; menentukan apakah data tekstual yang dipegang oleh kotak pembatas mendefinisikan pasangan nilai-kunci; dan sebagai tanggapan untuk menentukan bahwa data tekstual yang diapit oleh kotak pembatas mewakili pasangan nilai-kunci, menyediakan pasangan nilai-kunci untuk digunakan dalam mengkarakterisasi dokumen.

Model deteksi adalah model jaringan saraf.

Model jaringan saraf terdiri dari jaringan saraf convolutional.

Model jaringan saraf dilatih pada satu set contoh pelatihan. Setiap contoh pelatihan terdiri dari input pelatihan dan output target; input pelatihan termasuk gambar pelatihan dari dokumen pelatihan. Output target berisi kotak pembatas yang mendefinisikan data dalam gambar pelatihan yang menyertakan pasangan nilai kunci masing-masing.

Dokumen itu adalah faktur.

pemrosesan dokumen - faktur pelanggan

Memberikan gambar dokumen ke model deteksi terdiri dari: mengidentifikasi kelas kertas tertentu; dan memberikan ide dokumen ke model deteksi yang dilatih untuk memproses salinan jenis tertentu.

  • Menentukan apakah data tekstual yang diapit oleh kotak pembatas mendefinisikan pasangan nilai-kunci terdiri dari:
  • Memutuskan bahwa informasi tekstual yang dimiliki oleh kotak pembatas mencakup kunci dari sekumpulan kunci valid yang telah ditentukan sebelumnya;
  • Menemukan jenis bagian dari data tekstual yang dipegang oleh kotak pembatas yang tidak memiliki kunci; mengidentifikasi lokasi varietas yang cocok untuk nilai yang sesuai dengan kunci
  • Memilih bahwa gaya bagian dari data tekstual yang diapit oleh kotak pembatas yang tidak menyertakan kunci akan disertakan dalam kumpulan tipe yang valid untuk nilai yang sesuai dengan kunci.
  • Mempelajari bahwa satu set tipe valid untuk nilai yang terkait dengan kunci terdiri dari: memetakan kunci ke kumpulan jenis yang sesuai untuk nilai yang sesuai dengan kunci menggunakan pemetaan yang telah ditentukan sebelumnya.

Kumpulan kunci yang valid dan pemetaan dari kunci ke lokasi yang sesuai dari tipe yang sesuai untuk nilai yang sesuai dengan kunci yang disediakan oleh pengguna.

Kotak pembatas memiliki bentuk persegi panjang.

Metode selanjutnya terdiri dari: menerima dokumen dari pengguna; dan mengubah kertas menjadi gambar, di mana lukisan itu menggambarkan dokumen.

Suatu metode yang dilakukan oleh sistem pengolahan dokumen, metode yang terdiri dari:

  • Menyediakan gambar dokumen ke model deteksi yang dikonfigurasi untuk memproses gambar untuk diidentifikasi dalam kotak pembatas gambar yang diprediksi akan menyertakan pasangan nilai-kunci yang terdiri dari data tekstual kritis dan data tekstual nilai, di mana kunci mendefinisikan label yang mencirikan nilai yang sesuai ke kunci; untuk setiap kotak pembatas yang dihasilkan untuk gambar,
  • Mengidentifikasi data tekstual yang dilingkupi oleh kotak pembatas menggunakan teknik pengenalan karakter optik dan menentukan apakah informasi tekstual yang dipegang oleh kotak pembatas mendefinisikan pasangan nilai kunci
  • Mengeluarkan tim nilai kunci untuk digunakan dalam mengkarakterisasi dokumen.

Model deteksi adalah model pembelajaran mesin dengan parameter yang dapat dilatih pada kumpulan data pelatihan.

Model pembelajaran mesin terdiri dari model jaringan saraf, khususnya jaringan saraf convolutional.

Model pembelajaran mesin dilatih pada serangkaian contoh pelatihan, dan setiap contoh pelatihan memiliki input pelatihan dan output target.

Input pelatihan terdiri dari gambar pelatihan dari dokumen pelatihan. Output target mencakup kotak pembatas yang mendefinisikan data dalam gambar pelatihan yang masing-masing menyertakan pasangan nilai kunci masing-masing.

Dokumen itu adalah faktur.

Memberikan gambar dokumen ke model deteksi terdiri dari: mengidentifikasi kelas kertas tertentu; dan memberikan ide dokumen ke model deteksi yang dilatih untuk memproses dokumen dari jenis tertentu.

Apakah Ini Pasangan Nilai-Kunci?

Menentukan apakah data tekstual yang diapit oleh kotak pembatas mendefinisikan pasangan nilai kunci berarti:

  • Memutuskan bahwa informasi tekstual yang dimiliki oleh kotak pembatas mencakup kunci dari kumpulan kunci valid yang telah ditentukan sebelumnya
  • Menemukan jenis bagian dari data tekstual yang dipegang oleh kotak pembatas yang tidak memiliki kunci
  • Mencatat lokasi varietas yang cocok untuk nilai yang sesuai dengan kunci
  • Memilih bahwa gaya bagian dari data tekstual yang diapit oleh kotak pembatas yang tidak menyertakan kunci akan disertakan dalam kumpulan tipe yang valid untuk nilai yang sesuai dengan kunci.

Mengidentifikasi satu set jenis yang valid untuk nilai yang sesuai dengan kunci terdiri dari: pemetaan kunci ke kumpulan jenis yang tepat untuk nilai yang sesuai dengan kunci menggunakan pemetaan yang telah ditentukan.

Kumpulan kunci yang valid dan pemetaan dari kunci ke lokasi yang sesuai dari tipe yang sesuai untuk nilai yang sesuai dengan kunci yang disediakan oleh pengguna.

Kotak pembatas memiliki bentuk persegi panjang.

Metode selanjutnya terdiri dari: menerima dokumen dari pengguna; dan mengubah kertas menjadi gambar, di mana lukisan itu menggambarkan dokumen.

Menurut aspek lain, ada sistem yang terdiri dari: komputer; dan perangkat penyimpanan yang digabungkan ke komputer, di mana perangkat penyimpanan menyimpan instruksi yang, ketika dijalankan oleh komputer, menyebabkan komputer melakukan operasi yang terdiri dari operasi metode yang dijelaskan sebelumnya.

Keuntungan Dari Pendekatan Pemrosesan Dokumen Ini

bagan alur pemrosesan dokumen

Sistem yang dijelaskan dalam spesifikasi ini dapat digunakan untuk mengonversi sejumlah besar dokumen tidak terstruktur menjadi pasangan nilai kunci terstruktur. Dengan demikian, sistem meniadakan kebutuhan untuk mengekstraksi data terstruktur dari dokumen tidak terstruktur, yang bisa mahal, memakan waktu, dan rawan kesalahan.

Sistem yang dijelaskan dalam spesifikasi ini dapat mengidentifikasi pasangan nilai kunci dalam dokumen dengan tingkat akurasi yang tinggi (misalnya, untuk beberapa jenis dokumen, dengan akurasi lebih dari 99%). Dengan demikian, sistem mungkin cocok untuk diterapkan dalam aplikasi (misalnya, memproses dokumen keuangan) yang membutuhkan tingkat akurasi yang tinggi.

Sistem yang dijelaskan dalam spesifikasi ini dapat menggeneralisasi lebih baik daripada beberapa sistem konvensional, yaitu, telah meningkatkan kemampuan generalisasi dibandingkan dengan beberapa metode tradisional.

Secara khusus, dengan memanfaatkan model deteksi yang dipelajari mesin yang dilatih untuk mengenali sinyal visual yang membedakan pasangan nilai kunci dalam dokumen, sistem dapat mengidentifikasi pasangan nilai kunci dari gaya, struktur, atau konten tertentu dari makalah.

Mengidentifikasi Pasangan Kunci-Nilai dalam Paten Pemrosesan Dokumen

Mengidentifikasi pasangan nilai kunci dalam dokumen
Penemu: Yang Xu, Jiang Wang, dan Shengyang Dai
Penerima tugas: Google LLC
Paten AS: 11.288.719
Diberikan: 29 Maret 2022
Diarsipkan: 27 Februari 2020

Abstrak

Metode, sistem, dan peralatan, termasuk program komputer yang dikodekan pada media penyimpanan komputer, untuk mengubah dokumen tidak terstruktur menjadi pasangan nilai kunci terstruktur.

Dalam satu aspek, metode terdiri dari: menyediakan gambar dokumen ke model deteksi, di mana: model deteksi dikonfigurasi untuk memproses gambar untuk menghasilkan output yang mendefinisikan kotak pembatas yang dihasilkan untuk gambar; dan setiap kotak pembatas yang dihasilkan untuk gambar diprediksi akan menyertakan pasangan nilai kunci yang terdiri dari data tekstual kunci dan data tekstual nilai, di mana data tekstual kunci mendefinisikan label yang mencirikan data tekstual nilai, dan untuk setiap kotak pembatas yang dihasilkan untuk gambar: mengidentifikasi data tekstual yang dilingkupi oleh kotak pembatas menggunakan teknik pengenalan karakter optik, dan menentukan apakah data tekstual yang dilingkupi oleh kotak pembatas mendefinisikan pasangan nilai-kunci.

Contoh Sistem Parsing

Sistem parsing adalah contoh metode yang diimplementasikan sebagai program komputer di komputer di lokasi di mana sistem, komponen, dan teknik yang dijelaskan di bawah ini diimplementasikan.

Sistem parsing akan dikonfigurasi untuk memproses dokumen (misalnya, faktur, slip gaji, atau tanda terima penjualan) untuk mengidentifikasi pasangan kunci-nilai di kertas. "Pasangan nilai kunci" mengacu pada kunci dan nilai yang sesuai, umumnya data tekstual. “Data tekstual” harus dipahami setidaknya mengacu pada: karakter alfabet, angka, dan simbol khusus. Seperti dijelaskan sebelumnya, kunci mendefinisikan label yang mencirikan nilai yang sesuai.

Sistem dapat menerima dokumen dalam berbagai cara.

Misalnya, sistem dapat menerima makalah sebagai unggahan dari pengguna sistem jarak jauh melalui jaringan komunikasi data (misalnya, menggunakan antarmuka pemrograman aplikasi (API) yang disediakan oleh sistem). Dokumen dapat direpresentasikan dalam format data tidak terstruktur yang sesuai, misalnya, sebagai dokumen Portable Document Format (PDF) atau sebagai dokumen gambar (misalnya, dokumen Portable Network Graphics (PNG) atau Joint Photographic Experts Group (JPEG)).

Identifikasi Pasangan Kunci-Nilai Dalam Pemrosesan Dokumen

Sistem menggunakan model deteksi, mesin pengenalan karakter optik (OCR), dan mesin pemfilteran untuk mengidentifikasi pasangan nilai kunci dalam pemrosesan dokumen.

Model deteksi dikonfigurasi untuk memproses gambar dokumen untuk menghasilkan output yang mendefinisikan kotak pembatas dalam gambar. Masing-masing diprediksi akan menyertakan data tekstual yang mewakili pasangan nilai kunci masing-masing. Artinya, setiap kotak pembatas diharapkan memiliki informasi tekstual yang mendefinisikan:

(i) sebuah kunci, dan
(ii) nilai yang sesuai dengan kunci. Misalnya, kotak pembatas dapat menyertakan data tekstual "Nama: John Smith," yang mendefinisikan kunci "Nama" dan nilai yang sesuai "John Smith." Model deteksi dapat dikonfigurasi untuk menghasilkan kotak pembatas yang menyertakan pasangan nilai kunci tunggal (yaitu, daripada banyak pasangan nilai kunci).

Gambar dokumen adalah kumpulan nilai numerik berurutan yang mewakili tampilan visual kertas. Gambar mungkin merupakan gambar hitam-putih dari dokumen. Dalam contoh ini, gambar dapat digambarkan sebagai larik dua dimensi dari nilai intensitas numerik. Sebagai contoh lain, gambar dapat berupa gambar berwarna dari dokumen. Dalam contoh ini, gambar mungkin direpresentasikan sebagai gambar multi-saluran. Setiap saluran sesuai dengan warna masing-masing (misalnya, merah, hijau, atau biru) dan didefinisikan sebagai array dua dimensi nilai intensitas numerik.

Kotak pembatas dapat berupa kotak pembatas persegi panjang. Kotak pembatas persegi panjang dapat diwakili oleh koordinat sudut tertentu dari kotak pembatas dan lebar dan tinggi wadah pembatas yang sesuai. Lebih umum, bentuk kotak pembatas lainnya dan cara lain untuk mewakili kotak pembatas dimungkinkan.

Sementara model deteksi dapat mengenali dan menggunakan bingkai atau batas apa pun yang ada dalam dokumen sebagai sinyal visual, kotak pembatas tidak dibatasi untuk menyelaraskan (yaitu, bertepatan) dengan struktur batas yang ada saat ini di kertas. Selain itu, sistem dapat menghasilkan kotak pembatas tanpa menampilkan kotak pembatas pada gambar dokumen.

Artinya, sistem dapat menghasilkan data yang mendefinisikan paket pembatas tanpa memberikan tanda visual posisi kotak pembatas kepada pengguna sistem.

Model deteksi umumnya merupakan model pembelajaran mesin, yaitu model yang memiliki serangkaian parameter yang dapat dilatih pada sekumpulan data pelatihan. Data pelatihan mencakup banyak contoh pelatihan, yang masing-masing mencakup:

(i) gambar pelatihan yang menggambarkan dokumen pelatihan, dan
(ii) keluaran target yang mendefinisikan kotak pembatas yang menyertakan pasangan nilai kunci masing-masing dalam gambar pelatihan.

Data pelatihan dapat dihasilkan dengan anotasi manual, yaitu, oleh seseorang yang mengidentifikasi kotak pembatas di sekitar pasangan nilai kunci dalam dokumen pelatihan (misalnya, menggunakan perangkat lunak anotasi yang sesuai).

Melatih model deteksi menggunakan teknik pembelajaran mesin pada kumpulan data pelatihan memungkinkannya mengenali sinyal visual yang memungkinkannya mengidentifikasi pasangan nilai kunci dalam dokumen. Misalnya, model deteksi dapat dilatih untuk mengenali sinyal lokal (misalnya, gaya teks dan posisi spasial relatif dari kata-kata) dan sinyal global (misalnya, adanya batas dalam dokumen) untuk mengidentifikasi pasangan nilai kunci.

Isyarat visual yang memungkinkan model deteksi untuk mengingat tim nilai kunci dalam catatan umumnya tidak menyertakan sinyal yang mewakili makna eksplisit dari kata-kata dalam dokumen.

Sinyal Visual yang Membedakan Pasangan Nilai Kunci

Melatih model deteksi untuk mengenali sinyal visual yang membedakan pasangan nilai kunci dalam dokumen memungkinkan model deteksi untuk "menggeneralisasi" di luar data pelatihan yang digunakan untuk menyiapkan model deteksi. Model deteksi terlatih mungkin memproses gambar yang menggambarkan dokumen untuk menghasilkan kotak pembatas yang menyertakan pasangan nilai kunci di kertas bahkan jika salinannya tidak disertakan dalam data pelatihan yang digunakan untuk melatih model deteksi.

Dalam satu contoh, model deteksi mungkin merupakan model deteksi objek jaringan saraf (misalnya, termasuk jaringan saraf convolutional), di mana "objek" sesuai dengan pasangan nilai kunci dalam dokumen. Parameter yang dapat dilatih dari model jaringan saraf mencakup bobot model jaringan saraf, misalnya, bobot yang menentukan filter konvolusi dalam model jaringan saraf.

Model jaringan saraf dapat dilatih pada kumpulan data pelatihan menggunakan prosedur pelatihan pembelajaran mesin yang sesuai, misalnya, penurunan gradien stokastik. Secara khusus, pada setiap iterasi pelatihan, model jaringan saraf dapat memproses gambar pelatihan dari "batch" (yaitu, satu set) contoh pelatihan untuk menghasilkan kotak pembatas yang diprediksi akan menyertakan pasangan nilai kunci masing-masing dalam gambar pelatihan. Sistem dapat menguji fungsi tujuan yang mencirikan ukuran kesamaan antara kotak pembatas yang dihasilkan oleh model jaringan saraf dan kotak pembatas yang ditentukan oleh output target yang sesuai dari contoh pelatihan.

Ukuran kesamaan antara dua kotak pembatas dapat berupa, misalnya, jumlah kuadrat jarak antara masing-masing simpul dari kotak pembatas. Sistem dapat menentukan gradien dari fungsi tujuan memenangkan nilai parameter jaringan saraf tiruan (misalnya, menggunakan backpropagation) dan setelah itu menggunakan kemiringan untuk menyesuaikan nilai parameter jaringan saraf saat ini.

Secara khusus, sistem dapat menggunakan aturan pembaruan parameter dari algoritme pengoptimalan penurunan gradien yang sesuai (misalnya, Adam atau RMSprop) untuk menyesuaikan nilai parameter jaringan saraf saat ini menggunakan gradien. Sistem melatih model jaringan saraf hingga kriteria penghentian pelatihan terpenuhi (misalnya, hingga sejumlah iterasi pelatihan yang telah ditentukan telah dilakukan atau perubahan nilai fungsi tujuan objek antara iterasi pelatihan turun di bawah ambang batas yang telah ditentukan).

Sebelum menggunakan model deteksi, sistem dapat mengidentifikasi "kelas" dokumen (misalnya, faktur, slip gaji, atau tanda terima penjualan). Seorang pengguna sistem dapat mengidentifikasi kelas catatan setelah memberikan dokumen ke sistem. Metode tersebut dapat menggunakan jaringan saraf klasifikasi untuk mengklasifikasikan kelas makalah. Sistem dapat menggunakan teknik OCR untuk mengidentifikasi teks dalam dokumen dan, setelah itu, menempatkan gaya dokumen berdasarkan teks dalam dokumen. Dalam contoh tertentu, sebagai tanggapan untuk menentukan frasa "Pembayaran Bersih", sistem dapat mengidentifikasi kelas kertas sebagai "stub gaji".

Dalam contoh khusus lainnya, sebagai tanggapan untuk mengidentifikasi frasa "Pajak penjualan," sistem dapat mengidentifikasi kelas dokumen sebagai "faktur." Setelah mengidentifikasi kelas catatan tertentu, sistem dapat menggunakan model deteksi yang dilatih untuk memproses salinan kelas tertentu. Metode ini dapat menggunakan model deteksi yang dilatih pada data pelatihan yang hanya menyertakan dokumen dari kelas tertentu yang sama dengan dokumen tersebut.

Menggunakan model deteksi yang dilatih untuk memproses dokumen dari kelas yang sama dengan dokumen dapat meningkatkan kinerja model deteksi (misalnya, dengan mengaktifkan model deteksi untuk menghasilkan kotak pembatas di sekitar pasangan nilai kunci dengan akurasi yang lebih besar).

Untuk setiap kotak pembatas, sistem memproses bagian dari gambar yang dilingkupi oleh kotak pembatas menggunakan mesin OCR untuk mengidentifikasi data tekstual (yaitu, teks) yang dipegang oleh kotak pembatas. Secara khusus, mesin OCR mengidentifikasi teks yang diapit oleh kotak pembatas dengan mengidentifikasi setiap karakter alfabet, numerik, atau unik yang diapit oleh kotak pembatas. Mesin OCR dapat menggunakan teknik yang sesuai untuk mengidentifikasi teks yang dikelilingi oleh kotak pembatas.

Mesin pemfilteran menentukan apakah teks yang diapit oleh kotak pembatas mewakili pasangan nilai kunci. Mesin pemfilteran dapat memutuskan apakah teks yang mengelilingi kotak pembatas mewakili pasangan nilai kunci dengan tepat. Misalnya, mesin pemfilteran dapat menentukan apakah teks yang diapit oleh kotak pembatas menyertakan kunci yang valid dari serangkaian kunci kanan yang telah ditentukan sebelumnya untuk kotak pembatas yang diberikan. Misalnya, kumpulan kunci yang valid dapat terdiri dari: “Tanggal”, “Waktu”, “Nomor Faktur”, “Jumlah Jatuh Tempo”, dan sejenisnya.

Dalam membandingkan bagian teks yang berbeda untuk menentukan apakah teks yang diapit oleh kotak pembatas menyertakan kunci yang valid, mesin pemfilteran dapat menentukan bahwa dua bagian teks "cocok" meskipun tidak identik. Misalnya, mesin pemfilteran dapat menentukan bahwa dua bagian pembaca cocok meskipun menyertakan kapitalisasi atau tanda baca yang berbeda (misalnya, sistem pemfilteran dapat menentukan bahwa "Tanggal", "Tanggal:", "tanggal", dan "tanggal:" semuanya cocok).

Sebagai tanggapan untuk menentukan bahwa teks yang diapit oleh kotak pembatas tidak menyertakan kunci yang valid dari kunci kanan, mesin pemfilteran menentukan bahwa teks yang dikelilingi oleh kotak pembatas tidak mewakili pasangan nilai kunci.

Sebagai tanggapan untuk menentukan bahwa teks yang diapit oleh kotak pembatas menyertakan kunci yang valid, mesin pemfilteran mengidentifikasi "tipe" (misalnya, abjad, numerik, temporal) dari bagian teks yang diapit oleh kotak pembatas yang tidak diidentifikasi sebagai kunci ( yaitu, teks "non-kunci"). Misalnya, untuk kotak pembatas yang memiliki teks: “Tanggal: 23-23-2019”, di mana mesin pemfilteran mengidentifikasi “Tanggal:” sebagai kunci (seperti yang dijelaskan sebelumnya), mesin pemfilteran dapat mengidentifikasi jenis non -teks kunci "23-2-2019" sebagai "temporal."

Selain mengidentifikasi jenis teks non-kunci, mesin pemfilteran mengidentifikasi serangkaian jenis yang valid untuk nilai yang sesuai dengan kunci. Secara khusus, mesin pemfilteran dapat memetakan kunci ke sekelompok tipe data yang berguna untuk nilai yang sesuai dengan kunci dengan pemetaan yang telah ditentukan sebelumnya. Misalnya, mesin pemfilteran dapat memetakan kunci "Nama" ke tipe data nilai yang sesuai "abjad", yang menunjukkan bahwa nilai yang sesuai dengan kunci harus memiliki tipe data abjad (misalnya, "John Smith").

Sebagai contoh lain, mesin pemfilteran dapat memetakan kunci "Tanggal" ke tipe data nilai yang sesuai "temporal", yang menunjukkan bahwa nilai yang sesuai dengan kunci harus memiliki tipe data temporal (misalnya, "2-23-2019" atau " 17:30:22").

Mesin pemfilteran menentukan apakah jenis teks non-kunci disertakan dalam kumpulan jenis yang valid untuk nilai yang terkait dengan kunci. Sebagai tanggapan untuk menentukan bahwa gaya teks non-kunci disertakan dalam kumpulan tipe yang sesuai untuk nilai yang sesuai dengan legenda, mesin pemfilteran menentukan bahwa teks yang diapit oleh kotak pembatas mewakili pasangan nilai kunci. Secara khusus, mesin pemfilteran mengidentifikasi teks non-kunci sebagai nilai yang sesuai dengan kunci. Jika tidak, mesin pemfilteran menentukan bahwa teks yang diapit oleh kotak pembatas tidak mewakili pasangan nilai kunci.

Kumpulan kunci yang valid dan pemetaan dari kunci kanan ke lokasi tipe data yang berguna untuk nilai yang sesuai dengan kunci yang valid dapat disediakan oleh pengguna sistem (misalnya, melalui API yang disediakan oleh sistem).

Setelah mengidentifikasi pasangan nilai kunci dari teks yang diapit oleh kotak pembatas masing-masing menggunakan mesin pemfilteran, sistem mengeluarkan pasangan nilai kunci yang diidentifikasi. Misalnya, sistem dapat memberikan tim nilai kunci kepada pengguna sistem jarak jauh melalui jaringan komunikasi data (misalnya, menggunakan API yang disediakan oleh sistem). Sebagai contoh lain, sistem dapat menyimpan data yang mendefinisikan pasangan nilai kunci yang teridentifikasi dalam database (atau struktur data lainnya) yang dapat diakses oleh pengguna sistem.

Dalam beberapa kasus, pengguna sistem dapat meminta agar sistem mengidentifikasi nilai yang sesuai dengan kunci tertentu dalam dokumen (misalnya, "Faktur #"). Dalam kasus ini, daripada mengidentifikasi dan menyediakan setiap pasangan nilai kunci dalam catatan, sistem dapat memproses teks yang ditempatkan di kotak pembatas masing-masing hingga tim nilai kunci yang diminta mengenali dan mengeksekusi pasangan nilai kunci yang dipesan.

Seperti dijelaskan di atas, model deteksi dapat dilatih untuk menghasilkan kotak pembatas yang masing-masing menyertakan pasangan nilai kunci masing-masing. Atau, daripada menggunakan model deteksi tunggal, sistem dapat mencakup:

(i) "model deteksi kunci" yang dilatih untuk menghasilkan kotak pembatas yang menyertakan kunci masing-masing, dan
(ii) "model deteksi nilai" yang dilatih untuk menghasilkan kotak pembatas yang menyertakan nilai masing-masing.

Sistem dapat mengidentifikasi pasangan kunci-nilai dari kotak pembatas kunci dan kotak pembatas nilai dengan tepat. Misalnya, untuk setiap tim kotak pembatas yang menyertakan kotak pembatas kunci dan kotak pembatas nilai, sistem dapat menghasilkan “skor kecocokan” berdasarkan:

(i) kedekatan spasial kotak pembatas,
(ii) apakah kotak pembatas kunci menyertakan kunci yang valid, dan
(iii) apakah tipe nilai yang diapit oleh kotak pembatas nilai dimasukkan ke dalam kumpulan tipe yang valid untuk nilai yang sesuai dengan kunci.

Sistem dapat mengidentifikasi kunci yang diapit oleh kotak pembatas kunci dan nilai yang dikelilingi oleh kotak pembatas nilai sebagai pasangan kunci-nilai jika skor kecocokan antara kotak pembatas kunci dan kotak pembatas nilai melebihi ambang batas.

Contoh Dokumen Faktur

Pengguna sistem pemrosesan dokumen dapat memberikan faktur (misalnya, sebagai gambar pindaian atau file PDF) ke sistem penguraian.

Kotak pembatas dihasilkan oleh model deteksi dari sistem parsing. Setiap kotak pembatas diprediksi akan menyertakan data tekstual yang mendefinisikan pasangan nilai kunci. Model deteksi tidak menghasilkan kotak pembatas yang memiliki teks (yaitu, "Terima kasih atas bisnis Anda!") karena teks ini tidak mewakili pasangan nilai kunci.

Sistem parsing menggunakan teknik OCR untuk mengidentifikasi teks di dalam setiap kotak pembatas dan kemudian mengidentifikasi pasangan nilai kunci yang baik yang diapit oleh kotak pembatas.

Kunci (yaitu, "Tanggal:") dan nilai (yaitu, "2-23-2019") diapit oleh kotak pembatas.

Pasangan Kunci-Nilai Dan Pemrosesan Dokumen

Sistem penguraian yang diprogram oleh spesifikasi ini dapat melakukan pemrosesan dokumen.

Sistem menerima dokumen sebagai unggahan dari pengguna sistem jarak jauh melalui jaringan komunikasi data (misalnya, menggunakan API yang disediakan oleh sistem). Dokumen dapat direpresentasikan dalam format data tidak terstruktur yang sesuai, seperti dokumen PDF atau dokumen gambar (misalnya, dokumen PNG atau JPEG).

Sistem mengubah dokumen menjadi gambar, yaitu kumpulan nilai numerik yang terurut yang mewakili tampilan visual kertas. Misalnya, gambar mungkin berupa gambar hitam-putih dari dokumen yang digambarkan sebagai larik dua dimensi dari nilai intensitas numerik.

Dengan satu set parameter model deteksi untuk menghasilkan output yang mendefinisikan kotak pembatas pada gambar dokumen. Setiap kotak pembatas diprediksi akan menyertakan pasangan nilai kunci termasuk data tekstual penting dan data tekstual nilai, di mana kunci mendefinisikan label yang mencirikan nilai.

Model deteksi mungkin merupakan model deteksi objek yang mencakup jaringan saraf convolutional.

Cari Berita Langsung Ke Kotak Masuk Anda

Bidang ini untuk tujuan validasi dan tidak boleh diubah.

*Diperlukan