Yapılandırılmış Anahtar/Değer Çiftlerini Kullanarak Belge İşleme

Yayınlanan: 2022-03-31

Bu belge işleme sisteminde neden Anahtar-Değer Çiftleri var?

Bu gönderiyi yazmak bana, Anahtar/değer çiftlerinin 2007 patentinin önemli bir yönü olduğu yerel arama ve yapılandırılmış veriler hakkında yazdığım 2007 gönderisini hatırlattı. Gönderi şuydu:

Google'ın Yerel Aramasında Yapılandırılmış Bilgiler.

Google'ın buradaki gibi bir belge işleme sistemine anahtar/değer çiftleri ekleme hakkında yazdığını görmek bana ilginç geldi, kalbinde bir makine Öğrenimi yaklaşımı ve teknik SEO'ya giriyor.

Anahtar/değer çiftlerinin kullanımları, 15 yıl sonra hala önemlidir.

Google'da Belge İşleme

anahtar değer çiftleriyle belge işleme

Belge işlemeyi (örneğin, faturalar, ödeme taslakları, satış makbuzları ve benzerleri) anlamak çok önemli bir iş ihtiyacıdır. Kurumsal verilerin büyük bir kısmı (örneğin, %90 veya daha fazlası) yapılandırılmamış belgelerde depolanır ve temsil edilir. Yapılandırılmış verileri kayıtlardan çıkarmak pahalı, zaman alıcı ve hataya açık olabilir.

Bu patent, bir belge işleme ayrıştırma sistemini ve yapılandırılmamış belgeleri yapılandırılmış anahtar/değer çiftlerine dönüştüren konumlardaki bilgisayarlarda bilgisayar programları olarak uygulanan bir yöntemi açıklar.

Ayrıştırma sistemi, kağıttaki "anahtar" metin verilerini ve karşılık gelen "değer" metin verilerini tanımlamak için belge işlemeyi yapılandırır. Anahtar, karşılık gelen bir değeri karakterize eden (yani açıklayıcı olan) bir etiketi tanımlar.

Örneğin, “Tarih” anahtarı “2-23-2019” değerine karşılık gelebilir.

Bir algılama modeline bir belgenin bir görüntüsünü sağlayan, veri işleme aparatı tarafından gerçekleştirilen bir yöntem vardır, burada: algılama modeli, sınırlayıcı kutuları tanımlayan bir çıktı üretmek için çok sayıda algılama modeli parametresinin değerleriyle görüntüyü işlemek üzere yapılandırılır. fikir için üretilmiştir.

Görüntü için oluşturulan her bir sınırlayıcı kutunun, kritik metinsel verileri ve değer metinsel verilerini içeren bir anahtar-değer çiftini kapsaması tahmin edilir, burada gerekli metinsel veriler, metinsel değer verilerini karakterize eden bir etiketi tanımlar.

Görüntü için oluşturulan sınırlayıcı kutuların her biri: bir optik karakter tanıma tekniği kullanarak sınırlayıcı kutunun içerdiği metinsel bilgileri tanımlar; sınırlayıcı kutu tarafından tutulan metin verilerinin bir anahtar/değer çifti tanımlayıp tanımlamadığının belirlenmesi; ve sınırlayıcı kutu tarafından çevrelenen metinsel verilerin bir anahtar-değer çiftini temsil ettiğinin belirlenmesine yanıt olarak, belgeyi karakterize etmede kullanım için anahtar-değer çiftini sağlar.

Algılama modeli bir sinir ağı modelidir.

Sinir ağı modeli, evrişimli bir sinir ağı içerir.

Sinir ağı modeli, bir dizi eğitim örneği üzerinde eğitilir. Her eğitim örneği, bir eğitim girdisi ve bir hedef çıktıdan oluşur; eğitim girdisi, bir eğitim belgesinin eğitim görüntüsünü içerir. Hedef çıktı, ilgili bir anahtar/değer çiftini çevreleyen eğitim görüntüsündeki sınırlayıcı kutuları tanımlayan verileri içerir.

Belge bir faturadır.

belge işleme - müşteri faturası

Bir algılama modeline bir belgenin görüntüsünün sağlanması şunları içerir: kağıdın belirli bir sınıfını tanımlama; ve belge fikrini, belirli türün kopyalarını işlemek için eğitilmiş bir algılama modeline sağlamak.

  • Sınırlayıcı kutunun içine alınan metinsel verilerin bir anahtar/değer çifti tanımlayıp tanımlamadığının belirlenmesi şunları içerir:
  • Sınırlayıcı kutunun sahip olduğu metinsel bilginin önceden belirlenmiş bir dizi geçerli anahtardan bir anahtar içerdiğine karar vermek;
  • Anahtara sahip olmayan sınırlayıcı kutu tarafından tutulan metinsel verilerin bir bölümünün türünü bulma; anahtara karşılık gelen değerler için uygun çeşitlerin yerini belirleme
  • Anahtarı içermeyen sınırlayıcı kutu tarafından çevrelenen metin verilerinin parçasının stilinin seçilmesi, anahtara karşılık gelen değerler için geçerli türler kümesine dahil edilir.
  • Anahtara karşılık gelen değerler için geçerli bir türler kümesinin aşağıdakileri içerdiğini öğrenmek: önceden belirlenmiş bir eşleme kullanarak anahtarın, anahtara karşılık gelen değerler için uygun türlerin koleksiyonuna eşlenmesi.

Geçerli anahtarlar kümesi ve anahtarlara karşılık gelen değerler için anahtarlardan karşılık gelen konumlara eşleme, bir kullanıcı tarafından sağlanır.

Sınırlayıcı kutular dikdörtgen bir şekle sahiptir.

Yöntem ayrıca şunları içerir: belgenin bir kullanıcıdan alınması; ve kağıdın bir resme dönüştürülmesi, ki burada resim belgeyi tasvir ediyor.

Belge işleme sistemi tarafından gerçekleştirilen bir yöntem olup, yöntem aşağıdakileri içerir:

  • Bir belgenin görüntüsünün, kritik metinsel verileri ve değer metinsel verilerini içeren bir anahtar/değer çiftini kapsayacağı tahmin edilen görüntü sınırlayıcı kutularda tanımlanacak şekilde işlemek üzere yapılandırılan bir algılama modeline sağlanması, burada anahtar, karşılık gelen bir değeri karakterize eden bir etiketi tanımlar. anahtara; görüntü için oluşturulan sınırlayıcı kutuların her biri için,
  • Bir optik karakter tanıma tekniği kullanarak sınırlayıcı kutunun içine aldığı metinsel verileri tanımlama ve sınırlayıcı kutu tarafından tutulan metinsel bilgilerin bir anahtar-değer çifti tanımlayıp tanımlamadığını belirleme
  • Belgeyi karakterize etmede kullanılmak üzere anahtar/değer ekibinin çıktısının alınması.

Algılama modeli, bir eğitim veri setinde eğitilebilen parametrelere sahip bir makine öğrenimi modelidir.

Makine öğrenimi modeli, bir sinir ağı modeli, özellikle bir evrişimli sinir ağı içerir.

Makine öğrenimi modeli bir dizi eğitim örneğinde eğitilir ve her eğitim örneğinin bir eğitim girdisi ve bir hedef çıktısı vardır.

Eğitim girdisi, bir eğitim belgesinin eğitim görüntüsünü içerir. Hedef çıktı, eğitim görüntüsünde her biri ilgili bir anahtar/değer çiftini kapsayan veri tanımlayan sınırlayıcı kutular içerir.

Belge bir faturadır.

Bir algılama modeline bir belgenin görüntüsünün sağlanması şunları içerir: kağıdın belirli bir sınıfını tanımlama; ve belge fikrini, belirli türdeki belgeleri işlemek için eğitilmiş bir algılama modeline sağlamak.

Anahtar/Değer Çifti mi?

Sınırlayıcı kutunun içine alınan metinsel verilerin bir anahtar/değer çifti tanımlayıp tanımlamadığını belirlemek şu anlama gelir:

  • Sınırlayıcı kutunun sahip olduğu metinsel bilginin önceden belirlenmiş bir dizi geçerli anahtardan bir anahtar içerdiğine karar verme
  • Anahtara sahip olmayan sınırlayıcı kutu tarafından tutulan metinsel verilerin bir bölümünün türünü bulma
  • Anahtara karşılık gelen değerler için uygun çeşitlerin yerinin not edilmesi
  • Anahtarı içermeyen sınırlayıcı kutu tarafından çevrelenen metin verilerinin parçasının stilinin, anahtara karşılık gelen değerler için geçerli türler kümesine dahil edilmesinin seçilmesi.

Anahtara karşılık gelen değerler için bir dizi geçerli türün belirlenmesi şunları içerir: önceden belirlenmiş bir eşleme kullanarak anahtarın, anahtara karşılık gelen değerler için uygun türlerin koleksiyonuna eşlenmesi.

Geçerli anahtarlar kümesi ve anahtarlara karşılık gelen değerler için anahtarlardan karşılık gelen konumlara eşleme, bir kullanıcı tarafından sağlanır.

Sınırlayıcı kutular dikdörtgen bir şekle sahiptir.

Yöntem ayrıca şunları içerir: belgenin bir kullanıcıdan alınması; ve kağıdın bir resme dönüştürülmesi, ki burada resim belgeyi tasvir ediyor.

Bir başka yöne göre, aşağıdakileri içeren bir sistem vardır: bilgisayarlar; ve bilgisayarlara bağlı depolama aygıtları, burada depolama aygıtları, bilgisayarlar tarafından yürütüldüğünde bilgisayarların daha önce açıklanan yöntemin işlemlerini içeren işlemleri gerçekleştirmesine neden olan talimatları depolar.

Bu Belge İşlem Yaklaşımının Avantajları

belge işleme-akış şeması

Bu belirtimde açıklanan sistem, çok sayıda yapılandırılmamış belgeyi yapılandırılmış anahtar/değer çiftlerine dönüştürmek için kullanılabilir. Böylece sistem, pahalı, zaman alıcı ve hataya açık olabilen yapılandırılmamış belgelerden yapılandırılmış verilerin çıkarılması ihtiyacını ortadan kaldırır.

Bu belirtimde açıklanan sistem, belgelerdeki anahtar/değer çiftlerini yüksek düzeyde doğrulukla (örneğin, bazı belge türleri için %99'dan fazla doğrulukla) tanımlayabilir. Bu nedenle sistem, yüksek düzeyde doğruluk gerektiren uygulamalarda (örneğin, mali belgelerin işlenmesi) kullanıma uygun olabilir.

Bu spesifikasyonda açıklanan sistem, bazı geleneksel sistemlerden daha iyi genelleme yapabilir, yani bazı geleneksel yöntemlere kıyasla gelişmiş genelleme yeteneklerine sahiptir.

Özellikle, belgelerdeki anahtar/değer çiftlerini ayırt eden görsel sinyalleri tanımak üzere eğitilmiş, makine tarafından öğrenilen bir algılama modelinden yararlanarak sistem, kağıtların belirli stili, yapısı veya içeriğinin anahtar/değer çiftlerini tanımlayabilir.

Belge İşleme Patentinde Anahtar-Değer Çiftlerinin Belirlenmesi

Belgelerdeki anahtar/değer çiftlerini belirleme
Mucitler: Yang Xu, Jiang Wang ve Shengyang Dai
Atanan: Google LLC
ABD Patenti: 11.288.719
Verildi: 29 Mart 2022
Dosyalanma: 27 Şubat 2020

Soyut

Yapılandırılmamış belgeleri yapılandırılmış anahtar/değer çiftlerine dönüştürmek için bir bilgisayar depolama ortamında kodlanmış bilgisayar programları da dahil olmak üzere yöntemler, sistemler ve aygıtlar.

Bir yönde, bir yöntem şunları içerir: bir belgenin görüntüsünü bir algılama modeline sağlamak, burada: algılama modeli, görüntü için oluşturulan sınırlayıcı kutuları tanımlayan bir çıktı oluşturmak üzere görüntüyü işlemek üzere yapılandırılır; ve görüntü için oluşturulan her bir sınırlayıcı kutunun, anahtar metinsel verileri ve değer metinsel verilerini içeren bir anahtar-değer çiftini kapsaması tahmin edilir, burada anahtar metinsel veriler, değer metinsel verilerini karakterize eden bir etiketi tanımlar ve bunun için oluşturulan sınırlayıcı kutuların her biri için. görüntü: bir optik karakter tanıma tekniği kullanılarak sınırlayıcı kutunun içinde yer alan metinsel verilerin tanımlanması ve sınırlayıcı kutunun içine alınmış metinsel verilerin bir anahtar-değer çifti tanımlayıp tanımlamadığının belirlenmesi.

Örnek Bir Ayrıştırma Sistemi

Ayrıştırma sistemi, aşağıda açıklanan sistemlerin, bileşenlerin ve tekniklerin uygulandığı yerlerde bilgisayarlarda bilgisayar programları olarak uygulanan bir yöntem örneğidir.

Ayrıştırma sistemi, kağıttaki anahtar/değer çiftlerini tanımlamak için bir belgeyi (örneğin bir fatura, ödeme fişi veya satış makbuzu) işlemek üzere yapılandırılır. Bir "anahtar-değer çifti", bir anahtara ve buna karşılık gelen bir değere, genellikle metinsel verilere atıfta bulunur. “Metinsel veriler” en azından şu anlama gelecek şekilde anlaşılmalıdır: alfabetik karakterler, sayılar ve özel simgeler. Daha önce açıklandığı gibi, bir anahtar, karşılık gelen bir değeri karakterize eden bir etiketi tanımlar.

Sistem belgeyi çeşitli şekillerde alabilir.

Örneğin, sistem, bir veri iletişim ağı üzerinden (örneğin, sistem tarafından sağlanan bir uygulama programlama arayüzü (API) kullanarak) uzaktaki bir sistem kullanıcısından bir yükleme olarak kağıdı alabilir. Belge, örneğin bir Taşınabilir Belge Formatı (PDF) belgesi veya bir görüntü belgesi (örneğin, bir Taşınabilir Ağ Grafikleri (PNG) veya Ortak Fotoğraf Uzmanları Grubu (JPEG) belgesi) gibi herhangi bir uygun yapılandırılmamış veri formatında temsil edilebilir.

Belge İşlemede Anahtar-Değer Çiftlerini Tanımlayın

Sistem, belge işlemede anahtar/değer çiftlerini belirlemek için bir algılama modeli, bir optik karakter tanıma (OCR) motoru ve bir filtreleme motoru kullanır.

Algılama modeli, resimdeki sınırlayıcı kutuları tanımlayan bir çıktı oluşturmak için belgenin bir görüntüsünü işlemek üzere yapılandırılır. Her birinin, ilgili bir anahtar/değer çiftini temsil eden metinsel verileri içermesi öngörülmektedir. Diğer bir deyişle, her sınırlayıcı kutunun aşağıdakileri tanımlayan metinsel bilgilere sahip olması beklenir:

(i) bir anahtar ve
(ii) anahtara karşılık gelen bir değer. Örneğin, bir sınırlayıcı kutu, "Ad" anahtarını ve karşılık gelen "John Smith" değerini tanımlayan "Ad: John Smith" metin verilerini içerebilir. Tespit modeli, tek bir anahtar-değer çiftini (yani, birçok anahtar-değer çifti yerine) kapsayan sınırlayıcı kutular oluşturmak üzere konfigüre edilebilir.

Belgenin görüntüsü, kağıdın görsel görünümünü temsil eden sıralı bir sayısal değerler topluluğudur. Görüntü, belgenin siyah beyaz bir görüntüsü olabilir. Bu örnekte, resim iki boyutlu sayısal yoğunluk değerleri dizisi olarak tanımlanabilir. Başka bir örnek olarak, görüntü, belgenin renkli bir görüntüsü olabilir. Bu örnekte, resim çok kanallı bir resim olarak gösterilebilir. Her kanal ilgili bir renge (örneğin kırmızı, yeşil veya mavi) karşılık gelir ve iki boyutlu sayısal yoğunluk değerleri dizisi olarak tanımlanır.

Sınırlayıcı kutular dikdörtgen sınırlayıcı kutular olabilir. Dikdörtgen bir sınırlayıcı kutu, sınırlayıcı kutunun belirli bir köşesinin koordinatları ve sınırlayıcı kabın karşılık gelen genişliği ve yüksekliği ile temsil edilebilir. Daha genel olarak, diğer sınırlayıcı kutu şekilleri ve sınırlayıcı kutuları temsil etmenin başka yolları da mümkündür.

Algılama modeli, belgede bulunan herhangi bir çerçeveyi veya sınırı görsel sinyaller olarak tanıyabilir ve kullanabilirken, sınırlayıcı kutular, kağıtta geçerli olan herhangi bir mevcut sınır yapısıyla hizalanmak (yani, çakışmak) ile sınırlandırılmaz. Ayrıca sistem, belge görüntüsünde sınırlayıcı kutuları göstermeden sınırlayıcı kutular üretebilir.

Yani sistem, sistemin bir kullanıcısına sınırlayıcı kutuların konumuna dair görsel bir işaret vermeden sınırlayıcı paketleri tanımlayan verileri üretebilir.

Algılama modeli genellikle bir makine öğrenimi modelidir, yani bir dizi eğitim verisi üzerinde eğitilebilen bir dizi parametreye sahip bir modeldir. Eğitim verileri, her biri aşağıdakileri içeren birçok eğitim örneğini içerir:

(i) bir eğitim belgesini gösteren bir eğitim görüntüsü ve
(ii) sınırlayıcı kutuları tanımlayan bir hedef çıktı, eğitim görüntüsünde ilgili bir anahtar/değer çiftini içine alır.

Eğitim verileri, manuel açıklama ile, yani eğitim belgesindeki anahtar/değer çiftlerinin etrafındaki sınırlayıcı kutuları tanımlayan bir kişi tarafından (örneğin, uygun bir açıklama yazılımı kullanarak) oluşturulabilir.

Algılama modelini bir dizi eğitim verisi üzerinde makine öğrenimi tekniklerini kullanarak eğitmek, onun belgelerdeki anahtar/değer çiftlerini tanımlamasına izin verecek görsel sinyalleri tanımasını sağlar. Örneğin, saptama modeli, anahtar-değer çiftlerini tanımlamak için yerel sinyalleri (örneğin metin stilleri ve kelimelerin göreli uzamsal konumları) ve global sinyalleri (örneğin, belgede sınırların varlığı) tanımak üzere eğitilebilir.

Tespit modelinin kayıtlardaki anahtar/değer ekiplerini hatırlamasını sağlayan görsel ipuçları, genellikle belgedeki kelimelerin açık anlamlarını temsil eden sinyalleri içermez.

Anahtar-Değer Çiftlerini Ayırt Eden Görsel Sinyaller

Belgelerdeki anahtar/değer çiftlerini ayırt eden görsel sinyalleri tanımak için algılama modelinin eğitilmesi, algılama modelinin algılama modelini hazırlamak için kullanılan eğitim verilerinin ötesinde "genelleştirilmesini" sağlar. Eğitilmiş algılama modeli, kopya algılama modelini eğitmek için kullanılan eğitim verilerine dahil edilmemiş olsa bile, kağıttaki anahtar/değer çiftlerini kapsayan sınırlayıcı kutular oluşturmak için bir belgeyi tasvir eden bir görüntüyü işleyebilir.

Bir örnekte, algılama modeli, "nesnelerin" belgedeki anahtar-değer çiftlerine karşılık geldiği bir sinir ağı nesne algılama modeli (örneğin, evrişimli sinir ağları dahil) olabilir. Sinir ağı modelinin eğitilebilir parametreleri, sinir ağı modelinin ağırlıklarını, örneğin sinir ağı modelinde evrişimsel filtreleri tanımlayan ağırlıkları içerir.

Sinir ağı modeli, örneğin stokastik gradyan inişi gibi uygun bir makine öğrenimi eğitim prosedürü kullanılarak eğitim veri seti üzerinde eğitilebilir. Özellikle, her eğitim yinelemesinde, sinir ağı modeli, eğitim görüntülerinde ilgili anahtar/değer çiftlerini içermesi öngörülen sınırlayıcı kutular oluşturmak için eğitim örneklerinden oluşan bir "partiden" (yani bir dizi) eğitim görüntülerini işleyebilir. Sistem, sinir ağı modeli tarafından üretilen sınırlayıcı kutular ile eğitim örneklerinin karşılık gelen hedef çıktıları tarafından belirtilen sınırlayıcı kutular arasındaki benzerlik ölçüsünü karakterize eden bir amaç fonksiyonunu test edebilir.

İki sınırlayıcı kutu arasındaki benzerliğin ölçüsü, örneğin, sınırlayıcı kutuların ilgili köşeleri arasındaki mesafelerin karelerinin toplamı olabilir. Sistem, sinir ağı parametre değerlerini (örneğin, geri yayılımı kullanarak) kazanan amaç fonksiyonunun gradyanlarını belirleyebilir ve bundan sonra mevcut sinir ağı parametre değerlerini ayarlamak için eğimleri kullanabilir.

Özellikle sistem, gradyanları kullanarak mevcut sinir ağı parametre değerlerini ayarlamak için herhangi bir uygun gradyan iniş optimizasyon algoritmasından (örneğin Adam veya RMSprop) parametre güncelleme kuralını kullanabilir. Sistem, bir eğitim sonlandırma kriteri karşılanana kadar sinir ağı modelini eğitir (örneğin, önceden belirlenmiş sayıda eğitim yinelemesi gerçekleştirilene veya eğitim yinelemeleri arasındaki nesne amaç fonksiyonunun değerindeki bir değişiklik önceden belirlenmiş bir eşiğin altına düşene kadar).

Tespit modelini kullanmadan önce, sistem belgenin bir "sınıfını" tanımlayabilir (örneğin, fatura, ödeme fişi veya satış fişi). Sistemin bir kullanıcısı, belgeyi sisteme sağladığında kaydın sınıfını belirleyebilir. Yöntem, makalenin sınıfını sınıflandırmak için bir sınıflandırma sinir ağı kullanabilir. Sistem, belgedeki metni tanımlamak için OCR tekniklerini kullanabilir ve ardından belgenin stilini belgedeki metne göre yerleştirebilir. Belirli bir örnekte, "Net Pay" ifadesinin belirlenmesine yanıt olarak sistem, kağıt sınıfını bir "ödeme koçu" olarak tanımlayabilir.

Başka bir özel örnekte, "Satış vergisi" ifadesinin tanımlanmasına yanıt olarak sistem, belgenin sınıfını "fatura" olarak tanımlayabilir. Kaydın belirli sınıfını belirledikten sonra sistem, belirli sınıfın kopyalarını işlemek için eğitilen bir algılama modeli kullanabilir. Yöntem, yalnızca belgeyle aynı sınıfa ait belgeleri içeren eğitim verileri üzerinde eğitilmiş bir algılama modeli kullanabilir.

Belgeyle aynı sınıftaki belgeleri işlemek için eğitilmiş bir algılama modelinin kullanılması, algılama modelinin performansını artırabilir (örneğin, algılama modelinin daha yüksek doğrulukla anahtar/değer çiftleri etrafında sınırlayıcı kutular oluşturmasını sağlayarak).

Her sınırlayıcı kutu için sistem, sınırlayıcı kutu tarafından tutulan metin verilerini (yani metni) tanımlamak için OCR motorunu kullanarak görüntünün sınırlayıcı kutu tarafından çevrelenen kısmını işler. Özellikle, OCR motoru, sınırlayıcı kutunun içerdiği her bir alfabetik, sayısal veya benzersiz karakteri tanımlayarak bir sınırlayıcı kutunun içerdiği metni tanımlar. OCR motoru, bir sınırlayıcı kutuyla çevrelenen metni tanımlamak için uygun herhangi bir tekniği kullanabilir.

Filtreleme motoru, bir sınırlayıcı kutuyla çevrelenen metnin bir anahtar/değer çiftini temsil edip etmediğini belirler. Filtreleme motoru, sınırlayıcı kutuyu çevreleyen metnin bir anahtar/değer çiftini uygun şekilde temsil edip etmediğine karar verebilir. Örneğin, filtreleme motoru, sınırlayıcı kutu tarafından çevrelenen metnin, belirli bir sınırlayıcı kutu için önceden belirlenmiş bir dizi sağ anahtardan geçerli bir anahtar içerip içermediğini belirleyebilir. Örneğin, geçerli anahtarların koleksiyonu şunlardan oluşabilir: "Tarih", "Saat", "Fatura Numarası", "Ödenmesi Gereken Tutar" ve benzerleri.

Sınırlama kutusu tarafından çevrelenen metnin geçerli bir anahtar içerip içermediğini belirlemek için metnin farklı bölümlerini karşılaştırırken, filtreleme motoru, aynı olmasalar bile iki metin parçasının "eşleştiğini" belirleyebilir. Örneğin, filtreleme motoru, farklı büyük harf kullanımı veya noktalama işaretleri içerseler bile okuyucunun iki bölümünün eşleştiğini belirleyebilir (örneğin, filtreleme sistemi bu "Tarih", "Tarih:" "tarih" ve "tarihi" belirleyebilir: hepsi eşleşiyor).

Sınırlayıcı kutunun çevrelediği metnin sağ anahtarlardan geçerli bir anahtar içermediğini belirlemeye yanıt olarak, filtreleme motoru, sınırlayıcı kutuyla çevrelenen metnin bir anahtar/değer çiftini temsil etmediğini belirler.

Sınırlama kutusu tarafından çevrelenen metnin geçerli bir anahtar içerdiğini belirlemeye yanıt olarak, filtreleme motoru, sınırlama kutusu tarafından çevrelenen metnin anahtar olarak tanımlanmayan kısmının bir "türünü" (örneğin, alfabetik, sayısal, zamansal) tanımlar ( yani, "anahtar olmayan" metin). Örneğin, filtreleme motorunun anahtar olarak "Tarih:"i tanımladığı (daha önce açıklandığı gibi) "Tarih: 2-23-2019" metnine sahip bir sınırlayıcı kutu için, filtreleme motoru, -anahtar metni “2-23-2019”, “geçici” olarak.

Filtreleme motoru, anahtar olmayan metnin türünü tanımlamanın yanı sıra, anahtara karşılık gelen değerler için bir dizi geçerli tür tanımlar. Özellikle, filtreleme motoru, anahtarı, önceden belirlenmiş bir eşleme ile anahtara karşılık gelen değerler için bir grup yararlı veri türüyle eşleyebilir. Örneğin, filtreleme motoru, "Ad" anahtarını karşılık gelen "alfabetik" değer veri türüyle eşleyebilir ve bu, anahtara karşılık gelen değerin alfabetik bir veri türüne (örneğin, "John Smith") sahip olması gerektiğini belirtir.

Başka bir örnek olarak, filtreleme motoru "Tarih" anahtarını karşılık gelen "geçici" değer veri türüyle eşleyebilir ve bu, anahtara karşılık gelen değerin geçici bir veri türüne (örneğin, "2-23-2019" veya " 17:30:22”).

Filtreleme motoru, anahtar olmayan metnin türünün, anahtara karşılık gelen değerler için geçerli türler kümesine dahil edilip edilmeyeceğini belirler. Anahtar olmayan metnin stilinin, göstergeye karşılık gelen değerler için uygun türlerin koleksiyonuna dahil edildiğini belirlemeye yanıt olarak, filtreleme motoru, sınırlama kutusuyla çevrelenen metnin bir anahtar-değer çiftini temsil ettiğini belirler. Özellikle filtreleme motoru, anahtar olmayan metni anahtara karşılık gelen değer olarak tanımlar. Aksi takdirde, filtreleme motoru, sınırlayıcı kutunun içindeki metnin bir anahtar/değer çiftini temsil etmediğini belirler.

Geçerli anahtarlar kümesi ve sağ anahtarlardan geçerli anahtarlara karşılık gelen değerler için yararlı veri türlerinin konumlarına eşleme, bir sistem kullanıcısı tarafından sağlanabilir (örneğin, sistem tarafından sağlanan bir API aracılığıyla).

Filtreleme motorunu kullanarak ilgili sınırlayıcı kutularla çevrelenen metinden anahtar/değer çiftlerini belirledikten sonra, sistem tanımlanan anahtar/değer çiftlerini çıktı olarak verir. Örneğin sistem, bir veri iletişim ağı üzerinden (örneğin, sistem tarafından kullanıma sunulan bir API kullanarak) sistemin uzak bir kullanıcısına anahtar/değer takımları sağlayabilir. Başka bir örnek olarak, sistem, tanımlanmış anahtar/değer çiftlerini tanımlayan verileri, sistem kullanıcısının erişebileceği bir veritabanında (veya başka bir veri yapısında) saklayabilir.

Bazı durumlarda, bir sistem kullanıcısı, sistemin belgedeki belirli anahtara karşılık gelen değeri tanımlamasını isteyebilir (örneğin, "Fatura Numarası"). Bu durumlarda, kayıttaki her anahtar/değer çiftini belirlemek ve sağlamak yerine, sistem ilgili sınırlayıcı kutulara yerleştirilen metni, istenen anahtar/değer çifti sıralanan anahtar/değer çiftini tanıyana ve yürütene kadar işleyebilir.

Yukarıda açıklandığı gibi, algılama modeli, her biri ilgili bir anahtar/değer çiftini kapsayan sınırlayıcı kutular oluşturmak üzere eğitilebilir. Veya tek bir algılama modeli kullanmak yerine sistem şunları içerebilir:

(i) ilgili anahtarları kapsayan sınırlayıcı kutular oluşturmak üzere eğitilen bir "anahtar algılama modeli" ve
(ii) ilgili değerleri kapsayan sınırlayıcı kutular oluşturmak için eğitilen bir "değer saptama modeli".

Sistem, anahtar sınırlama kutularından anahtar/değer çiftlerini ve değer sınırlama kutularını uygun şekilde tanımlayabilir. Örneğin, bir anahtar sınırlayıcı kutu ve bir değer sınırlayıcı kutu içeren her bir sınırlayıcı kutu takımı için sistem, aşağıdakilere dayalı olarak bir "eşleşme puanı" oluşturabilir:

(i) sınırlayıcı kutuların uzamsal yakınlığı,
(ii) anahtar sınırlama kutusunun geçerli bir anahtarı içerip içermediği ve
(iii) değer sınırlayıcı kutunun içerdiği değer türünün, anahtara karşılık gelen değerler için bir dizi geçerli türe dahil edilip edilmediği.

Anahtar sınırlama kutusu ile değer sınırlama kutusu arasındaki eşleşme skoru bir eşiği aşarsa, sistem bir anahtar sınırlama kutusuyla çevrelenen anahtarı ve bir değer sınırlama kutusuyla çevrelenen değeri anahtar-değer çifti olarak tanımlayabilir.

Fatura Belgesi Örneği

Belge işleme sisteminin bir kullanıcısı, faturayı (örneğin, taranmış bir görüntü veya bir PDF dosyası olarak) ayrıştırma sistemine sağlayabilir.

Sınırlama kutuları, ayrıştırma sisteminin algılama modeli tarafından oluşturulur. Her sınırlayıcı kutunun, bir anahtar/değer çiftini tanımlayan metin verilerini içermesi beklenir. Algılama modeli, metin içeren bir sınırlayıcı kutu oluşturmaz (yani, "İşiniz için teşekkür ederiz!") çünkü bu metin bir anahtar/değer çiftini temsil etmez.

Ayrıştırma sistemi, her bir sınırlayıcı kutunun içindeki metni tanımlamak için OCR tekniklerini kullanır ve ardından, sınırlayıcı kutular tarafından çevrelenen iyi anahtar/değer çiftlerini tanımlar.

Sınırlayıcı kutunun içinde anahtar (yani, "Tarih:") ve değer (yani, "2-23-2019").

Anahtar/Değer Çiftleri ve Belge İşleme

Bu belirtim tarafından programlanan bir ayrıştırma sistemi, belge işlemeyi gerçekleştirebilir.

Sistem, bir veri iletişim ağı üzerinden (örneğin, sistem tarafından kullanıma sunulan bir API kullanılarak) uzaktaki bir sistem kullanıcısından bir belgeyi karşıya yükleme olarak alır. Belge, bir PDF belgesi veya bir resim belgesi (örneğin, bir PNG veya JPEG belgesi) gibi herhangi bir uygun yapılandırılmamış veri biçiminde gösterilebilir.

Sistem belgeyi bir görüntüye, yani kağıdın görsel görünümünü temsil eden sıralı sayısal değerler koleksiyonuna dönüştürür. Örneğin, görüntü, iki boyutlu sayısal yoğunluk değerleri dizisi olarak tanımlanan belgenin siyah beyaz bir görüntüsü olabilir.

Belgenin görüntüsünde sınırlayıcı kutuları tanımlayan bir çıktı oluşturmak için bir dizi algılama modeli parametresi ile. Her sınırlayıcı kutunun, kritik metinsel verileri ve değer metin verilerini içeren bir anahtar-değer çiftini kapsaması öngörülür; burada anahtarın değeri karakterize eden bir etiketi tanımladığı yer.

Algılama modeli, evrişimli sinir ağlarını içeren bir nesne algılama modeli olabilir.

Haberleri Doğrudan Gelen Kutunuza Arayın

Bu alan doğrulama amaçlıdır ve değiştirilmeden bırakılmalıdır.

*Gerekli