구조화된 키-값 쌍을 사용한 문서 처리

게시 됨: 2022-03-31

왜 이 문서 처리 시스템에서 키-값 쌍을 사용합니까?

이 게시물을 작성하는 것은 키-값 쌍이 2007년 특허의 중요한 측면이었던 지역 검색 및 구조화된 데이터에 대해 썼던 2007년 게시물을 생각나게 했습니다. 게시물은 다음과 같습니다.

Google 지역 검색의 구조화된 정보.

Google이 여기와 같은 문서 처리 시스템에 키-값 쌍을 삽입하는 방법에 대해 기계 학습 접근 방식을 핵심으로 하여 기술 SEO에 진입하는 방법에 대해 작성하는 것을 보고 매우 흥미롭게 생각했습니다.

키-값 Ppair의 사용법은 15년이 지난 지금도 여전히 중요합니다.

Google에서 문서 처리

키 값 쌍으로 문서 처리

문서 처리(예: 송장, 급여 명세서, 판매 영수증 등)를 이해하는 것은 중요한 비즈니스 요구 사항입니다. 엔터프라이즈 데이터의 많은 부분(예: 90% 이상)이 저장되고 구조화되지 않은 문서로 표시됩니다. 레코드에서 구조화된 데이터를 추출하는 것은 비용이 많이 들고 시간이 많이 걸리며 오류가 발생하기 쉽습니다.

이 특허는 구조화되지 않은 문서를 구조화된 키-값 쌍으로 변환하는 위치에서 컴퓨터의 컴퓨터 프로그램으로 구현되는 문서 처리 구문 분석 시스템 및 방법을 설명합니다.

구문 분석 시스템은 문서에서 "핵심" 텍스트 데이터와 해당 "값" 텍스트 데이터를 식별하기 위해 처리를 문서화하도록 구성됩니다. 키는 해당 값을 특징짓는(즉, 설명하는) 레이블을 정의합니다.

예를 들어 "Date" 키가 "2-23-2019" 값에 해당할 수 있습니다.

문서의 이미지를 탐지 모델에 제공하는 데이터 처리 장치에 의해 수행되는 방법이 있으며, 여기서 탐지 모델은 경계 상자를 정의하는 출력을 생성하기 위해 복수의 탐지 모델 매개변수의 값으로 이미지를 처리하도록 구성됩니다. 아이디어를 위해 생성되었습니다.

이미지에 대해 생성된 각 경계 상자는 중요한 텍스트 데이터 및 값 텍스트 데이터를 포함하는 키-값 쌍을 포함하도록 예측되며, 여기서 필요한 텍스트 데이터는 텍스트 값 데이터를 특성화하는 레이블을 정의합니다.

이미지에 대해 생성된 각각의 경계 상자: 광학 문자 인식 기술을 사용하여 경계 상자로 둘러싸인 텍스트 정보를 식별합니다. 바운딩 박스에 의해 보유된 텍스트 데이터가 키-값 쌍을 정의하는지 여부를 결정하는 단계; 및 바운딩 박스에 의해 둘러싸인 텍스트 데이터가 키-값 쌍을 나타낸다는 결정에 응답하여, 문서를 특성화하는데 사용하기 위한 키-값 커플을 제공하는 단계를 포함한다.

탐지 모델은 신경망 모델입니다.

신경망 모델은 합성곱 신경망으로 구성됩니다.

신경망 모델은 일련의 훈련 예제에서 훈련됩니다. 각 훈련 예제는 훈련 입력과 목표 출력을 포함합니다. 훈련 입력에는 훈련 문서의 훈련 이미지가 포함됩니다. 대상 출력에는 각 키-값 쌍을 포함하는 교육 이미지의 경계 상자를 정의하는 데이터가 포함됩니다.

문서는 송장입니다.

문서 처리 - 고객 송장

문서의 이미지를 탐지 모델에 제공하는 단계는, 종이의 특정 클래스를 식별하는 단계; 및 특정 유형의 사본을 처리하도록 훈련된 탐지 모델에 문서의 아이디어를 제공하는 단계를 포함합니다.

경계 상자로 묶인 텍스트 데이터가 키-값 쌍을 정의하는지 여부를 결정하는 것은 다음으로 구성됩니다.
바운딩 박스가 소유한 텍스트 정보가 미리 결정된 유효 키 세트로부터의 키를 포함한다고 결정하는 단계;
키가 없는 경계 상자에 포함된 텍스트 데이터의 일부 유형 찾기; 키에 해당하는 값에 적합한 품종의 위치 식별
키를 포함하지 않는 경계 상자로 묶인 텍스트 데이터 부분의 스타일이 키에 해당하는 값의 유효한 유형 집합에 포함되도록 선택합니다.
키에 대응하는 값에 대한 유효 유형 세트를 학습하는 단계는 미리 결정된 맵핑을 사용하여 키에 대응하는 값에 대한 적합한 유형의 콜렉션에 키를 맵핑하는 단계를 포함한다.

유효한 키 세트와 키에서 해당 키에 해당하는 값에 대한 적절한 유형의 해당 위치로의 매핑은 사용자가 제공합니다.

경계 상자는 직사각형 모양입니다.

방법은 사용자로부터 문서를 수신하는 단계; 및 종이를 이미지로 변환하는 단계를 포함하며, 그림은 문서를 묘사합니다.

문서 처리 시스템에 의해 수행되는 방법으로서,

중요한 텍스트 데이터 및 값 텍스트 데이터를 포함하는 키-값 쌍을 포함하는 것으로 예측된 이미지 경계 상자에서 식별하기 위해 이미지를 처리하도록 구성된 탐지 모델에 문서의 이미지를 제공하고, 여기서 키는 해당 값을 특성화하는 레이블을 정의합니다. 키에; 이미지에 대해 생성된 각 경계 상자에 대해
광학 문자 인식 기술을 사용하여 경계 상자로 둘러싸인 텍스트 데이터 식별 및 경계 상자에 포함된 텍스트 정보가 키-값 쌍을 정의하는지 확인
문서를 특성화하는 데 사용할 키-값 팀을 출력합니다.

탐지 모델은 훈련 데이터 세트에서 훈련할 수 있는 매개변수가 있는 기계 학습 모델입니다.

기계 학습 모델은 신경망 모델, 특히 컨볼루션 신경망을 포함합니다.

기계 학습 모델은 일련의 훈련 예제에서 훈련되고 각 훈련 예제에는 훈련 입력과 목표 출력이 있습니다.

훈련 입력은 훈련 문서의 훈련 이미지를 포함합니다. 대상 출력에는 각각의 키-값 쌍을 묶는 데이터 정의 경계 상자가 훈련 이미지에 포함됩니다.

문서는 송장입니다.

문서의 이미지를 탐지 모델에 제공하는 단계는, 종이의 특정 클래스를 식별하는 단계; 및 특정 유형의 문서를 처리하도록 훈련된 탐지 모델에 문서의 아이디어를 제공하는 단계를 포함합니다.

키-값 쌍입니까?

경계 상자로 묶인 텍스트 데이터가 키-값 쌍을 정의하는지 여부를 결정하는 것은 다음을 의미합니다.

바운딩 박스가 소유한 텍스트 정보가 미리 결정된 유효 키 세트의 키를 포함한다고 결정
키가 없는 경계 상자에 포함된 텍스트 데이터의 일부 유형 찾기
키에 해당하는 값에 적합한 품종의 위치 기록
키를 포함하지 않는 경계 상자로 둘러싸인 텍스트 데이터 부분의 스타일을 선택하면 키에 해당하는 값의 유효한 유형 집합에 포함됩니다.

키에 대응하는 값에 대한 유효 유형 세트를 식별하는 단계는 미리 결정된 맵핑을 사용하여 키에 대응하는 값에 대한 적절한 유형의 콜렉션에 키를 맵핑하는 단계를 포함한다.

유효한 키 세트와 키에서 해당 키에 해당하는 값에 대한 적절한 유형의 해당 위치로의 매핑은 사용자가 제공합니다.

경계 상자는 직사각형 모양입니다.

방법은 사용자로부터 문서를 수신하는 단계; 및 종이를 이미지로 변환하는 단계를 포함하며, 그림은 문서를 묘사합니다.

다른 양태에 따르면, 컴퓨터; 및 컴퓨터에 연결된 저장 장치를 포함하고, 여기서 저장 장치는 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 앞서 기술된 방법의 동작을 포함하는 동작을 수행하게 하는 명령어를 저장한다.

이 문서 처리 방식의 장점

문서 처리 순서도

이 사양에 설명된 시스템은 많은 수의 구조화되지 않은 문서를 구조화된 키-값 쌍으로 변환하는 데 사용할 수 있습니다. 따라서 시스템은 비용이 많이 들고 시간이 많이 걸리고 오류가 발생하기 쉬운 비정형 문서에서 구조화된 데이터를 추출할 필요가 없습니다.

이 사양에 설명된 시스템은 높은 수준의 정확도로 문서에서 키-값 쌍을 식별할 수 있습니다(예: 일부 문서 유형의 경우 99% 이상의 정확도). 따라서, 시스템은 높은 수준의 정확도를 필요로 하는 애플리케이션(예: 재무 문서 처리)에 배치하는 데 적합할 수 있습니다.

본 명세서에 기술된 시스템은 일부 기존 시스템보다 더 잘 일반화할 수 있습니다. 즉, 일부 기존 방법에 비해 일반화 기능이 개선되었습니다.

특히, 시스템은 문서에서 키-값 쌍을 구별하는 시각적 신호를 인식하도록 훈련된 기계 학습 감지 모델을 활용하여 문서의 특정 스타일, 구조 또는 내용의 키-값 쌍을 식별할 수 있습니다.

문서 처리 특허에서 키-값 쌍 식별

문서에서 키-값 쌍 식별
발명가: Yang Xu, Jiang Wang, Shengyang Dai
양수인: Google LLC
미국 특허: 11,288,719
부여: 2022년 3월 29일
출원일: 2020년 2월 27일

추상적인

구조화되지 않은 문서를 구조화된 키-값 쌍으로 변환하기 위한 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템 및 장치.
일 양태에서, 방법은 문서의 이미지를 검출 모델에 제공하는 단계로서, 검출 모델은 이미지에 대해 생성된 경계 상자를 정의하는 출력을 생성하기 위해 이미지를 처리하도록 구성되고; 이미지에 대해 생성된 각각의 경계 상자는 키 텍스트 데이터 및 값 텍스트 데이터를 포함하는 키-값 쌍을 포함하도록 예측되며, 여기서 키 텍스트 데이터는 값 텍스트 데이터를 특징짓는 레이블을 정의합니다. 이미지: 광학 문자 인식 기술을 사용하여 경계 상자로 둘러싸인 텍스트 데이터를 식별하고 경계 상자로 둘러싸인 텍스트 데이터가 키-값 쌍을 정의하는지 여부를 결정합니다.

구문 분석 시스템의 예

구문 분석 시스템은 아래에 설명된 시스템, 구성 요소 및 기술이 구현되는 위치의 컴퓨터에서 컴퓨터 프로그램으로 구현되는 방법의 한 예입니다.

구문 분석 시스템은 문서(예: 송장, 급여 명세서 또는 판매 영수증)를 처리하여 문서의 키-값 쌍을 식별하도록 구성됩니다. "키-값 쌍"은 키와 해당 값, 일반적으로 텍스트 데이터를 나타냅니다. "텍스트 데이터"는 최소한 알파벳 문자, 숫자 및 특수 기호를 참조하는 것으로 이해해야 합니다. 앞에서 설명한 것처럼 키는 해당 값을 특성화하는 레이블을 정의합니다.

시스템은 다양한 방식으로 문서를 수신할 수 있습니다.

예를 들어, 시스템은 데이터 통신 네트워크를 통해 원격 시스템 사용자로부터 업로드로서 페이퍼를 수신할 수 있습니다(예를 들어, 시스템에 의해 제공되는 API(응용 프로그래밍 인터페이스)를 사용하여). 문서는 PDF(Portable Document Format) 문서 또는 이미지 문서(예: PNG(Portable Network Graphics) 또는 JPEG(Joint Photographic Experts Group) 문서)와 같은 적절한 구조화되지 않은 데이터 형식으로 표시될 수 있습니다.

문서 처리에서 키-값 쌍 식별

시스템은 감지 모델, 광학 문자 인식(OCR) 엔진 및 필터링 엔진을 사용하여 문서 처리에서 키-값 쌍을 식별합니다.

감지 모델은 문서의 이미지를 처리하여 그림의 경계 상자를 정의하는 출력을 생성하도록 구성됩니다. 각각은 각각의 키-값 쌍을 나타내는 텍스트 데이터를 묶을 것으로 예측됩니다. 즉, 각 경계 상자에는 다음을 정의하는 텍스트 정보가 있어야 합니다.

(i) 키, 그리고
(ii) 키에 해당하는 값. 예를 들어 경계 상자는 키 "이름"과 해당 값 "John Smith"를 정의하는 텍스트 데이터 "Name: John Smith"를 묶을 수 있습니다. 검출 모델은 단일 키-값 쌍(즉, 많은 키-값 쌍보다)을 둘러싸는 경계 상자를 생성하도록 구성될 수 있습니다.

문서의 이미지는 문서의 시각적 모양을 나타내는 숫자 값의 정렬된 모음입니다. 이미지는 문서의 흑백 이미지일 수 있습니다. 이 예에서 그림은 숫자 강도 값의 2차원 배열로 설명될 수 있습니다. 다른 예로, 이미지는 문서의 컬러 이미지일 수 있다. 이 예에서 그림은 다채널 이미지로 표시될 수 있습니다. 각 채널은 각각의 색상(예: 빨강, 녹색 또는 파랑)에 해당하며 숫자 강도 값의 2차원 배열로 정의됩니다.

경계 상자는 직사각형 경계 상자일 수 있습니다. 직사각형 경계 상자는 경계 상자의 특정 모서리 좌표와 경계 컨테이너의 해당 너비 및 높이로 표시될 수 있습니다. 보다 일반적으로, 다른 경계 상자 모양 및 경계 상자를 나타내는 다른 방법이 가능합니다.

감지 모델이 문서에 있는 프레임이나 경계를 시각적 신호로 인식하고 사용할 수 있지만 경계 상자는 문서에 현재 존재하는 경계 구조와 정렬(즉, 일치)하도록 제한되지 않습니다. 더욱이, 시스템은 문서의 이미지에 경계 상자를 표시하지 않고 경계 상자를 생성할 수 있습니다.

즉, 시스템은 시스템 사용자에게 경계 상자의 위치에 대한 시각적 표시를 제공하지 않고 경계 패키지를 정의하는 데이터를 생성할 수 있습니다.

탐지 모델은 일반적으로 머신 러닝 모델, 즉 훈련 데이터 세트에 대해 훈련될 수 있는 매개변수 세트를 갖는 모델입니다. 훈련 데이터에는 다음과 같은 많은 훈련 예제가 포함되어 있습니다.

(i) 교육 문서를 묘사하는 교육 이미지,
(ii) 경계 상자를 정의하는 대상 출력은 훈련 이미지의 각 키-값 쌍을 묶습니다.

훈련 데이터는 수동 주석에 의해, 즉 훈련 문서에서 키-값 쌍 주위의 경계 상자를 식별하는 사람에 의해(예를 들어, 적절한 주석 소프트웨어를 사용하여) 생성될 수 있습니다.

일련의 훈련 데이터에 대해 기계 학습 기술을 사용하여 탐지 모델을 훈련하면 문서에서 키-값 쌍을 식별할 수 있는 시각적 신호를 인식할 수 있습니다. 예를 들어, 검출 모델은 키-값 쌍을 식별하기 위해 국부 신호(예를 들어, 텍스트 스타일 및 단어의 상대적 공간 위치) 및 전역 신호(예를 들어, 문서에서 경계의 존재)를 인식하도록 훈련될 수 있다.

탐지 모델이 레코드의 키-값 팀을 기억할 수 있도록 하는 시각적 단서는 일반적으로 문서에 있는 단어의 명시적 의미를 나타내는 신호를 포함하지 않습니다.

키-값 쌍을 구별하는 시각적 신호

문서에서 키-값 쌍을 구별하는 시각적 신호를 인식하도록 탐지 모델을 훈련하면 탐지 모델이 탐지 모델을 준비하는 데 사용되는 훈련 데이터 이상으로 "일반화"할 수 있습니다. 학습된 감지 모델은 해당 사본이 감지 모델을 학습시키는 데 사용된 학습 데이터에 포함되지 않은 경우에도 문서에서 키-값 쌍을 포함하는 경계 상자를 생성하기 위해 문서를 묘사하는 이미지를 처리할 수 있습니다.

일 예에서, 검출 모델은 (예를 들어, 컨볼루션 신경망을 포함하는) 신경망 객체 검출 모델일 수 있고, 여기서 "객체"는 문서의 키-값 쌍에 대응한다. 신경망 모델의 훈련 가능한 매개변수에는 신경망 모델의 가중치(예: 신경망 모델에서 컨볼루션 필터를 정의하는 가중치)가 포함됩니다.

신경망 모델은 적절한 기계 학습 훈련 절차, 예를 들어 확률적 경사하강법을 사용하여 훈련 데이터 세트에 대해 훈련될 수 있습니다. 특히, 각각의 훈련 반복에서, 신경망 모델은 훈련 이미지의 각각의 키-값 쌍을 둘러쌀 것으로 예측되는 경계 상자를 생성하기 위해 훈련 예들의 "배치"(즉, 세트)로부터 훈련 이미지를 처리할 수 있다. 시스템은 신경망 모델에 의해 생성된 경계 상자와 훈련 예시의 대응하는 목표 출력에 의해 지정된 경계 상자 사이의 유사성 측정을 특성화하는 목표 함수를 테스트할 수 있습니다.

2개의 경계 상자 사이의 유사성의 측정은 예를 들어 경계 상자의 각 정점 사이의 제곱 거리의 합일 수 있습니다. 시스템은 (예를 들어, 역전파를 사용하여) 신경망 매개변수 값을 획득한 목표 함수의 기울기를 결정할 수 있고 그 후에 현재 신경망 매개변수 값을 조정하기 위해 기울기를 사용할 수 있습니다.

특히, 시스템은 적절한 경사하강법 최적화 알고리즘(예: Adam 또는 RMSprop)의 매개변수 업데이트 규칙을 사용하여 경사를 사용하여 현재 신경망 매개변수 값을 조정할 수 있습니다. 시스템은 훈련 종료 기준이 충족될 때까지(예를 들어, 미리 결정된 훈련 반복 횟수가 수행될 때까지 또는 훈련 반복 사이의 객체 조준 함수 값의 변화가 미리 결정된 임계값 아래로 떨어질 때까지) 신경망 모델을 훈련합니다.

탐지 모델을 사용하기 전에 시스템은 문서의 "클래스"(예: 송장, 급여 명세서 또는 판매 영수증)를 식별할 수 있습니다. 시스템 사용자는 문서를 시스템에 제공할 때 레코드의 클래스를 식별할 수 있습니다. 이 방법은 분류 신경망을 사용하여 논문의 클래스를 분류할 수 있습니다. 시스템은 OCR 기술을 사용하여 문서의 텍스트를 식별한 후 문서의 텍스트를 기반으로 문서의 스타일을 배치할 수 있습니다. 특정 예에서, "순 지불"이라는 문구를 결정하는 것에 응답하여, 시스템은 종이 클래스를 "지급 명세서"로 식별할 수 있습니다.

다른 특정 예에서, "판매세"라는 문구를 식별하는 것에 응답하여, 시스템은 문서의 클래스를 "송장"으로 식별할 수 있다. 레코드의 특정 클래스를 식별한 후 시스템은 특정 클래스의 복사본을 처리하도록 훈련된 탐지 모델을 사용할 수 있습니다. 이 방법은 문서와 동일한 특정 클래스의 문서만 포함하는 훈련 데이터에 대해 훈련된 탐지 모델을 사용할 수 있습니다.

문서와 동일한 클래스의 문서를 처리하도록 훈련된 탐지 모델을 사용하면 탐지 모델의 성능이 향상될 수 있습니다(예: 탐지 모델이 키-값 쌍 주위에 더 높은 정확도로 경계 상자를 생성할 수 있게 함으로써).

각 경계 상자에 대해 시스템은 경계 상자에 포함된 텍스트 데이터(즉, 텍스트)를 식별하기 위해 OCR 엔진을 사용하여 경계 상자로 둘러싸인 이미지 부분을 처리합니다. 특히, OCR 엔진은 경계 상자로 묶인 각 알파벳, 숫자 또는 고유한 문자를 식별하여 경계 상자로 묶인 텍스트를 식별합니다. OCR 엔진은 적절한 기술을 사용하여 경계 상자로 둘러싸인 텍스트를 식별할 수 있습니다.

필터링 엔진은 경계 상자로 묶인 텍스트가 키-값 쌍을 나타내는지 여부를 결정합니다. 필터링 엔진은 경계 상자를 둘러싼 텍스트가 키-값 쌍을 적절하게 나타내는지 결정할 수 있습니다. 예를 들어, 필터링 엔진은 경계 상자에 의해 둘러싸인 텍스트가 주어진 경계 상자에 대해 미리 결정된 오른쪽 키 세트로부터 유효한 키를 포함하는지 여부를 결정할 수 있습니다. 예를 들어, 유효한 키 모음은 "날짜", "시간", "인보이스 번호", "미지급 금액" 등으로 구성될 수 있습니다.

경계 상자로 둘러싸인 텍스트가 유효한 키를 포함하는지 여부를 결정하기 위해 텍스트의 다른 부분을 비교할 때 필터링 엔진은 두 개의 텍스트가 동일하지 않더라도 "일치"한다고 결정할 수 있습니다. 예를 들어, 필터링 엔진은 판독기의 두 부분이 다른 대문자 또는 구두점을 포함하더라도 일치한다고 결정할 수 있습니다(예를 들어, 필터링 시스템은 "날짜", "날짜:" "날짜" 및 "날짜:"를 결정할 수 있습니다. 모두 일치).

경계 상자로 둘러싸인 텍스트에 올바른 키의 유효한 키가 포함되어 있지 않다는 결정에 대한 응답으로 필터링 엔진은 경계 상자로 둘러싸인 텍스트가 키-값 쌍을 나타내지 않는다고 결정합니다.

바운딩 박스로 둘러싸인 텍스트가 유효한 키를 포함한다는 결정에 응답하여, 필터링 엔진은 키로 식별되지 않은 바운딩 박스로 둘러싸인 텍스트 부분의 "유형"(예: 알파벳, 숫자, 시간)을 식별합니다( 즉, "키가 아닌" 텍스트). 예를 들어, 텍스트가 "Date: 2-23-2019"인 경계 상자의 경우 필터링 엔진이 "Date:"를 키로 식별하는 경우(앞서 설명한 대로) 필터링 엔진은 비 -키 텍스트 "2-23-2019"를 "임시"로.

키가 아닌 텍스트의 유형을 식별하는 것 외에도 필터링 엔진은 키에 해당하는 값에 대한 유효한 유형 집합을 식별합니다. 특히, 필터링 엔진은 미리 결정된 매핑에 의해 키에 대응하는 값에 대한 유용한 데이터 유형의 그룹에 키를 매핑할 수 있다. 예를 들어, 필터링 엔진은 키 "이름"을 해당 값 데이터 유형 "알파벳"에 매핑할 수 있으며, 이는 키에 대응하는 값이 알파벳순 데이터 유형(예: "John Smith")을 가져야 함을 나타냅니다.

다른 예로서, 필터링 엔진은 키 "Date"를 해당 값 데이터 유형 "temporal"에 매핑할 수 있으며, 이는 키에 해당하는 값이 시간 데이터 유형(예: "2-23-2019" 또는 " 17:30:22”).

필터링 엔진은 키가 아닌 텍스트의 유형이 키에 해당하는 값의 유효한 종류 집합에 포함되는지 여부를 결정합니다. 키가 아닌 텍스트의 스타일이 범례에 해당하는 값에 대한 적절한 유형의 컬렉션에 포함된다는 결정에 대한 응답으로 필터링 엔진은 경계 상자로 둘러싸인 텍스트가 키-값 쌍을 나타내는지 결정합니다. 특히 필터링 엔진은 키가 아닌 텍스트를 키에 해당하는 값으로 식별합니다. 그렇지 않으면 필터링 엔진은 경계 상자로 묶인 텍스트가 키-값 쌍을 나타내지 않는다고 결정합니다.

유효한 키 세트 및 유효한 키에 대응하는 값에 대한 올바른 키로부터 유용한 데이터 유형의 위치로의 매핑은 시스템 사용자에 의해 제공될 수 있습니다(예를 들어, 시스템에 의해 제공되는 API를 통해).

필터링 엔진을 사용하여 각 경계 상자로 둘러싸인 텍스트에서 키-값 쌍을 식별한 후 시스템은 식별된 키-값 쌍을 출력합니다. 예를 들어, 시스템은 데이터 통신 네트워크를 통해 시스템의 원격 사용자에게 키-값 팀을 제공할 수 있습니다(예를 들어, 시스템에 의해 제공되는 API를 사용하여). 다른 예로서, 시스템은 식별된 키-값 쌍을 정의하는 데이터를 시스템의 사용자가 액세스할 수 있는 데이터베이스(또는 다른 데이터 구조)에 저장할 수 있습니다.

일부 경우에, 시스템 사용자는 시스템이 문서의 특정 키에 해당하는 값(예: "인보이스 #")을 식별하도록 요청할 수 있습니다. 이러한 경우 레코드의 모든 키-값 쌍을 식별하고 제공하는 대신 시스템은 요청된 키-값 팀이 정렬된 키-값 쌍을 인식하고 실행할 때까지 각 경계 상자에 배치된 텍스트를 처리할 수 있습니다.

위에서 설명한 대로 탐지 모델은 각각의 키-값 쌍을 각각 둘러싸는 경계 상자를 생성하도록 학습될 수 있습니다. 또는 단일 탐지 모델을 사용하는 대신 시스템에 다음이 포함될 수 있습니다.

(i) 각 키를 둘러싸는 경계 상자를 생성하도록 훈련된 "키 감지 모델",
(ii) 각 값을 묶는 경계 상자를 생성하도록 훈련된 "값 감지 모델".

시스템은 키 경계 상자와 값 경계 상자에서 키-값 쌍을 적절하게 식별할 수 있습니다. 예를 들어, 키 경계 상자와 값 경계 상자를 포함하는 경계 상자의 각 팀에 대해 시스템은 다음을 기반으로 "일치 점수"를 생성할 수 있습니다.

(i) 경계 상자의 공간적 근접성,
(ii) 키 경계 상자가 유효한 키를 포함하는지 여부,
(iii) 값 경계 상자로 묶인 값의 유형이 키에 해당하는 값에 대한 유효한 유형 세트에 포함되는지 여부.

시스템은 키 경계 상자와 값 경계 상자 사이의 일치 점수가 임계값을 초과하는 경우 키 경계 상자로 둘러싸인 키와 값 경계 상자로 둘러싸인 값을 키-값 쌍으로 식별할 수 있습니다.

송장 문서의 예

문서 처리 시스템의 사용자는 송장(예: 스캔한 이미지 또는 PDF 파일)을 구문 분석 시스템에 제공할 수 있습니다.

경계 상자는 구문 분석 시스템의 감지 모델에 의해 생성됩니다. 각 경계 상자는 키-값 쌍을 정의하는 텍스트 데이터를 묶을 것으로 예상됩니다. 감지 모델은 이 텍스트가 키-값 쌍을 나타내지 않기 때문에 텍스트(즉, "감사합니다!")가 있는 경계 상자를 생성하지 않습니다.

구문 분석 시스템은 OCR 기술을 사용하여 각 경계 상자 내부의 텍스트를 식별한 다음 경계 상자로 둘러싸인 좋은 키-값 쌍을 식별합니다.

키(즉, "날짜:")와 값(즉, "2-23-2019")은 경계 상자로 둘러싸여 있습니다.

키-값 쌍 및 문서 처리

이 사양으로 프로그래밍된 구문 분석 시스템은 문서 처리를 수행할 수 있습니다.

시스템은 데이터 통신 네트워크를 통해 원격 시스템 사용자로부터 문서를 업로드로 수신합니다(예: 시스템에서 사용할 수 있는 API 사용). 문서는 PDF 문서 또는 이미지 문서(예: PNG 또는 JPEG 문서)와 같은 적절한 비정형 데이터 형식으로 표시될 수 있습니다.

시스템은 문서를 이미지, 즉 종이의 시각적 모양을 나타내는 숫자 값의 정렬된 모음으로 변환합니다. 예를 들어, 이미지는 숫자 강도 값의 2차원 배열로 설명되는 문서의 흑백 이미지일 수 있습니다.

문서 이미지에서 경계 상자를 정의하는 출력을 생성하기 위한 감지 모델 매개변수 세트. 각 경계 상자는 중요한 텍스트 데이터 및 값 텍스트 데이터를 포함하는 키-값 쌍을 묶을 것으로 예측됩니다. 여기서 키는 값을 특성화하는 레이블을 정의합니다.

검출 모델은 컨볼루션 신경망을 포함하는 객체 검출 모델일 수 있다.