Procesamiento de documentos mediante pares clave-valor estructurados

Publicado: 2022-03-31

¿Por qué pares clave-valor en este sistema de procesamiento de documentos?

Escribir esta publicación me recordó una publicación de 2007 que escribí sobre búsqueda local y datos estructurados donde los pares clave-valor eran un aspecto importante de esa patente de 2007. La publicación fue:

Información estructurada en la búsqueda local de Google.

Me pareció interesante ver a Google escribir sobre la inserción de pares clave-valor en un sistema de procesamiento de documentos como el que se muestra aquí, con un enfoque de aprendizaje automático en su centro, adentrándose en el SEO técnico.

Los usos de pares clave-valor siguen siendo importantes ahora después de 15 años.

Procesamiento de documentos en Google

procesamiento de documentos con pares clave-valor

Comprender el procesamiento de documentos (por ejemplo, facturas, comprobantes de pago, recibos de ventas y similares) es una necesidad comercial crucial. Una gran fracción (p. ej., el 90 % o más) de los datos empresariales se almacena y representa en documentos no estructurados. La extracción de datos estructurados de los registros puede ser costosa, llevar mucho tiempo y ser propensa a errores.

Esta patente describe un sistema de análisis de procesamiento de documentos y un método implementado como programas de computadora en computadoras en ubicaciones que convierten documentos no estructurados en pares clave-valor estructurados.

El sistema de análisis se configura para el procesamiento de documentos para identificar los datos textuales "clave" y los datos textuales de "valor" correspondientes en el papel. La clave define una etiqueta que caracteriza (es decir, es descriptiva de) un valor correspondiente.

Por ejemplo, la clave “Fecha” puede corresponder al valor “23-2-2019”.

Hay un método realizado por un aparato de procesamiento de datos, que proporciona una imagen de un documento a un modelo de detección, en el que: el modelo de detección se configura para procesar la imagen por valores de una pluralidad de parámetros del modelo de detección para generar una salida que define cuadros delimitadores generado para la idea.

Se predice que cada cuadro delimitador generado para la imagen encierra un par clave-valor que comprende datos textuales críticos y datos textuales de valor, donde los datos textuales necesarios definen una etiqueta que caracteriza los datos de valor textual.

Cada uno de los cuadros delimitadores generados para la imagen: identifica la información textual encerrada por el cuadro delimitador utilizando una técnica de reconocimiento óptico de caracteres; determinar si los datos textuales mantenidos por el cuadro delimitador definen un par clave-valor; y en respuesta a la determinación de que los datos textuales encerrados por el cuadro delimitador representan un par clave-valor, proporcionando el par clave-valor para su uso en la caracterización del documento.

El modelo de detección es un modelo de red neuronal.

El modelo de red neuronal comprende una red neuronal convolucional.

El modelo de red neuronal se entrena en un conjunto de ejemplos de entrenamiento. Cada ejemplo de entrenamiento comprende una entrada de entrenamiento y una salida objetivo; la entrada de entrenamiento incluye una imagen de entrenamiento de un documento de entrenamiento. La salida de destino contiene datos que definen cuadros delimitadores en la imagen de entrenamiento que encierran un par clave-valor respectivo.

El documento es una factura.

procesamiento de documentos - factura de cliente

Proporcionar una imagen de un documento a un modelo de detección comprende: identificar una clase particular del papel; y proporcionar la idea del documento a un modelo de detección que se entrena para procesar copias del tipo específico.

  • Determinar si los datos textuales encerrados por el cuadro delimitador definen un par clave-valor comprende:
  • Decidir que la información textual que posee el cuadro delimitador incluye una clave de un conjunto predeterminado de claves válidas;
  • Encontrar un tipo de una parte de los datos textuales contenidos en el cuadro delimitador que no tiene la clave; identificar una ubicación de variedades adecuadas para los valores correspondientes a la clave
  • Elegir que el estilo de la parte de los datos textuales delimitados por el cuadro delimitador que no incluye la clave se incluya en el conjunto de tipos válidos para los valores correspondientes a la clave.
  • Aprender que un conjunto de tipos válidos para valores correspondientes a la clave comprende: mapear la clave a la colección de tipos adecuados para valores correspondientes a la clave utilizando un mapeo predeterminado.

El usuario proporciona el conjunto de claves válidas y la asignación de claves a las ubicaciones correspondientes de tipos adecuados para los valores correspondientes a las claves.

Los cuadros delimitadores tienen forma rectangular.

El método comprende además: recibir el documento de un usuario; y convertir el papel en una imagen, en la que la pintura representa el documento.

Un método realizado por el sistema de procesamiento de documentos, comprendiendo el método:

  • Proporcionar una imagen de un documento a un modelo de detección configurado para procesar la imagen para identificar en los cuadros delimitadores de la imagen previstos para encerrar un par clave-valor que comprende datos textuales críticos y datos textuales de valor, donde la clave define una etiqueta que caracteriza un valor correspondiente a la llave; para cada uno de los cuadros delimitadores generados para la imagen,
  • Identificar datos textuales encerrados por el cuadro delimitador utilizando una técnica de reconocimiento óptico de caracteres y determinar si la información textual contenida en el cuadro delimitador define un par clave-valor
  • Salida del equipo clave-valor para su uso en la caracterización del documento.

El modelo de detección es un modelo de aprendizaje automático con parámetros que se pueden entrenar en un conjunto de datos de entrenamiento.

El modelo de aprendizaje automático comprende un modelo de red neuronal, particularmente una red neuronal convolucional.

El modelo de aprendizaje automático se entrena en un conjunto de ejemplos de entrenamiento, y cada ejemplo de entrenamiento tiene una entrada de entrenamiento y una salida objetivo.

La entrada de entrenamiento comprende una imagen de entrenamiento de un documento de entrenamiento. La salida de destino incluye cuadros delimitadores que definen datos en la imagen de entrenamiento, cada uno de los cuales encierra un par clave-valor respectivo.

El documento es una factura.

Proporcionar una imagen de un documento a un modelo de detección comprende: identificar una clase particular del papel; y proporcionar la idea del documento a un modelo de detección que se entrena para procesar documentos del tipo específico.

¿Es un par clave-valor?

Determinar si los datos textuales encerrados por el cuadro delimitador definen un par clave-valor significa:

  • Decidir que la información textual que posee el cuadro delimitador incluye una clave de un conjunto predeterminado de claves válidas
  • Encontrar un tipo de una parte de los datos textuales en poder del cuadro delimitador que no tiene la clave
  • Anotar una ubicación de variedades adecuadas para los valores correspondientes a la clave
  • Seleccionando que el estilo de la parte de los datos textuales encerrados por el cuadro delimitador que no incluye la clave se incluya en el conjunto de tipos válidos para los valores correspondientes a la clave.

Identificar un conjunto de tipos válidos para valores correspondientes a la clave comprende: mapear la clave a la colección de tipos adecuados para valores correspondientes a la clave utilizando un mapeo predeterminado.

El usuario proporciona el conjunto de claves válidas y la asignación de claves a las ubicaciones correspondientes de tipos adecuados para los valores correspondientes a las claves.

Los cuadros delimitadores tienen forma rectangular.

El método comprende además: recibir el documento de un usuario; y convertir el papel en una imagen, en la que la pintura representa el documento.

Según otro aspecto, existe un sistema que comprende: ordenadores; y dispositivos de almacenamiento acoplados a ordenadores, en los que los dispositivos de almacenamiento almacenan instrucciones que, cuando son ejecutadas por ordenadores, hacen que los ordenadores realicen operaciones que comprenden las operaciones del método descrito anteriormente.

Ventajas de este enfoque de procesamiento de documentos

diagrama de flujo de procesamiento de documentos

El sistema descrito en esta especificación se puede utilizar para convertir grandes cantidades de documentos no estructurados en pares clave-valor estructurados. Por lo tanto, el sistema evita la necesidad de extraer datos estructurados de documentos no estructurados, lo que puede ser costoso, lento y propenso a errores.

El sistema descrito en esta especificación puede identificar pares clave-valor en documentos con un alto nivel de precisión (por ejemplo, para algunos tipos de documentos, con más del 99 % de precisión). Por lo tanto, el sistema puede ser adecuado para su implementación en aplicaciones (por ejemplo, procesamiento de documentos financieros) que necesitan un alto nivel de precisión.

El sistema descrito en esta especificación puede generalizar mejor que algunos sistemas convencionales, es decir, tiene capacidades de generalización mejoradas en comparación con algunos métodos tradicionales.

En particular, al aprovechar un modelo de detección de aprendizaje automático entrenado para reconocer señales visuales que distinguen pares clave-valor en documentos, el sistema puede identificar pares clave-valor del estilo, estructura o contenido específico de los documentos.

La identificación de pares clave-valor en la patente de procesamiento de documentos

Identificación de pares clave-valor en documentos
Inventores: Yang Xu, Jiang Wang y Shengyang Dai
Cesionario: Google LLC
Patente de EE. UU.: 11,288,719
Concedido: 29 de marzo de 2022
Archivado: 27 de febrero de 2020

Resumen

Métodos, sistemas y aparatos, incluidos los programas informáticos codificados en un medio de almacenamiento informático, para convertir documentos no estructurados en pares clave-valor estructurados.

En un aspecto, un método comprende: proporcionar una imagen de un documento a un modelo de detección, en el que: el modelo de detección se configura para procesar la imagen para generar una salida que define cuadros delimitadores generados para la imagen; y se predice que cada cuadro delimitador generado para la imagen encierra un par clave-valor que comprende datos textuales clave y datos textuales de valor, donde los datos textuales clave definen una etiqueta que caracteriza los datos textuales de valor, y para cada uno de los cuadros delimitadores generados para la imagen: identificar los datos textuales encerrados por el cuadro delimitador mediante una técnica de reconocimiento óptico de caracteres y determinar si los datos textuales encerrados en el cuadro delimitador definen un par clave-valor.

Un ejemplo de sistema de análisis

El sistema de análisis es un ejemplo de un método implementado como programas de computadora en computadoras en ubicaciones donde se implementan los sistemas, componentes y técnicas que se describen a continuación.

El sistema de análisis se configura para procesar un documento (por ejemplo, una factura, talón de pago o recibo de venta) para identificar pares clave-valor en el papel. Un "par clave-valor" se refiere a una clave y un valor correspondiente, generalmente datos textuales. Debe entenderse que “datos textuales” se refiere al menos a: caracteres alfabéticos, números y símbolos especiales. Como se describió anteriormente, una clave define una etiqueta que caracteriza un valor correspondiente.

El sistema puede recibir el documento de varias formas.

Por ejemplo, el sistema puede recibir el documento como una carga desde un usuario del sistema remoto a través de una red de comunicación de datos (por ejemplo, utilizando una interfaz de programación de aplicaciones (API) disponible por el sistema). El documento se puede representar en cualquier formato de datos no estructurado apropiado, por ejemplo, como un documento de formato de documento portátil (PDF) o como un documento de imagen (por ejemplo, un documento de Portable Network Graphics (PNG) o Joint Photographic Experts Group (JPEG)).

Identificar pares clave-valor en el procesamiento de documentos

El sistema utiliza un modelo de detección, un motor de reconocimiento óptico de caracteres (OCR) y un motor de filtrado para identificar pares clave-valor en el procesamiento de documentos.

El modelo de detección se configura para procesar una imagen del documento para generar una salida que define cuadros delimitadores en la imagen. Se predice que cada uno incluirá datos textuales que representan un par clave-valor respectivo. Es decir, se espera que cada cuadro delimitador tenga información textual que defina:

(i) una llave, y
(ii) un valor correspondiente a la clave. Por ejemplo, un cuadro delimitador puede encerrar los datos textuales "Nombre: John Smith", que define la clave "Nombre" y el valor correspondiente "John Smith". El modelo de detección se puede configurar para generar cuadros delimitadores que encierran un único par clave-valor (es decir, en lugar de muchos pares clave-valor).

La imagen del documento es una colección ordenada de valores numéricos que representan la apariencia visual del papel. La imagen puede ser una imagen en blanco y negro del documento. En este ejemplo, la imagen puede describirse como una matriz bidimensional de valores numéricos de intensidad. Como otro ejemplo, la imagen puede ser una imagen en color del documento. En este ejemplo, la imagen se puede representar como una imagen multicanal. Cada canal corresponde a un color respectivo (p. ej., rojo, verde o azul) y se define como una matriz bidimensional de valores de intensidad numéricos.

Los cuadros delimitadores pueden ser cuadros delimitadores rectangulares. Un cuadro delimitador rectangular puede quedar representado por las coordenadas de una esquina particular del cuadro delimitador y el ancho y alto correspondientes del contenedor delimitador. Más generalmente, son posibles otras formas de cuadros delimitadores y otras formas de representar los cuadros delimitadores.

Si bien el modelo de detección puede reconocer y utilizar cualquier marco o borde presente en el documento como señales visuales, los cuadros delimitadores no están obligados a alinearse (es decir, coincidir) con ninguna estructura existente de límites actual en el papel. Además, el sistema puede generar los cuadros delimitadores sin mostrar los cuadros delimitadores en la imagen del documento.

Es decir, el sistema puede generar datos que definen los paquetes delimitadores sin dar una señal visual de la posición de los cuadros delimitadores a un usuario del sistema.

El modelo de detección es generalmente un modelo de aprendizaje automático, es decir, un modelo que tiene un conjunto de parámetros que pueden entrenarse en un conjunto de datos de entrenamiento. Los datos de entrenamiento incluyen muchos ejemplos de entrenamiento, cada uno de los cuales incluye:

(i) una imagen de capacitación que represente un documento de capacitación, y
(ii) una salida de destino que define cuadros delimitadores que encierran un par clave-valor respectivo en la imagen de entrenamiento.

Los datos de entrenamiento pueden generarse mediante una anotación manual, es decir, por una persona que identifique cuadros delimitadores alrededor de pares clave-valor en el documento de entrenamiento (por ejemplo, usando un software de anotación apropiado).

Entrenar el modelo de detección utilizando técnicas de aprendizaje automático en un conjunto de datos de entrenamiento le permite reconocer señales visuales que le permitirán identificar pares clave-valor en documentos. Por ejemplo, el modelo de detección puede entrenarse para reconocer señales locales (p. ej., estilos de texto y las posiciones espaciales relativas de las palabras) y señales globales (p. ej., la presencia de bordes en el documento) para identificar pares clave-valor.

Las señales visuales que permiten que el modelo de detección recuerde equipos clave-valor en registros generalmente no incluyen señales que representen el significado explícito de las palabras en el documento.

Señales visuales que distinguen pares clave-valor

Entrenar el modelo de detección para reconocer señales visuales que distinguen pares clave-valor en documentos permite que el modelo de detección "generalice" más allá de los datos de entrenamiento utilizados para preparar el modelo de detección. El modelo de detección entrenado podría procesar una imagen que represente un documento para generar cuadros delimitadores que incluyan pares clave-valor en el documento, incluso si la copia no se incluyó en los datos de entrenamiento utilizados para entrenar el modelo de detección.

En un ejemplo, el modelo de detección puede ser un modelo de detección de objetos de red neuronal (por ejemplo, que incluye redes neuronales convolucionales), donde los "objetos" corresponden a pares clave-valor en el documento. Los parámetros entrenables del modelo de red neuronal incluyen los pesos del modelo de red neuronal, por ejemplo, pesos que definen filtros convolucionales en el modelo de red neuronal.

El modelo de red neuronal puede entrenarse en el conjunto de datos de entrenamiento utilizando un procedimiento de entrenamiento de aprendizaje automático apropiado, por ejemplo, descenso de gradiente estocástico. En particular, en cada iteración de entrenamiento, el modelo de red neuronal puede procesar imágenes de entrenamiento de un "lote" (es decir, un conjunto) de ejemplos de entrenamiento para generar cuadros delimitadores previstos para encerrar pares clave-valor respectivos en las imágenes de entrenamiento. El sistema puede probar una función objetivo que caracteriza una medida de similitud entre los cuadros delimitadores generados por el modelo de red neuronal y los cuadros delimitadores especificados por las salidas objetivo correspondientes de los ejemplos de entrenamiento.

La medida de similitud entre dos cuadros delimitadores puede ser, por ejemplo, una suma de distancias al cuadrado entre los vértices respectivos de los cuadros delimitadores. El sistema puede determinar los gradientes de la función de objetivo ganados los valores de los parámetros de la red neuronal (por ejemplo, utilizando la retropropagación) y luego usar las pendientes para ajustar los valores actuales de los parámetros de la red neuronal.

En particular, el sistema puede usar la regla de actualización de parámetros de cualquier algoritmo de optimización de descenso de gradiente apropiado (por ejemplo, Adam o RMSprop) para ajustar los valores de los parámetros de la red neuronal actual usando los gradientes. El sistema entrena el modelo de red neuronal hasta que se cumple un criterio de finalización del entrenamiento (por ejemplo, hasta que se haya realizado un número predeterminado de iteraciones de entrenamiento o hasta que un cambio en el valor de la función objetivo del objeto entre iteraciones de entrenamiento caiga por debajo de un umbral predeterminado).

Antes de usar el modelo de detección, el sistema puede identificar una "clase" del documento (por ejemplo, factura, talón de pago o recibo de venta). Un usuario del sistema puede identificar la clase del registro al proporcionar el documento al sistema. El método puede usar una red neuronal de clasificación para clasificar la clase del artículo. El sistema puede usar técnicas de OCR para identificar el texto en el documento y, después de eso, colocar el estilo del documento basado en el texto del documento. En un ejemplo particular, en respuesta a la determinación de la frase "Pago neto", el sistema puede identificar la clase de papel como un "talón de pago".

En otro ejemplo particular, en respuesta a la identificación de la frase “Impuesto sobre las ventas”, el sistema puede identificar la clase del documento como “factura”. Después de identificar la clase particular del registro, el sistema puede usar un modelo de detección que se entrena para procesar copias de la clase específica. El método puede usar un modelo de detección que se entrenó en datos de entrenamiento que incluían solo documentos de la misma clase particular que el documento.

El uso de un modelo de detección que se entrena para procesar documentos de la misma clase que el documento puede mejorar el rendimiento del modelo de detección (por ejemplo, al permitir que el modelo de detección genere cuadros delimitadores alrededor de pares clave-valor con mayor precisión).

Para cada cuadro delimitador, el sistema procesa la parte de la imagen encerrada por el cuadro delimitador utilizando el motor OCR para identificar los datos textuales (es decir, el texto) contenidos en el cuadro delimitador. En particular, el motor de OCR identifica el texto encerrado en un cuadro delimitador identificando cada carácter alfabético, numérico o único encerrado en el cuadro delimitador. El motor de OCR puede utilizar cualquier técnica adecuada para identificar el texto rodeado por un cuadro delimitador.

El motor de filtrado determina si el texto encerrado en un cuadro delimitador representa un par clave-valor. El motor de filtrado puede decidir si el texto que rodea el cuadro delimitador representa un par clave-valor de forma adecuada. Por ejemplo, el motor de filtrado puede determinar si el texto encerrado por el cuadro delimitador incluye una clave válida de un conjunto predeterminado de claves correctas para un cuadro delimitador dado. Por ejemplo, la recopilación de claves válidas puede consistir en: "Fecha", "Hora", "Número de factura", "Cantidad adeudada" y similares.

Al comparar diferentes porciones de texto para determinar si el texto delimitado por el cuadro delimitador incluye una clave válida, el motor de filtrado puede determinar que dos fragmentos de texto "coinciden" incluso si no son idénticos. Por ejemplo, el motor de filtrado puede determinar que dos partes del lector coinciden incluso si incluyen mayúsculas o signos de puntuación diferentes (p. ej., el sistema de filtrado puede determinar que "Fecha", "Fecha:", "fecha" y "fecha:" son todos coincidentes).

En respuesta a la determinación de que el texto delimitado por el cuadro delimitador no incluye una clave válida de las claves correctas, el motor de filtrado determina que el texto delimitado por el cuadro delimitador no representa un par clave-valor.

En respuesta a la determinación de que el texto delimitado por el cuadro delimitador incluye una clave válida, el motor de filtrado identifica un "tipo" (p. ej., alfabético, numérico, temporal) de la parte del texto delimitada por el cuadro delimitador que no se identifica como clave ( es decir, el texto “no clave”). Por ejemplo, para un cuadro delimitador que tiene el texto: "Fecha: 23-2-2019", donde el motor de filtrado identifica "Fecha:" como la clave (como se describió anteriormente), el motor de filtrado puede identificar el tipo de la no -texto clave "23-2-2019" como "temporal".

Además de identificar el tipo de texto no clave, el motor de filtrado identifica un conjunto de tipos válidos para los valores correspondientes a la clave. En particular, el motor de filtrado puede asignar la clave a un grupo de tipos de datos útiles para valores correspondientes a la clave mediante una asignación predeterminada. Por ejemplo, el motor de filtrado puede asignar la clave "Nombre" al tipo de datos de valor correspondiente "alfabético", indicando que el valor correspondiente a la clave debe tener un tipo de datos alfabético (por ejemplo, "John Smith").

Como otro ejemplo, el motor de filtrado puede asignar la clave "Fecha" al tipo de datos de valor correspondiente "temporal", indicando que el valor correspondiente a la clave debe tener un tipo de datos temporal (por ejemplo, "23-2-2019" o " 17:30:22”).

El motor de filtrado determina si el tipo de texto no clave se incluye en el conjunto de tipos válidos para los valores correspondientes a la clave. En respuesta a la determinación de que el estilo del texto no clave se incluye en la colección de tipos adecuados para los valores correspondientes a la leyenda, el motor de filtrado determina que el texto delimitado por el cuadro delimitador representa un par clave-valor. En particular, el motor de filtrado identifica el texto no clave como el valor correspondiente a la clave. De lo contrario, el motor de filtrado determina que el texto encerrado en el cuadro delimitador no representa un par clave-valor.

Un usuario del sistema puede proporcionar el conjunto de claves válidas y la asignación de claves correctas a ubicaciones de tipos de datos útiles para valores correspondientes a las claves válidas (por ejemplo, a través de una API puesta a disposición por el sistema).

Después de identificar los pares clave-valor del texto encerrado en los respectivos cuadros delimitadores mediante el motor de filtrado, el sistema genera los pares clave-valor identificados. Por ejemplo, el sistema puede proporcionar los equipos clave-valor a un usuario remoto del sistema a través de una red de comunicación de datos (p. ej., utilizando una API puesta a disposición por el sistema). Como otro ejemplo, el sistema puede almacenar datos que definen los pares clave-valor identificados en una base de datos (u otra estructura de datos) accesible para el usuario del sistema.

En algunos casos, un usuario del sistema puede solicitar que el sistema identifique el valor correspondiente a la clave particular en el documento (por ejemplo, "Factura #"). En estos casos, en lugar de identificar y proporcionar cada par clave-valor en el registro, el sistema puede procesar el texto colocado en los cuadros delimitadores respectivos hasta que el equipo clave-valor solicitado reconozca y ejecute el par clave-valor solicitado.

Como se describió anteriormente, el modelo de detección se puede entrenar para generar cuadros delimitadores, cada uno de los cuales encierra un par clave-valor respectivo. O, en lugar de utilizar un solo modelo de detección, el sistema puede incluir:

(i) un "modelo de detección de claves" que se entrena para generar cuadros delimitadores que encierran las claves respectivas, y
(ii) un "modelo de detección de valores" que se entrena para generar cuadros delimitadores que encierran los valores respectivos.

El sistema puede identificar pares clave-valor de los cuadros delimitadores de clave y los cuadros delimitadores de valor de forma adecuada. Por ejemplo, para cada equipo de cuadros delimitadores que incluye un cuadro delimitador de clave y un cuadro delimitador de valor, el sistema puede generar una "puntuación de coincidencia" basada en:

(i) la proximidad espacial de los cuadros delimitadores,
(ii) si el cuadro delimitador de clave incluye una clave válida, y
(iii) si el tipo del valor delimitado por el cuadro delimitador de valor se incluye en un conjunto de tipos válidos para los valores correspondientes a la clave.

El sistema puede identificar la clave encerrada por un cuadro delimitador de clave y el valor rodeado por un cuadro delimitador de valor como un par clave-valor si la puntuación de coincidencia entre el cuadro delimitador de clave y el cuadro delimitador de valor supera un umbral.

Un ejemplo de un documento de factura

Un usuario del sistema de procesamiento de documentos puede proporcionar la factura (por ejemplo, como una imagen escaneada o un archivo PDF) al sistema de análisis.

Los cuadros delimitadores son generados por el modelo de detección del sistema de análisis. Se prevé que cada cuadro delimitador encierre datos textuales que definen un par clave-valor. El modelo de detección no genera un cuadro delimitador que tenga texto (es decir, "¡Gracias por su negocio!"), ya que este texto no representa un par clave-valor.

El sistema de análisis utiliza técnicas de OCR para identificar el texto dentro de cada cuadro delimitador y luego identifica buenos pares clave-valor encerrados por los cuadros delimitadores.

La clave (es decir, "Fecha:") y el valor (es decir, "23-2-2019") encerrados por el cuadro delimitador.

Pares clave-valor y procesamiento de documentos

Un sistema de análisis programado por esta especificación puede realizar el procesamiento de documentos.

El sistema recibe un documento como una carga de un usuario del sistema remoto a través de una red de comunicación de datos (por ejemplo, utilizando una API puesta a disposición por el sistema). El documento se puede representar en cualquier formato de datos no estructurados adecuado, como un documento PDF o un documento de imagen (por ejemplo, un documento PNG o JPEG).

El sistema convierte el documento en una imagen, es decir, una colección ordenada de valores numéricos que representa la apariencia visual del papel. Por ejemplo, la imagen puede ser una imagen en blanco y negro del documento que se describe como una matriz bidimensional de valores de intensidad numéricos.

Por un conjunto de parámetros del modelo de detección para generar una salida que define cuadros delimitadores en la imagen del documento. Se predice que cada cuadro delimitador encierra un par clave-valor que incluye datos textuales críticos y datos textuales de valor, donde la clave define una etiqueta que caracteriza el valor.

El modelo de detección puede ser un modelo de detección de objetos que incluye redes neuronales convolucionales.

Busque noticias directamente en su bandeja de entrada

Este campo es para fines de validación y debe dejarse sin cambios.

*Requerido