jueves, 25 de julio de 2013

Expresiones Regulares en Athento Capture 2.0

En post anteriores ya os habíamos contado algunas de las novedades de Athento Capture, como las búsquedas por facetas.

Hoy queremos compartir más de la nueva funcionalidad de nuestro software de captura de documentos: el manejo sencillo de expresiones regulares.

Las expresiones regulares son textos, palabras, números, fragmentos de texto, etc., que sabemos que siempre vamos a encontrar en ciertos tipos de documentos y que nos pueden ayudar a encontrar datos que tenemos que extraer de documentos o que, incluso, pueden dar pistas al software sobre qué tipo de documento está gestionando.

Vamos a poner un ejemplo: Tenemos un montón de facturas digitalizadas y necesitamos extraer el CIF del proveedor. El CIF tiene unas características particulares:

  • Se compone de 9 dígitos o caracteres.
  • Aparece siempre a la derecha de la palabra CIF
  • Está formado por una única palabra
Ejemplo:


Definir estas características en Athento es fácil, sólo hace falta definir algunos parámetros:

  • Metadato: nombre del metadato que se quiere extraer. Ejemplo: CIF
  • Expresión: El fragmento de texto, número, palabras, etc. que se va a buscar dentro del texto como referencia para la extracción del metadato. En el caso del ejemplo sería "CIF".
  • Posición: Hace referencia a la posición en la que se encuentra el dato a extraer en relación a la expresión. En el caso de estas facturas, el número del CIF a extraer se encuentra a la derecha de la palabra "CIF".
  • Número de palabras: La expresión que estamos buscando puede componerse de una o varias palabras, en el caso del CIF hay una sola palabra que corresponde al número que queremos extraer.
  • Longitud máxima: Cuantos digitos o caracteres tiene la expresión que queremos extraer. En el caso de un CIF, estamos hablando de 9 caracteres.
Estos parámetros se configuran en Athento para que éste procese el texto y encuentre la información que queremos buscar. A este método se unen otros mecanismos como el de definición de plantillas (definición gráfica de las coordenadas en las que el OCR debe buscar los metadatos) que ya funcionaba en versiones anteriores de Athento. Vamos a ver en 36 segundos cómo se configuran en Athento estas expresiones regulares.



Smart Faceted Searches on Athento Capture from Athento on Vimeo.

 Contáctanos ahora! Podemos ayudarte y mejorar el Software de Gestión Documental de tu empresa, facilitando la eficiencia y las búsquedas así como los procesos de gestión de documentos y captura.




No hay comentarios:

Publicar un comentario en la entrada

AddThis