
1. Documentos Estructurados
Son tipos de documentos en los que sabemos qué información nos vamos a encontrar y la posición que esta información ocupa dentro de las dimensiones físicas del documento (coordenadas). Un ejemplo de estos documentos son formularios, modelos, pasaportes, DNI, cédulas de ciudadania, ID Cards, etc. Por ejemplo, todos los DNIs españoles contienen la misma información y ésta se ubica siempre en la misma posición. En este tipo de documentos es más fácil encontrar y extraer datos, pues podemos saber dónde buscarlos. En este vídeo de nuestro módulo iCapture, vemos como con este tipo de documentos los mismos usuarios pueden definir plantillas de extracción de datos, indicando de manera intuitiva al OCR de Athento qué datos extraer y las coordenadas donde estos se encuentran.
2. Documentos Semiestructurados
La dificultad de gestión va creciendo conforme a la información se vuelve menos estructurada. Los documentos semiestructurados, son aquellos en los que sabemos qué información vamos a encontrarnos, pero no exactamente en dónde vamos a encontrarla. Un ejemplo clásico de este tipo de documentos son las facturas. Una factura tiene que incluir un CIF, un IVA, un total y unos datos del cliente entre otros. Independientemente del proveedor, sabemos que una factura va a incluir esta información; pero nadie nos garantiza que dicha información la pongan todos nuestros proveedores en el mismo lugar. El CIF del proveedor puede estar a la derecha, pero también a la izquierda en el documento. En estos casos sabemos qué estamos buscando, pero no sabemos dónde encontrarlo.
La manera de extraer datos de documentos semiestructurados no puede ser la misma que en el anterior caso, aquí necesitamos enseñarle al software cómo es lo que estamos buscando. Por ejemplo, que antes de el valor del IVA se va a encontrar la palabra IVA. Las aplicaciones más avanzadas de extracción de datos y captura, como iCapture, no sólo buscan expresiones regulares dentro de los textos, sino que también tratan de contextualizar la información buscada, indicando su relación con estructuras más pequeñas dentro del documento como pueden ser tablas, imágenes, párrafos, etc.
2. Documentos Desestructurados
En este tipo documental, ni sabemos qué vamos a encontrarnos, ni dónde. La dificultad de extracción de datos de este tipo de documentos es máxima. En este grupo podemos encontrar informes, cartas, etc. Debo aclarar, que según algunos autores, el segundo grupo (semiestructurados) parece no existir, y documentos como las facturas se incluyen dentro de este grupo.
Concretamente, para la AIIM, un documento desestrucutrado cumple 3 características:
- La estructura del documento no ha sido diseñada por la empresa que ahora quiere gestionarlos (es decir, son documentos externos)
- La estructura de estos documentos puede variar dependiendo de quién la envía (por ejemplo, en el caso de las facturas, cada proveedor tiene su propio modelo)
- No pueden ser procesados ciñéndose a un template o plantilla.
Contáctanos ahora! Podemos ayudarte y mejorar la gestión de contenido empresarial (ECM) de tu organización.

No hay comentarios:
Publicar un comentario