
Más allá de los tipos documentales personalizados que elegimos para trabajar en nuestra empresa (modelo XXX, formulario de reclamaciones, solicitud de baja de servicio, correspondencia, etc.), o de las típicas tipologías que utilizamos de manera frecuente en todas las industrias (facturas, albaranes); existen unas
tipologías genéricas de documentos importantes a tener en cuenta en proyectos de extracción de datos de documentos digitalizados. Recordemos que
la extracción de datos se utiliza para el rellenado automático de metadatos o como entrada para otro software empresarial (ERP, software contable, etc) y que es una tarea del
software de Captura.
1. Documentos Estructurados
Son tipos de documentos en los que sabemos qué información nos vamos a encontrar y la posición que esta información ocupa dentro de las dimensiones físicas del documento (coordenadas). Un ejemplo de estos documentos son formularios, modelos, pasaportes, DNI, cédulas de ciudadania, ID Cards, etc. Por ejemplo, todos los DNIs españoles contienen la misma información y ésta se ubica siempre en la misma posición.
En este tipo de documentos es más fácil encontrar y extraer datos, pues podemos saber dónde buscarlos.
En este vídeo de nuestro módulo
iCapture, vemos como con este tipo de documentos los mismos usuarios pueden
definir plantillas de extracción de datos, indicando de manera intuitiva al
OCR de
Athento qué datos extraer y las coordenadas donde estos se encuentran.
2. Documentos Semiestructurados
La dificultad de gestión va creciendo conforme a la información se vuelve menos estructurada.
Los documentos semiestructurados, son aquellos en los que sabemos qué información vamos a encontrarnos, pero no exactamente en dónde vamos a encontrarla. Un ejemplo clásico de este tipo de documentos son las facturas. Una factura tiene que incluir un CIF, un IVA, un total y unos datos del cliente entre otros. Independientemente del proveedor, sabemos que una factura va a incluir esta información; pero nadie nos garantiza que dicha información la pongan todos nuestros proveedores en el mismo lugar. El CIF del proveedor puede estar a la derecha, pero también a la izquierda en el documento. En estos casos sabemos qué estamos buscando, pero no sabemos dónde encontrarlo.
La manera de extraer datos de documentos semiestructurados no puede ser la misma que en el anterior caso, aquí necesitamos enseñarle al software cómo es lo que estamos buscando. Por ejemplo, que antes de el valor del IVA se va a encontrar la palabra IVA.
Las aplicaciones más avanzadas de extracción de datos y captura, como iCapture, no sólo buscan expresiones regulares dentro de los textos, sino que también tratan de contextualizar la información buscada, indicando su relación con estructuras más pequeñas dentro del documento como pueden ser tablas, imágenes, párrafos, etc.
2. Documentos Desestructurados
En este tipo documental, ni sabemos qué vamos a encontrarnos, ni dónde. La dificultad de extracción de datos de este tipo de documentos es máxima.
En este grupo podemos encontrar informes, cartas, etc.
Debo aclarar, que según algunos autores, el segundo grupo (semiestructurados) parece no existir, y documentos como las facturas se incluyen dentro de este grupo.
Concretamente, para la AIIM, un documento desestrucutrado cumple 3 características:
- La estructura del documento no ha sido diseñada por la empresa que ahora quiere gestionarlos (es decir, son documentos externos)
- La estructura de estos documentos puede variar dependiendo de quién la envía (por ejemplo, en el caso de las facturas, cada proveedor tiene su propio modelo)
- No pueden ser procesados ciñéndose a un template o plantilla.
Como habréis notado, estos puntos se adecuan más a la descripción de semi estructurados que os he dado. Sin embargo,
hay que admitir existencia de otros documentos con estructuras nada claras pero no menos importantes para la empresa, como pueden ser cartas de reclamación, correspondencia en general, informes, etc. A día de hoy, extraer datos de este tipo de documentos es una tarea ardua, que en la mayoría de los casos requiere desarrollos y el estudio de la documentación para tratar de identificar algún tipo de estructuración o el entendimiento de los datos que se piensan extraer. Requieren también un mayor entrenamiento del sistema y aplicación al máximo de expresiones regulares. Tal vez por estos motivos, y porque los documentos dentro de esta categoría no son frecuentemente utilizados dentro de proyectos de extracción de datos, los documentos desestructurados son habitualmente ignorados.
Contáctanos ahora! Podemos ayudarte y mejorar la
gestión de contenido empresarial (ECM) de tu organización.