lunes, 29 de julio de 2013

Métodos de Clasificación Automática de Documentos

Es importante que quienes están buscando una solución que les permita automatizar la clasificación, almacenamiento y/o enrutamiento de documentos digitalizados, tengan claro cuales son los métodos de clasificación de documentos de los que actualmente se dispone:

  • Clasificación simbólica: Es el método más primitivo. Se denomina simbólica porque en realidad, alguna persona ha tenido que identificar el documento antes de que se suba al sistema de captura o de gestión documental. El ejemplo más claro de este método es el uso de códigos de barras. El software de captura o de gestión documental lee el código de barras y enruta el documento con un tipo documental, por ejemplo “contrato de prestación de servicios”, pero alguien tuvo que haber generado el código de barras que indica que el documento es de ese tipo de forma previa. Algunos ERPs proporcionan funcionalidad para generar códigos de barras en los documentos que se generan en ellos, pero lo cierto es, que las empresas no sólo trabajan con documentos generados por ellas mismas y para el resto de documentos este tipo de clasificación requiere bastante trabajo manual.

  • Análisis de la estructura gráfica del documento: Este método se basa en la clasificación de documentos según su apariencia. Implica la comparación de un documento con un modelo o modelos aprendido por el sistema. En cierto modo, esta clasificación trabaja como lo haría un humano, tratando de determinar a qué se parece un documento para averiguar su tipología. Para que funcione la identificación de un documento se definen patrones y se entrena al sistema para que aprenda a reconocer y sea más preciso en dicho reconocimiento. Muchos de estos algoritmos comparan patrones de color, blancos y negros, layout de los documentos, etc.

  • Análisis de la estructura gráfica del documento junto con palabras claves: A las técnicas descritas en el apartado anterior, este método permite buscar por palabras clave que sean indicativas de un tipo de documento. Por ejemplo, después del análisis de la estructura gráfica el sistema arroja una alta probabilidad de que el documento sea una factura, por lo que busca en su contenido palabras como “Factura” o “CIF”. Este método añade una mayor precisión sobre los datos que se obtienen solamente comparando la estructura física del documento. Todos estos mecanismos se basan en algoritmos estadísticos que comparan la probabilidad de que un documento pertenezca a una determinada tipología.

  • Análisis y procesamiento de texto: Implican el análisis de texto para encontrar términos cuyo significado describa el documento que los contiene. Árboles de decisión, Support Vector Machines, algoritmos Bayesianos, técnicas de “el vecino más cercano”, etc. son utilizadas para extraer información relevante dentro del contenido de los documentos. Estos métodos definen esquemas de clasificación basados en que los documentos pueden ser representas en vectores de características (un conjunto de características que definen el documento y su importancia relativa) según las palabras que aparecen en él. Cada elemento dentro del vector representa la importancia o peso de una característica del documento. Las características, no son más que palabras o conjuntos de ellas que se extraen de un conjunto de documento que pertenecen a una categoría. Mediante métodos probabilísticos se busca pues encuadrar a los documentos dentro de esquemas de clasificación de acuerdo a la información proveída por los vectores. 

No existe un método en particular que sea la panacea para el problema de la clasificación de documentos. Las aplicaciones software potentes de clasificación de documentos combinan varios de estos métodos para alcanzar una mayor precisión a la hora de clasificar documentos. Quienes estén pensando en adquirir software avanzado de captura de documentos, tendrán que informarse bien sobre cuáles son los mecanismos que el software ha de usar, ya que entre más simples los mecanismos empleados por el software, más asistencia tendrán que prestar al software para que cumpla su misión. 

 Contáctanos ahora! Podemos ayudarte y mejorar el Software de Gestión Documental de tu empresa, facilitando la eficiencia y las búsquedas así como los procesos de gestión de documentos y captura.

No hay comentarios:

Publicar un comentario en la entrada

AddThis