jueves, 23 de mayo de 2013

Mejoras de Imágenes Digitalizadas

Ingeniero Francisco González
Como sabéis, hace un tiempo que en Athento venimos dedicándonos fuertemente  al tema de la investigación en temas de captura de documentos. Nuestro objetivo es, conseguir que muchas tareas manuales, como la extracción de datos o clasificación de documentos se hagan de forma totalmente automática y con la mayor precisión posible.

Para que estas tareas puedan automatizarse, sobre todo las de extracción de datos, se requiere que las imágenes cumplan unas características de calidad mínimas. Cualquiera que haya escaneado un documento en su vida sabe que una vez escaneado, el documento puede presentar defectos como ruido, bordes blancos o negros, estar torcido, etc.

Cuando se extraen datos de un documento, una de las tecnologías base que se aplican es el Reconocimiento Óptico de Caracteres, más conocido como OCR. Los motores actuales de OCR tienen problemas para leer el contenido de los documentos cuando en los documentos se presentan defectos de calidad como el ruido. El ruido de "sal y pimienta", que no es más que un montón de puntitos pequeños por toda la imagen, influye negativamente en el rendimiento del OCR.

A continuación, vemos una imagen digitalizada que presenta mucho ruido.





Para que la extracción de datos sea lo más precisa posible es necesario que se elimine el ruido de la imagen. Uno de nuestros ingenieros, Francisco González, cariñosamente conocido como Kurro, ha hecho posible que Athento "limpie de ruido" de forma significativa a las imágenes digitalizadas.
A continuación, vamos a ver la misma imagen después de ser mejorada por Athento.




Enhorabuena Kurro, impresionante trabajo!



Descarga el caso de éxito de CRISA


Contáctanos ahora! Podemos ayudarte y mejorar el Software de Gestión Documental de tu empresa, facilitando la eficiencia y las búsquedas así como los procesos de gestión de documentos y captura.

No hay comentarios:

Publicar un comentario

AddThis