Ingeniero Francisco González |
Para que estas tareas puedan automatizarse, sobre todo las de extracción de datos, se requiere que las imágenes cumplan unas características de calidad mínimas. Cualquiera que haya escaneado un documento en su vida sabe que una vez escaneado, el documento puede presentar defectos como ruido, bordes blancos o negros, estar torcido, etc.
Cuando se extraen datos de un documento, una de las tecnologías base que se aplican es el Reconocimiento Óptico de Caracteres, más conocido como OCR. Los motores actuales de OCR tienen problemas para leer el contenido de los documentos cuando en los documentos se presentan defectos de calidad como el ruido. El ruido de "sal y pimienta", que no es más que un montón de puntitos pequeños por toda la imagen, influye negativamente en el rendimiento del OCR.
A continuación, vemos una imagen digitalizada que presenta mucho ruido.
Para que la extracción de datos sea lo más precisa posible es necesario que se elimine el ruido de la imagen. Uno de nuestros ingenieros, Francisco González, cariñosamente conocido como Kurro, ha hecho posible que Athento "limpie de ruido" de forma significativa a las imágenes digitalizadas.
A continuación, vamos a ver la misma imagen después de ser mejorada por Athento.
Enhorabuena Kurro, impresionante trabajo!

Tweet Contáctanos ahora! Podemos ayudarte y mejorar el Software de Gestión Documental de tu empresa, facilitando la eficiencia y las búsquedas así como los procesos de gestión de documentos y captura.
No hay comentarios:
Publicar un comentario