martes, 10 de septiembre de 2013

Mejores formatos de salida para la digitalización de documentos

En proyectos de captura de documentos -ya sean de digitalización de documentos en papel o captura con dispositivos móviles- es importante escoger un formato de fichero que tras el escaneo de documentos que nos permita conservar los documentos con la mayor calidad e información posible. En ese sentido, tenemos 2 formatos reyes:

  • TIFF (Tagged Information File Format): Estos ficheros tienen la extensión .tif o .tiff. Es un invento de Adobe que ya cuenta con 27 años de existencia. Fue creado con el objetivo de que existiera un formato estándar para la digitalización de documentos. TIFF es quizás la mejor opción para preservación de imágenes por múltiples motivos (soporta 1 página o múltiples, soporta toda clase de codificación de color y numerosos algoritmos de compresión de imagen), aunque también tiene un gran defecto, su peso. Compartir imágenes TIFF no parece la mejor solución, pero las soluciones de captura o de gestión documental ofrecen opciones de conversión de TIFF a otros formatos mucho más portables.

  • PDF (Portable Document Format): Formato estándar abierto,
    convertido en estándar internacional por la ISO. Es otro de los inventos de Adobe, que aunque un poco más joven, se encuentra mucho más extendido que el TIFF. En orden de garantizar la supervivencia y conservación de los formatos PDF, existe la ISO 32000 que indica a los desarrolladores de software que produce, lee u opera con ficheros PDF las características que estos deben tener. PDF soporta documentos de varias páginas, y su principal baza es que permite la visualización del fichero de forma independiente al entorno tecnológico en el que fue creado o en el que está siendo consultado (es multiplataforma).  Existen muchas clases de PDFs, los dos grupos más importantes son los PDF normales y los PDF imágenes. Los PDF normales -True PDF- incluyen texto formateado, lo que permite a los usuarios realizar búsquedas dentro de su contenido o copiar y pegar texto. El segundo grupo es el de los PDF imágenes -Wrapped PDF-, que consisten en un formato PDF que envuelve una imagen, generalmente en formato TIFF. Al ser imágenes envueltas en un formato PDF, no es posible realizar búsquedas en ellos o copiar o pegar su texto. En este grupo de PDFs la aplicación del software OCR es vital para poder indexar el contenido del fichero, realizar búsquedas o extraer datos. Existe un tercer grupo, llamado en inglés "Searcheable" (algo así como "que se puede buscar"). Este tipo de PDF es un PDF tipo imagen pero al que se le añade una capa con el texto del documento. Esta capa es generada por un motor de OCR y permite todas las posibilidades de un PDF normal.
En un futuro post os explicaremos cuando elegir un formato u otro, hoy sólo hemos querido señalar cuales son los formatos más usados a la hora de emprender un proyecto de digitalización.

No hay comentarios:

Publicar un comentario en la entrada

AddThis