jueves, 20 de septiembre de 2012

Captura inteligente de documentos: Primer paso para la gestión del BIG DATA (Parte 2)

Segunda Parte
En el primer post tratamos de contextualizar la problemática del Big Data, en esta segunda parte, nos ocuparemos de explicar porqué la captura de documentos es el primer paso para la solución.


El primer paso: Hacer accesible la información inmersa en nuestros contenidos digitales

Los ordenadores son máquinas. No pueden “entender” o poner el contexto los contenidos de nuestros activos digitales. Si el propio contenido de un activo digital o datos que expliquen el contenido y la naturaleza de dicho activo (metadatos) no son añadidos a algo así como una tabla de índice en nuestras aplicaciones, es imposible que las máquinas puedan encontrar relaciones entre los datos y poner en contexto lo que como humanos queremos saber de nuestros contenidos digitales. Hoy discutimos si esas tablas de índice podrán ser llevadas a cabo en el futuro inmediato por bases de datos relacionales, cuando ni siquiera hemos dado el primer paso de indexar el contenido presente.

Eso sí, nos hemos dado a la labor de digitalizar todo lo que no tenemos en formato digital, para encontrarnos con el mismo problema. Si no somos capaces de permitir a la máquina acceder a la verdadera información que contienen nuestros activos digitales, estamos tirándolos a un pozo sin fondo. Nos olvidamos de que un documento escaneado no es más que una imagen, que nuestros cerebros humanos pueden leer, pero no los procesadores de nuestras máquinas.

Podemos hacer uso de software de OCR para remediar parcialmente este problema. Añadimos a la tabla de índice de nuestras aplicaciones los contenidos de nuestros documentos y activos digitales, pero si existen datos específicos que necesiten ser compartidos y/o recuperados por diferentes aplicaciones, con sólo el OCR hacemos que la máquina realice un trabajo titánico buscando estos datos en los contenidos de cantidades ingentes de activos digitales.¿Por qué no hacer estos datos más fáciles de acceder trabajándolos como metadatos? Por ejemplo, si nuestro software contable requiere saber el número de cada factura, ¿por qué poner a nuestro software a buscar ese número dentro de la factura cada vez que se requiera? ¿No es más fácil encontrarlo la primera vez guardarlo como metadato del activo digital?
Vale, solventamos el problema de acceso rápido a datos específicos contenidos dentro de nuestros activos digitales, pero aún nos queda algo más que solucionar. Con la cantidad de documentos que recibimos a diario, es viable que nos dediquemos a buscar estos datos en cada documento? No, si estamos hablando de Big Data, por supuesto que no es viable. Pero si ya hemos conseguido que la máquina pueda leer en los contenidos de nuestros documentos escaneados, ¿por qué no pedirle también que ella misma se encargue de extraer para nosotros la información que necesitamos más accesible?

Aquí está el kit del asunto, señores, conseguir que la máquina trabaje por nosotros, y es en dónde primero debemos invertir. Cuando sepamos cómo aprovechar los datos en nuestros contenidos digitales, descubriremos que el problema del BIG DATA se traslada más a dilemas de hardware porque podremos darle al software la entrada de información que está esperando.


Descarga este white paper sobre digitalización inteligente


Contáctanos ahora! Podemos ayudarte y mejorar la gestión de contenido empresarial (ECM) de tu organización.

No hay comentarios:

Publicar un comentario

AddThis