jueves, 15 de enero de 2015

Anonimización de metadatos con Athento SE



Suele ocurrir en el sector bancario, que necesitan extraer información de documentos, pero que esta información no puede ser vista por cualquier usuario. Es decir, hay que hacer una censura de ciertos metadatos en el documento y que la aplicación tampoco los muestre si el usuario que accede al documento no debiera verlos.

Athento SE ofrece esta funcionalidad de anonimización de metadatos.

Por un lado, se censuran los datos en el documento.



Por otro lado, a estos usuarios se les ocultan los campos en la propia interfaz del SE.



¿Cómo funciona la anonimización?

Mecanismo A: Mediante coordenadas a censurar
Este método nos funciona en aquellos documentos en los que los datos a censurar siempre aparecen en el mismo lugar. Así que le indicamos al sistema las coordenadas físicas absolutas en el documento donde se encuentra el dato a censurar.

Mecanismo B: Mediante anclajes textuales
Haciendo un proceso de HOCR (ya explicaremos esta operación de captura de datos a fondo en otro post) podemos buscar una palabra en el texto del documento que nos sirva como referencia para encontrar el dato que queremos censurar. Por ejemplo, un número de cuenta bancaria. Buscamos “Cuenta de Abono IBAN” sin importar si esta palabra cambia de ubicación dentro de los documentos (en la muestra aparece en la parte inferior, pero puede que en otros recibos aparezca arriba). Por ejemplo, unas veces aparece en la parte inferior del documento y otras veces en la parte inferior, por lo que no podemos definir coordenadas absolutas para encontrar este dato. A partir de la palabra ancla, definimos unas coordenadas que coincidan con el tamaño del dato a censurar. En el caso de número de cuenta, el número que queremos censurar aparece justo debajo de la palabra “Cuenta de Abono”, por lo que usamos esta palabra como anclaje para saber dónde posicionar el recuadro negro de la censura.


No hay comentarios:

Publicar un comentario

AddThis