Suele ocurrir en el sector bancario, que necesitan extraer
información de documentos, pero que esta información no puede ser vista por
cualquier usuario. Es decir, hay que hacer una censura de ciertos metadatos en
el documento y que la aplicación tampoco los muestre si el usuario que accede
al documento no debiera verlos.
Athento SE ofrece esta funcionalidad de anonimización de metadatos.
Por un lado, se censuran los datos en el documento.
Por otro lado, a estos usuarios se les ocultan los campos en
la propia interfaz del SE.
¿Cómo funciona la anonimización?
Mecanismo A: Mediante
coordenadas a censurar
Este método nos funciona en aquellos documentos en los que
los datos a censurar siempre aparecen en el mismo lugar. Así que le indicamos
al sistema las coordenadas físicas absolutas en el documento donde se encuentra
el dato a censurar.
Mecanismo B: Mediante
anclajes textuales
Haciendo un proceso de HOCR (ya explicaremos esta operación de captura de datos
a fondo en otro post) podemos buscar una palabra en el texto del documento que
nos sirva como referencia para encontrar el dato que queremos censurar. Por
ejemplo, un número de cuenta bancaria. Buscamos “Cuenta de Abono IBAN” sin importar
si esta palabra cambia de ubicación dentro de los documentos (en la muestra aparece en la parte inferior, pero puede que en otros recibos aparezca arriba). Por ejemplo, unas
veces aparece en la parte inferior del documento y otras veces en la parte
inferior, por lo que no podemos definir coordenadas absolutas para encontrar
este dato. A partir de la palabra ancla, definimos unas coordenadas que
coincidan con el tamaño del dato a censurar. En el caso de número de cuenta, el número que queremos censurar aparece justo debajo de la
palabra “Cuenta de Abono”, por lo que usamos esta palabra como anclaje para
saber dónde posicionar el recuadro negro de la censura.

No hay comentarios:
Publicar un comentario