domingo, 25 de septiembre de 2011

Ejemplo De Uso del Autotagging de Athento iDM: De 8 Minutos A 5 Segundos Extrayendo La Información Importante De Un Currículum Vitae

No es la primera vez que os contamos algo acerca de nuestro módulo de Autoetiquetado. Para los que , sin embargo, no sabéis de qué va esto del Autoetiquetado, os lo contamos brevemente. Autoetiquetado es una de las funcionalidades incluidas en nuestra solución de gestión de contenidos empresariales, Athento iDM. Una solución de gestión inteligente. Básicamente, esta herramienta trabaja codo a codo con el OCR de Athento para extraer del contenido de un documento palabras claves que puedan ser utilizadas como etiquetas y que nos ayuden a encontrar documentos desde una nube de tags. Es una manera de crear un acceso rápido a documentos que comparten cierta temática o que se relacionan con determinado término.

¿Eso es todo? Sí, simple ¿verdad?. Simple, pero tremendamente útil, vamos a explicarlo con un ejemplo, que es la mejor manera de entender la forma en que podemos sacarle partido a algo.

Utilizaremos el caso de una ETT, o, cualquier empresa (virtual o física) o departamento de RRHH que se dedique a proveer a las empresas de personal cualificado para cubrir sus vacantes.

Este tipo de empresas suelen recibir Currículum Vitae (u Hojas de Vida para nuestros lectores latinoamericanos) en papel o en ficheros digitales. Algunas, sobretodo aquellas que son portales web, hacen que sea el candidato quien rellene los datos que la aplicación va a necesitar para relacionar a los postulantes con vacantes mediante sus cualificaciones. Sin embargo, siguen dejando la posibilidad al candidato de que adjunte su propio currículum como fichero porque saben que hay mucha más información en los CVs que la que se pueda recopilar mediante la inflexibilidad de los formularios web.

De cualquier manera, el obtener la información importante, aunque sean los usuarios externos quienes lleven a cabo el proceso, sigue siendo un proceso manual, tedioso y que toma su tiempo.

Por ejemplo, rellenar el primer formulario en el famoso portal InfoJobs toma a un usuario promedio habituado a la web una media de 2 minutos (el formulario sólo recopila información sobre la cuenta a crear) y al usuario aún le quedan al menos 3 grandes apartados que rellenar (Estudios, Experiencias y Futuro empleo). Siendo optimistas, diremos que como mínimo el proceso en total para un usuario tardará 8 minutos.

Los americanos, que saben mucho de usabilidad, web y otros muchos temas, tienen claro que en este tiempo bien pueden perder un nuevo usuario. LinkedIn es un maravilloso ejemplo de como podemos ayudar a reducir el tiempo que un usuario se toma completando su currículum. LinkedIn ofrece a sus usuarios la posibilidad de subir un currículum en formato PDF, Microsoft Word u otros para completar sus perfiles. La aplicación extrae los datos extraídos del currículum vítae y se añaden al contenido de perfil de usuario. No vamos a entrar a estudiar la efectividad de esta herramienta en particular, sólo vamos a decir, que en la mayoría de los casos ofrece alguna ayuda para completar un currículum.



En el caso de las ETT y los departamentos de Recursos Humanos es aún más frecuente que el proceso de extraer información de currículums en papel o en formato digital lo tenga que hacer un empleado.

Si se recibieran por ejemplo 50 currículums diarios por cualquier vía (adjuntos vía e-mail, papel, incluidos en un perfil que se ha creado, etc) y suponiendo que el extraer la información importante del currículum toma a un empleado lo mismo que le tomaría a un usuario en un portal de empleo, estamos hablando de un poco más de 6 horas y media a diario consumidas en el proceso.

¿Y cuando queramos encontrar a alguien para cubrir un puesto? Las empresas que tengan los datos de los candidatos digitalizados lo tienen un poco más fácil, sus aplicaciones deberían ofrecerles la manera de consultar en la base de datos y cruzar requerimientos del puesto con cualificaciones de usuarios, sin embargo, tendríamos el problema de que en muchos de los casos la información más completa se encuentra en los currículums propios de los usuarios que son adjuntados como ficheros a un perfil . En aquellas empresas en las que aún se manejan currículums en papel, alguien se verá obligado a revisar estos documentos uno a uno para saber si cumplen con un determinado requerimiento o no.

De manera que se ponen de manifiesto dos problemas: obtener la información procedente de curriculums sigue siendo un trabajo manual que ocupa demasiado tiempo y el acceso de manera rápida y certera a aquellos candidatos que posean cierto conocimiento o habilidad no termina de ser un proceso eficiente (y a veces ni siquiera efectivo). Vamos a estudiar ahora como alguien mediante Athento iDM podría mejorar dramáticamente ambos procesos usando los módulos OCR y Autotagging. Veámoslo paso a paso.

1.Obteniendo e indexando todo el contenido del currículum
Mediante su motor OCR (Tesseract) Athento extrae los datos contenidos dentro de ficheros que son imágenes (TIFF, PNG, PDF, DOC, XLS, GIF, JPEG). Los datos de otros documentos de texto (.doc, .odt, etc.) no tienen problemas, al no ser imágenes, y los obtendremos rápidamente. Este proceso es prácticamente inmediato (se tarda unos pocos segundos por documento) y lo mejor, es transparente para el usuario que lo único que tiene que hacer es subir un archivo al repositorio (Ya sea un currículum escaneado, enviado mediante correo electrónico, añadido por medio de WebDav, etc.) De 8 minutos por currículum para obtener todos los datos pasamos a no más de 5 segundos. El OCR usado en Athento tiene una tasa promedio de éxito de extracción de datos del 96% .

2.Obteniendo las etiquetas
Athento iDM usa su módulo de Autottaging para buscar dentro del contenido indexado las palabras más relevantes. Esas palabras se convertirán en etiquetas que reunirán a todos los documentos que la contengan. Por ejemplo, en un currículum de un programador la palabra JAVA será una palabra relevante. Es importante hacer notar que en un documento pueden encontrarse muchas palabras como por ejemplo artículos, preposiciones, etc. Estas palabras no tienen relevancia alguna. Si agrupásemos en una misma categoría, etiqueta o tag aquellos documentos que contienen por ejemplo la palabra “por”, dicho grupo contendría seguramente la totalidad de los documentos en el repositorio; por lo tanto, no nos serviría de nada. Ahí vemos pues, algo de lo que nosotros llamamos “Inteligencia Documental” ya que Athento puede razonar sobre qué términos son o no relevantes dentro del contenido.



3.Buscando Contenidos por etiquetas
Siguiendo con el ejemplo del término JAVA dentro de un currículum de un programador, al pinchar dentro de esta etiqueta en nuestra nube de tags obtendríamos todos los currículums de los programadores que han incluido este lenguaje de programación dentro de sus habilidades y conocimientos. Con total seguridad, tendríamos también dentro de nuestra nube de tags una etiqueta “programador” que nos daría acceso a todos los programadores de los que tenemos un currículums con sólo hacer un clic. La búsqueda pues de candidatos con un conocimiento particular se reduciría a lo que el usuario tarde en hacer clic sobre una etiqueta. Como valor añadido, Athento nos ofrecería un enlace a la Wikipedía por cada etiqueta en el sistema, por si queremos saber a qué se refiere cada etiqueta.

Con este ejemplo hemos visto como Athento iDM reduce de 8 minutos a 5 segundos la extracción de la información contenida en un currículum y convierte la búsqueda de proceso manual a proceso automático o de una búsqueda rellenando formularios (que es lo que ofrecen las aplicaciones comúnmente) a un clic. Esperamos que el ejemplo os haya resultado clarificador.
La Inteligencia de Athento Libera del Papel al Proceso de Contratación de Empleados

No hay comentarios:

Publicar un comentario

AddThis