“Ponemos a prueba la precisión de el analizador de texto semántico de Athento frente al motor semántico Apache Stanbol usado por proveedores de sistemas de gestión documental como Nuxeo”
Durante los últimos meses el concepto de la semántica asociada a la gestión documental ha cobrado fuerza. La importancia de dicho concepto aplicado a la gestión documental se encuentra en la capacidad de construir relaciones entre documentos que faciliten el camino hacia la construcción de conocimiento. Es decir, transformar datos desestructurados en información comprensible sobre un sistema, la empresa, un proyecto, procesos, etc. En Yerbabuena ya venimos hablando de semántica y tecnologías inteligentes desde hace dos años, y hoy en día otros proveedores de sistemas DMS comienzan a darle a estás tecnologías una importancia creciente. Nuxeo es una de aquellas compañías que ya ha dado un paso importante con su paquete “Semantic Entities” que utiliza el motor semántico Apache Stanbol para encontrar nombres de personas, lugares y organizaciones que luego asocia con sus respectivas entradas en la DBpedia. Este pluging de Nuxeo visualiza la entidad encontrada mediante una imagen (que puede ser por ejemplo una foto del nombre de la persona hallado o una bandera) y nos permite mediante un enlace acceder a todos los documentos en los que se menciona dicha entidad.
Athento tiene un módulo semántico similar, aunque más avanzado que encuentra cualquier término que resulte de importancia dentro del contenido del texto del documento y los convierte en etiquetas que nos permiten relacionar documentos que comparten temática, u información común. Ver un ejemplo de Autotagging en la gestión de curriculums vitaes.
Quisimos poner a prueba la tasa de precisión del analizador de texto que Athento utiliza frente al motor semántico Stanbol en la gestión de documentos; para ello, subimos a un Nuxeo + Stanbol y a un Nuxeo+Athento el mismo documento PDF. El documento, se denomina “Seis Pasos Para Liberar A Mi Empresa Del Papel” y es un documento cuyo contenido muchos de vosotros ya habéis leído y que se encuentra como un post en este blog. El documento habla sobre digitalización. Para una persona los términos más relevantes dentro de este texto giran en torno a las siguientes:
Gestión Documental | Proyecto | Costes |
Digitalización | Inversión | Empresa |
Papel | Gastos | ICR |
Documentos | Captura | Beneficios |
Software | Hardware | OCR |
Escáner | Información | Digital |
Distribuida | Documentación | Extraer |
Queríamos ver cuál era la eficacia tanto de Athento como de Stanbol a la hora de extraer estas palabras del texto y la verdad, los resultados nos sorprendieron bastante.
Palabras encontradas por Stanbol: 'como' y 'espaa'.
Asumimos que la primera la encuentra por la cantidad de veces que se repite en el texto y la segunda debe ser 'España', y por algún problema de codificación sólo extrajo 'espaa'.
Palabras encontradas por Athento: 77
Palabra Clave | ¿Encontrada por Stanbol? | ¿Encontrada por Athento? |
Gestión Documental | no | si |
Digitalización | no | si |
Papel | no | no |
Documentos | no | si |
Software | no | no |
Escáner | no | si |
Distribuida | no | si |
Proyecto | no | si |
Inversión | no | no |
Gastos | no | no |
Captura | no | si |
Hardware | no | no |
Información | no | si |
Documentación | no | si |
Costes | no | no |
Empresa | no | si |
ICR | no | no |
Beneficios | no | si |
OCR | no | no |
Digital | no | si |
Extraer | no | si |
Porcentaje de acierto de Athento: 61,90%

Porcentaje de acierto de Stanbol: 0%

Podéis comprobarlo por vosotros mismos con nuestra demo gratuita con vuestros propios documentos .
Contáctanos ahora! Podemos ayudarte y mejorar la gestión documental de tu empresa.

me ha parecido muy interesante vuestro análisis. Lo que se me escapa es como Nuxeo colabora y apoya el proyecto Apache Stanbol para unos resultados (de momento) tan pobres...
ResponderEliminar¿puede que se deba a que no se ha pulido/incluido el idioma?
Hola Jmcollado!
ResponderEliminarEl proyecto Stanbol se encuentra aún en incubación, es una apuesta interesante, que sin duda con el tiempo y con el apoyo de compañías como Nuxeo seguirá dando resultados positivos.
Y efectivamente, como se puede ver con el término "España", que Stanbol ha encontrado como "espaa", el tema del lenguaje afecta. No hemos probado Stanbol con textos en inglés, en donde seguramente aumentaría su tasa de acierto; pero lo que si sabemos es que la potencia de este tipo de motores depende directamente de la base de conocimiento de la que tira el motor semántico y en ese sentido, a Stanbol aún le queda mucho por hacer.
Bueno, no se si por desconocimiento o intencionadamente, pero este post no tiene ni pies ni cabeza. El intento de comparación que hacéis carece completamente de sentido. Mientras que Athento lo que hace es extraer palabras claves semánticamente importantes en el texto (o tags semánticos, como los queráis llamar), el módulo de Stanbol que habéis probado intenta extraer entidades nombradas, es decir, Personas, Lugares y Organizaciones (nombres propios). No utiliza un algoritmo destinado a extraer conceptos claves, sino entidades, por tanto es imposible que detecte esa lista de conceptos simplemente por que no lo intenta.
ResponderEliminarLo interesante de Stanbol es que incluir un algoritmo similar al que pueda tener Athento de extracción de etiquetas semánticas (que por cierto son solo conceptos, no se ciñen a un modelo de conocimiento) es bastante sencillo y más cuando se trata de un proceso no supervisado en el que no se necesita un corpus de entrenamiento. Además, permite trabajar con vocabularios en SKOS y detectar entidades en cualquier dominio.
En cuanto al comentario de Verónica, no es cierto que la potencia de Stanbol dependa de la base de conocimiento del motor semántico. De hecho la base de conocimiento que se usa por defecto. DBPedia, es utilizada para enlazar las entidades, no para detectarlas. Para detectarlas se utilizan modelos NER ya entrenados que no dependen de ninguna base de conocimiento. De todas formas, si así fuera, decir que a Stanbol le quedaría mucho por hacer usando la DBPedia, la mayor base de conocimiento generalista semántica, también es decir algo sin sentido.
Un Saludo