martes, 26 de abril de 2016

Estrategias de Clasificación por Expresiones Regulares en AthentoSE

Las expresiones regulares son, quizás, uno de los recursos más utilizados en la historia de la informática, han estado presentes desde los primeros editores de texto, soportadas también desde los primeros sistemas operativos y hoy en día pueden utilizarse en casi la totalidad de los lenguajes de programación que existen.

Su uso primigenio no difiere mucho del actual. Inicialmente, las expresiones regulares se popularizaron como una forma extremadamente potente de encontrar patrones dentro de un texto. En esencia, hoy en día, se siguen utilizando para exactamente lo mismo: encontrar una o todas las apariciones de un determinado patrón de caracteres dentro de un texto o bien comprobar que una cadena de texto cumple con un determinado patrón definido.

Aunque su uso está limitado a uno de los dos escenarios anteriores, en la práctica, las expresiones regulares son un recurso extraordinariamente útil para cubrir multitud de casos de uso. En Athento SE, las expresiones regulares son la base de distintos procesos de Clasificación Automática de documentos, Extracción de Información y Validación de metadatos. En este post, nos centraremos en las distintas estrategias de Clasificación de documentos usando expresiones regulares que ofrece Athento Smart Engine. 

Clasificando Documentos con Expresiones Regulares

La Clasificación Automática de documentos consiste en la asignación de una o varias categorías o tipos documentales a un determinado documento según ciertos criterios predefinidos. Como resultado de un proceso automático de clasificación, un usuario esperaría que un documento procesado cayera en el mismo saco que el resto de documentos del mismo tipo que ya existen en el sistema con la mínima intervención posible por parte del usuario en el proceso.

Los algoritmos de clasificación de documentos necesitan seguir un determinado criterio a la hora de clasificar, una heurística que indique qué rasgos de los documentos deben utilizarse y de que forma para decidir incluir un documento dentro de un grupo u otro. Athento SE dispone de distintos algoritmos de clasificación que usan distintos criterios para tomar esta decisión:
  • Clasificación por Similitud: el sistema agrupa los documentos por su grado de similitud textual o visual.
  • Clasificación por Template Matching: el sistema categoriza los documentos usando una imagen plantilla que identifica de forma única a cada tipo de documento.
  • Clasificación por Aprendizaje Automático: el sistema aprende a clasificar los documentos de forma progresiva atendiendo al feedback de los usuarios.
  • Clasificación por Expresiones Regulares: el sistema clasifica los documentos en base a unos patrones textuales definidos previamente para cada tipo documental.
Cada uno de los métodos de clasificación anteriores tienen sus ventajas e inconvenientes y la elección para el usuario dependerá siempre del caso de uso que necesite cubrir. La clasificación por Similitud es tremendamente efectiva cuando los documentos de un mismo tipo son muy similares entre ellos y distintos de los documentos del resto de tipos documentales (por ejemplo, cuando queremos clasificar facturas de distintos proveedores). Para la clasificación por Template Matching, es necesario que cada tipo documental contenga una imagen patrón identificativa (por ejemplo, un logo o membrete). La clasificación por Aprendizaje Automático es una buena opción para aquellos casos en el que el resto de métodos no encajan o en los que los documentos son realmente difíciles de clasificar. Aunque es necesario un conjunto de entrenamiento previo con documentos ya clasificados en cada uno de los tipos documentales.

Finalmente, tenemos la clasificación por Expresiones Regulares. En este caso, se definen para cada tipo documental uno o más patrones de texto que los documentos de ese tipo pueden contener y que, en el caso de encontrar una coincidencia del patrón en el texto de un documento, inicialmente se puede considerar dicho documento perteneciente a ese tipo documental. Las expresiones regulares se definen con un lenguaje estándar para definir patrones textuales. Este lenguaje es bastante potente y permite definir desde simple palabras claves como "FACTURA" o "CONTRATO" hasta construcciones realmente complejas. Nuestra experiencia nos dice que en la práctica totalidad de los casos, los usuarios pueden clasificar perfectamente sus documentos usando expresiones regulares sencillas o incluso simples palabras sueltas como las anteriores. En cualquier caso, cuando se tiene la seguridad de que en los documentos pueden encontrarse determinados patrones de texto que los identifican de forma única con respecto a los documentos de otros tipos, este algoritmo de clasificación es, sin duda, el que mayor porcentaje de acierto ofrece.

Estrategias de Clasificación usando Expresiones Regulares

Para habilitar la Clasificación por Expresiones Regulares en Athento SE, simplemente, hay que completar dos sencillos pasos. En primer lugar, activar la operación de Clasificación (cuya configuración veremos a continuación) dentro de una Serie concreta. En segundo lugar, es necesario definir para cada tipo documental en los que queramos clasificar los documentos sus expresiones regulares asociadas.

Workflow de Operaciones
Configuración de Workflow de Operaciones
Una vez creados los tipos documentales, las expresiones regulares pueden asociarse a los mismos de forma sencilla a través de la interfaz:


Cada tipo documental puede tener asociadas una o varias expresiones regulares. Por defecto, el sistema tratará de encontrar una coincidencia en el texto con alguno de los patrones definidos por el usuario bajo la premisa de que el documento donde se encuentre dicho patrón debe tener el tipo documental asociado al mismo ya que, en principio, suponemos que el usuario ha definido patrones únicos para cada tipo documental. Si bien, esto es cierto en la mayoría de las ocasiones, nos encontramos con casos de uso más complejos en los que los tipos documentales no se pueden especificar mediante expresiones regulares disjuntas. Por este motivo, en Athento SE se han desarrollado distintas estrategias de aplicación de expresiones regulares:

Estrategias de Clasificación por Expresiones Regulares
Estrategias de Clasificación por Expresiones Regulares

  • Clasificación Perezosa (Lazy): todas las expresiones regulares asociadas a todos los tipos documentales se van aplicando una a una sin un orden determinado hasta que una de ellas produce un emparejamiento. En ese momento, el sistema daría por concluido el proceso de clasificación y asignaría el tipo documental asociada a dicha expresión. En otras palabras, se clasifica el documento con la primera expresión regular que produce un emparejamiento positivo. Esta estrategia es la más rápida y puede ser usada cuando hay una seguridad de que los distintos documentos de cada tipo documental no pueden compartir ninguna expresión regular. 
  • Clasificación "First Occurrence": en esta estrategia, el sistema registra todos los emparejamientos para todas las expresiones regulares configuradas para todos los tipos documentales y selecciona aquella cuyo emparejamiento empieza antes en el texto (en orden de aparición). En este caso, se prioriza el orden de aparición de las expresiones regulares en el texto.
  • Clasificación "Longest": en esta estrategia, el sistema registra todos los emparejamientos para todas las expresiones regulares configuradas para todos los tipos documentales y selecciona la más larga en términos de número de caracteres de la expresión regular.
  • Clasificación por Mayoría (Majority Vote): en esta estrategia, el sistema registra todos los emparejamientos para todas las expresiones regulares configuradas para todos los tipos documentales y selecciona aquel tipo documental que ha producido un mayor número de emparejamientos.
    Descarga de forma gratuita el Caso de Uso: Clasificación automática de Documentos Legales para seguir aprendiendo cómo funcionan las expresiones regulares y comprobar a nivel práctico cómo se configuran las expresiones regulares desde la interfaz de Athento SE para clasificar documentos de forma automatizada. 

    Caso de Uso: Clasificación Automática de Documentos Legales

    martes, 19 de abril de 2016

    Cloud computing 2016: adopción, seguridad de la información y más

    cloud computing
    Fuente: Pixabay.com
    Hoy queremos compartir con vosotros los datos que arroja un estudio realizado por Spanning en el que han entrevistado a más de 1000 responsables de IT que trabajan con aplicaciones SaaS en sus empresas acerca de la adopción real que tiene el cloud computing a nivel global en 2016. 

    En este estudio, los autores han comparado la percepción que tenemos y la realidad de los datos respecto no sólo a la adopción de las aplicaciones en la nube sino también sobre la protección de los datos y su recuperación.

    Algunas de las conclusiones del estudio son:

    - No sólo son altos los niveles de adopción del cloud computing - se ha quintuplicado desde 2011 pasando de un 13% a un 74% en 2014- sino que sigue creciendo a medida que las empresas se mueven más y más y aumenta la oferta de aplicaciones en la nube. La semana pasada nosotros también analizamos por qué el futuro de la gestión documental está en el cloud y comentamos que la gestión de contenidos empresariales en la nube es cada vez más atractiva para las empresas debido a la reducción de costes, la mejora de la usabilidad con fácil acceso a los documentos, el aumento de la funcionalidad para dispositivos móviles y la facilidad y la rapidez con la que se pueden poner en marcha los proyectos ECM.



    - Las aplicaciones para gestionar la información, la comunicación a través de correo electrónico o mensajes, las aplicaciones de gestión financiera, de clientes (CRM) y de recursos humanos están a la cabeza en la adopción del modelo SaaS.



    - Contrastan los datos que afirman que entre un 65 y un 79% de los usuarios de aplicaciones Cloud confían que sus proveedores SaaS pueden restaurar fácilmente sus datos en la nube frente a que una de las principales causas de pérdida de datos en la nube es la eliminación accidental por parte de los usuarios. El robo de información por parte de hackers o el acceso indebido a información privilegiada son preocupaciones que comparten la mayoría de los usuarios. En este sentido, los cambios en el Acuerdo de Safe Harbor y robustos sistemas de backup y recuperación parecen estar aliviando estos problemas.



    Como vimos en los artículos 8 razones para usar Cloud Compluting y ¿Podemos fiarnos de la nube? hoy en día el Cloud Computing es muy seguro y junto con la facilidad de uso, la facilidad de acceso desde cualquier dispositivo, las mayores posibilidades tanto de customización como de integración con otras aplicaciones de negocio está propiciando que las empresas se decidan por trabajar con herramientas en la nube.

    Aquí os dejamos la infografía completa de Spanning con el resumen de los datos que han recopilado:
    http://go.spanning.com/rs/832-UFI-346/images/Spanning_Infographic_SaaS_Data_Survey_2016.pdf


    Prueba 30 días gratis Athento

    miércoles, 13 de abril de 2016

    El futuro de la gestión documental está en el Cloud


    En el artículo "El mercado ECM y un mejor camino hacia el cloud", nuestro CEO analizó hace un año algunos de los obstáculos con los que las empresas se encontraban a la hora de gestionar sus documentos en la nube y cómo aún no se habían resuelto todas las necesidades de los usuarios. 

    La gestión de contenidos empresariales en la nube se ha convertido en una opción cada vez más atractiva para las empresas cuyos empleados se encuentran distribuidos en distintas localizaciones y necesitan acceder a la información en cualquier lugar y en cualquier momento. 

    De hecho, en los últimos años, el mercado del ECM había visto como algunos de sus potenciales clientes se habían decantado por aplicaciones de file-sharing por su fácil acceso a la información, facilidad de uso y posibilidad de trabajo colaborativo. De modo que la dificultad de uso y acceso a la información ha hecho que otro tipo de productos ganen espacio que antes pertenecía a las plataformas ECM. 

    Sin embargo, los proveedores de software ECM hemos tomado nota y estamos comenzando a construir la tecnología para la gestión de contenidos empresariales del futuro. A medida que han proliferado los dispositivos móviles, las redes sociales y el cloud computing, se han producido importantes cambios en la forma de hacer software ECM empezando a satisfacer las necesidades de los usuarios, donde la perspectiva más prometedora es la nube

    En ese artículo que os mencionaba más arriba, José Luis de la Rosa, terminaba ese artículo diciendo "será cuestión de tiempo que el mundo del ECM dé ese giro que lleva retrasando tanto tiempo". Pues bien, ese momento está llegando.

    En la siguiente gráfica de la AIIM, vemos cuáles son las principales razones para adoptar ECM en modalidad cloud. Destacamos las 4 primeras:

    1. Reducción de costes.
    2. Mejora de acceso a la documentación (ya no tenemos limitado el acceso a nuestras instalaciones).
    3. Mejora del acceso móvil con colaboradores externos.
    4. Facilidad y rapidez de los proyectos ECM .



    Algunas de las razones por las que para muchas empresas elegir una solución de gestión documental en la nube es una decisión obvia son las siguientes: 

    Funcionalidad empresarial de gestión de documentos más fácil de usar

    Las soluciones de gestión documental como Athento permiten la funcionalidad tradicional de una plataforma ECM con acceso más fácil para los usuarios que trabajan en remoto y mayor seguridad que una aplicación de file-sharing. Ofrecen un único espacio de trabajo que alberga toda la información y donde los usuarios pueden editar y compartir documentos desde cualquier lugar con toda la funcionalidad de control de versiones, flujos de trabajo de documentos y trazabilidad de los documentos. Y los datos corporativos sensibles siguen bien protegidos con todas las garantías de seguridad. También permiten la administración de registros y la recuperación de datos a través de la sincronización de archivos y la interfaz de usuario para estas aplicaciones se ha mejorado enormemente. 

    En suma: ya es posible abarcar funcionalidad completa de una plataforma ECM con una mejor facilidad de uso y acceso. 

    En el caso de Athento, vamos más allá y nuestros clientes también tienen disponible toda la funcionalidad avanzada de captura de Athento Smart Engineextracción automática de datos, auto-clasificación de documentos en la nube y otra funcionalidad inteligente de análisis de las características de los documentos (colores, layouts, etc.). 

    La integración con el software de negocio clave para la elección de la plataforma

    Aunque este no es uno de los temas mencionados en la gráfica, es súper importante considerarlo cuando se quiere adoptar software de gestión documental en cloud.

    Una barrera que hasta ahora frenaba a las empresas en la adopción de un sistema de gestión documental en la nube era la imposibilidad de integrar la gestión de documentos con otros aspectos clave del trabajo con los documentos como la gestión de facturas o con su software de negocio.

    En general, las empresas buscan acabar con los silos de información. Tener toda su documentación centralizada para poder explotar la información de forma end-to-end. Esta centralización se consigue por ejemplo, delegando en el software de gestión documental la tarea de servir de repositorio al resto de aplicaciones y software de negocio.  Para esto es súper importante saber que las aplicaciones cloud de gestión documental cuentan con APIs que nos permitan integrar nuestro software con dicha aplicación (y del coste que va a suponer para nosotros hacer uso de las APIs).

    En el siguiente enlace podéis ver cómo es posible con llamadas sencillas hacer operaciones como crear o consultar documentos desde Athento ECM:
    https://athento.atlassian.net/wiki/pages/viewpage.action?pageId=43548711


    Ahorro de costes y de la carga de trabajo que supone mantener el sistema ECM 

    Otra de las ventajas que hará que las empresas se decidan por un gestor documental en la nube es el ahorro de costes tanto de implementación como de mantenimiento del sistema ECM asociados a las soluciones on-premise

    Por un lado, las plataformas ECM en la nube se ofrecen bajo un modelo de pago por uso que supone cero inversión en hardware y una inversión inicial en el software mucho menor que en el modelo on premise. El modelo cloud ofrece la ventaja de comenzar a trabajar con el software desde el primer día sin largos periodos de implementación facilitando la adaptación de los usuarios. 

    Además, no obliga a las empresas a que sus departamentos de IT sean expertos en el sistema de gestión documental ya que no tienen que realizar el mantenimiento del mismo pudiendo dedicarse a gestionar otras aplicaciones que sean clave para el negocio (en este artículo te contamos cómo funcionan las suscripciones de Athento). 


    Prueba 30 días gratis Athento

    martes, 12 de abril de 2016

    El mercado ECM y un mejor camino hacia el Cloud


    Llevamos tanto tiempo pensando de una determinada forma en el mercado de la Gestión Documental y el Enterprise Content Management, que el cambio nos resulta complejo.

    Me contaban dos de los miembros del equipo comercial de Athento, que durante una visita a un cliente en Madrid –una corporación con operaciones en USA, UK, España y varios países de América Latina- éste les dijo:

    “Es que en España los proveedores no entienden lo que significa cloud”.

    Ese es el punto de partida de este artículo, que gira en la misma órbita de los que vengo escribiendo hace un par de meses, y que lo que viene a decir es que la industria del ECM se mueve con dificultades para seguirle el paso a un mercado que avanza a la velocidad de la luz.

    Lo que este cliente le contaba a mi equipo, es que buscando un proveedor local de gestión documental cloud en España se encontraba con escenarios como:

    A) Posibilidades nulas de customización

    Sí, somos cloud. Te proveemos acceso al software en un entorno cloud público que puedes tener sincronizado con instancias locales o cloud privados, con tu soporte, un número de usuarios y capacidad de almacenamiento, etc.

    Hasta aquí todo fenomenal, pero tengo unos 15 tipos documentales propios que el proveedor no me permite llevarme a la nube.

    Esto puede funcionar para empresas pequeñas y medianas (y no termina de tener mucho sentido), pero para una empresa como este cliente del que os hablamos, este escenario es inasumible.

    B) Los que confunden cloud con hosting

    Sí, te ponemos el software en la nube. Nosotros te habilitamos una máquina y el software y vosotros os encargáis del resto. ¿Políticas Cloud? ¿SLAs?¿Proyecciones de Escalabilidad? ¿¿???

    Una de las mayores economías de escala a nivel del cloud, es que cada vez más, nuestros equipos técnicos internos se puedan dedicar a la infraestructura tecnológica que afecta directamente a su negocio. Es decir, ya no necesitamos –ni queremos- un equipo que sea experto en la gran cantidad de aplicaciones que utilizamos a nivel empresarial, por un lado porque cuesta mucho, y por otro lado, porque no es razonable pensar que nuestro equipo puede ser experto en todo.

    El software ECM no es una aplicación de negocio como tal, es un soporte al sistema de información de nuestra empresa. Un backup, un respaldo. Nos da la tranquilidad de que la información que producen las aplicaciones de negocio, las personas y el negocio en sí, está segura y accesible. El gestor documental no es para nadie la aplicación crucial de la que depende el negocio, por tanto, ¿tiene que ser nuestro equipo técnico experto en gestores documentales? Yo creo que no, y lo mismo piensa el director de arquitectura técnica en esta gran corporación de la que os hablo hoy.

    Tampoco podemos pedirle a nuestro equipo que asuma responsabilidades accesorias al software ECM como las que comentaba arriba (soporte, backups, escalabilidad, seguridad, etc.). Lo que el cloud significa para nuestros equipos es precisamente poder liberarles de estas tareas.

    C) Los que obligan al cliente a depender

    Este es el caso en el que caen la mayoría de grandes proveedores, porque, como ya lo había comentado en artículos anteriores (¿Por qué el mundo del ECM insiste en hacer dependiente al cliente?), es una cuestión de diseño de software. El software está diseñado para que cualquier customización que el cliente necesite tenga que hacerse a través de servicios profesionales. El software no se pensó con la visión “producto flexible”, si no con la visión “potente para proyectos”. No se pensó con la visión de “configurar”, sino con la visión de “desarrollar”. No se pensó con la visión de “lo necesito ya”, sino con la visión de “consulta este Gantt para ver cuando lo tienes…y no te olvides de que esto es una estimación”.

    Para mí, este último punto es el más complejo. Porque los dos primeros, son sobre todo de idiosincrasia. Son de mercados hispanos que van más lentos en la adopción del cloud que los mercados anglosajones. Pero este último punto viene precisamente de esos grandes proveedores que no son españoles y que han tenido mucho miedo de dar el paso antes.

    Me gustaría cerrar este artículo diciendo que no todo está perdido. Hace unas dos semanas, se publicó en CMSWire un artículo llamado “Documentum podría no ser la visión de EMC”. Para los que conocemos la industria, el sólo titular es muy fuerte.  Documetum ha estado tanto tiempo entre nosotros que encarna todo lo que conocemos del software ECM. Siempre en el cuadrante de Gartner, siempre la referencia y, sin embargo, sus creadores ahora ponen en duda que ese sea el futuro.

    Project Horizon, es el futuro de EMC y según la visión trasmitida por Ghai –presidente de la división de EC de EMC- huele a cloud de verdad por donde se le mire, algunas señas:

    • Multitenant
    • Ciclos de innovación de semanas (y no de meses o años como ahora)
    • Módulos independientes e integrables
    • Modelo de consumo de aplicaciones
    • ¡Pago por uso!
    Como veis, será cuestión de tiempo que el mercado del ECM dé ese giro que lleva retrasando tanto tiempo.

    Este artículo fue publicado originalmente por José Luis de la Rosa en LinkedIn:
    https://www.linkedin.com/pulse/el-mercado-ecm-y-un-mejor-camino-hacia-cloud-jos%C3%A9-luis-de-la-rosa

    Prueba 30 días gratis Athento

    miércoles, 6 de abril de 2016

    Casos de Uso de Códigos de Barras y QRs en Gestión Documental

    En esta entrada vamos a ver cómo usar códigos de barras y códigos QR para automatizar tareas de gestión documental y captura de documentos.

    Athento SE es capaz de leer códigos QR y de barras durante la carga de documentos, estos códigos pueden ser utilizados para:
    • Contener datos a contrastar con el contenido del documento. Por ejemplo, que el código QR contiene el número de DNI de una persona y se utiliza para ver si alguna de las páginas identificadas como DNI contiene dicho número. Esta práctica puede ser usada por ejemplo en casos de prevención de fraude.
    • Contener un identificador que permite obtener datos de una BBDD que son importados a Athento como metadatos y usados en el proceso de validación.

    Los códigos de barras y QR son en estos casos generados fuera de Athento que los lee y los utiliza en tareas de validación y/o extracción de datos.

    Lo positivo de usar códigos QR/barras es que en caso de buena calidad de los documentos (códigos legibles) la calidad de la extracción puede ser de un 100%. Se recomienda que los códigos QR contengan la menor cantidad de información posible tales como identificadores que luego permitan consultar, a partir de éstos, los datos en una BBDD.

    Además, en algunos casos, los clientes pueden usar varios tipos de código, por ejemplo, un código PDF417 para incluir gran cantidad de datos y un código de barras (en otra posición distinta del documento) para que, en caso de error en el primer código, se pueda seguir avanzando en el tratamiento del documento.

    Athento dispone actualmente de tres motores integrados para la lectura de códigos de barras y códigos QR (así como códigos 1D, 2D, UPC, EAN, Código 128, Data Matrix, PDF-417, etc.)

    La lectura de los códigos puede hacerse sobre un documento completo o directamente definiendo un metadato. En el caso de que sea un metadato puede encontrarse en una posición concreta o ser buscado mediante un algoritmo de similitud (template matching) en todo el documento.





    De este tema ya habíamos hablado en artículos anteriores.

    Pero el uso de los códigos de barras en captura de documentos no sólo se limita a la extracción y validación de códigos QR y de barras.

    Athento SE puede generar códigos de barras (PDF417) y códigos QR:



    Básicamente, lo que el software hace es exportar los metadatos del documento en forma de códigos QR o de barras. ¿Para qué nos sirve esto? A continuación algunos casos de uso:
    1. Registro de Entrada: Cuando requerimos por ejemplo que alguien se lleve una copia del documento para que quede constancia de que ha iniciado un trámite o de que se ha recibido una factura que debe ser pagada, es posible imprimir el código de barras sobre la copia que se entrega al solicitante (directamente sobre el documento o a modo de pegatina). En ese código de barras podemos incluir la fecha y hora de recepción y demás datos que queramos incluir.
    2. Digitalización diferida de documentos: Por ejemplo, queremos asociar documentación de un mismo expediente recibidos en momentos temporales distintos. O queremos crear el registro del documento en el sistema, pero los documentos se digitalizan en un proceso centralizado que requiere una subida masiva de documentos al sistema.

    En el caso de este segundo del punto 2, el proceso funcionaría de la siguiente manera:
    1. Se crea el documento en el sistema sin tener aún su contenido digitalizado.
    2. Las personas encargadas de su gestión podrán introducir de forma manual los metadatos de los documentos de forma rápida. 
    3. El sistema generará un código de barras o código de QR que se imprimirá como una pegatina y se pegará sobre el documento en papel. Este código contendrá un número identificador del documento. 
    4. Los documentos se escanearán de forma desatendida y mediante el código QR o de barras, el sistema hará un matching entre el documento creado en el sistema y su contenido digital recientemente escaneado.

    Caso de Uso: Clasificación Automática de Documentos Legales

    lunes, 4 de abril de 2016

    Tests de Rendimiento del Gestor Documental

    En Athento nos preocupa que nuestros clientes disfruten de una Experiencia de Usuario -UE- excepcional con la Gestión Documental. Un factor fundamental es la velocidad de respuesta de la aplicación. Somos conscientes de éso, por eso disponemos de herramientas y procedimientos que nos permiten medir el rendimiento. Dedicamos tiempo a definir métricas, lanzar tests automatizados, y verificar empíricamente, después de cada puesta en producción y durante las fases de desarrollo de forma interna, que la experiencia de usuario sigue siendo excepcional.

    ¿Qué Medir?

    Existen una serie de operaciones que, independientemente del uso particular que cada cliente le de al Gestor Documental, son clave y hay que controlar:
    • Navegación - Tiempo en abrir un documento
    • Subida de documentos - Tiempo que tarda el Gestor Documental en subir un documento
    Estas métricas se aplican a distintos entornos simulados, con distintos niveles de estrés y concurrencia. La definición de los distintos Escenarios es clave para poder establecer un balanceo correcto entre las expectativas del usuario y el entorno en el que se encuentra su Gestor Documental.


    En las pruebas, obtenemos las siguientes métricas:
    • Transacciones por segundo
    • "Throughput transaction" vs usuarios concurrentes
    • Peticiones por segundo (hits/s)
    • Tiempos de respuesta vs usuarios concurrentes
    Remarcamos "Tiempos de respuesta" porque si bien el resto de métricas nos dan una información muy útil para controlar la salud del sistema, es sin duda el tiempo de respuesta (que no es independiente de los otros valores) el que marca la experiencia de usuario. Somos conscientes de ello.

    Nota: Los threads son un aspecto de configuración, razón por la que condicionamos las métricas al valor configurado.

    ¿Cómo medir el tiempo de respuesta?

    A continuación, describimos dos pruebas automatizadas que nosotros usualmente utilizamos para medir los tiempos de respuesta de nuestras instancias y las de nuestros clientes.


    Podemos realizar estas pruebas con JMetter, estableciendo parámetros en nuestras pruebas, por ejemplo:

    • Número de documentos en el repositorio (este valor lo establecemos en el momento de la implantación, siendo variable cuando está en producción): 800.000 documentos.
    • Número de usuarios simultáneos: 30, 40 y 50
    • Ramp-up time (segundos): 60, 90 y 120
    • Bucle (iteraciones): 10, 30, 50
    • La representación de cada escenario es: Users/Rampup/Iterations (por ejemplo 30/60/10)


    De cualquier manera, estos parámetros deberán estar en concordancia con las necesidades de nuestra compañía o características actuales de la instancia.

    Para controlar las variables de las que hablabamos en el punto anterior definimos dos pruebas:

    Prueba de Navegación básica

    Se realizan los siguientes pasos:
    1. Login
    2. Navegación por Workspace y Carpeta hasta un tercer nivel 
    3. Abrir un documento dentro de una Carpeta 
    4. Navegamos por 4 TABS en el Documento: Sumario, Relaciones, Comentarios, Histórico.
    5. Logout 
    La realización de este test la podemos complementar con el uso de  Ghost Inspector. Este test en Ghost Inspector, nos va a permitir además, controlar que la aplicación se mantiene funcional a nivel de navegación y dispoibilidad de forma continua.

    Además, tmbién nos da información sobre el tiempo que se toma el test:



    Prueba de Creación de un documento (a través de la API) 

    El test realiza los siguientes pasos:

    1. Se comprueba si existe un determinado Workspace y si no existe, se crea (sólo ocurre la primera vez)
    2. Se crea una Carpeta dentro del Workspace 
    3. Creamos 10 documentos secuencialmente dentro de la Carpeta, a los que secuencialmente adjuntamos un fichero. 
    4. Buscamos y obtenemos cada uno de los 10 documentos.
    Este tipo de pruebas las podemos complementar mediante herramientas como Runscope.


    ¿Qué resultados son aceptables?

    Debemos prestar atención a los siguientes datos:
    • Tiempo medio de acceso a un documento durante la ejecución de los tests.
    • Tiempo medio de escritura de un documento durante la ejecución de los tests.
    • Número de usuarios concurrentes (máximo) en el que estos valores son válidos.
    En el caso de los test de navegación, si tenemos usuarios entrando y navegando en el software, estos van a ser el mejor termómetro, y nos van a decir si las velocidades de la aplicación son aceptables o no. Por supuesto, tenemos que anticiparnos a esto. Podemos medir la duración media de los test.

    Los test de utilización de la API también nos van a permitir saber qué tal va el rendimiento. En una instancia con 12 millones de documentos, podemos tener por ejemplo, un tiempo medio de creación de documento de 1031ms.



    Caso de Uso: Clasificación Automática de Documentos Legales

    AddThis