Letra T.
Taxonomía
El término taxonomía se refiere de una manera muy general, a la ciencia de la organización basándose en la semántica de los elementos a organizar. Son esquemas de clasificación que hacen más fácil identificar categorías o grupos dentro de un conjunto de objetos.
En Gestión Documental, la taxonomía se emplea en la organización de los documentos, de manera que sea más fácil navegar entre grandes cantidades de documentos gracias a que estos se encuentran clasificados en grupos o cetegorías.
En Gestión Documental, la taxonomía se emplea en la organización de los documentos, de manera que sea más fácil navegar entre grandes cantidades de documentos gracias a que estos se encuentran clasificados en grupos o cetegorías.
Template Creator
Template Creator es una herramienta gráfica de Athento para la definición de campos de extracción de datos en documentos. El uso de esta herramienta permite al usuario definir las coordenadas en las que se debe encontrar siempre un metadato en un tipo de documento concreto.
Por ejemplo, si todas las facturas que genera una empresa tienen siempre el campo "CIF" del comprador en el mismo lugar, podemos definir un campo con Template Creator sobre el número de "CIF", asociándolo al metadato "CIF del comprador". Así, cada vez que dicha empresa digitalice una factura, automáticamente se extraerá ese metadato.
De esta manera, la extracción de metadatos de documentos es mucho más fácil.
Template Creator es una herramienta gráfica de Athento para la definición de campos de extracción de datos en documentos. El uso de esta herramienta permite al usuario definir las coordenadas en las que se debe encontrar siempre un metadato en un tipo de documento concreto.
Por ejemplo, si todas las facturas que genera una empresa tienen siempre el campo "CIF" del comprador en el mismo lugar, podemos definir un campo con Template Creator sobre el número de "CIF", asociándolo al metadato "CIF del comprador". Así, cada vez que dicha empresa digitalice una factura, automáticamente se extraerá ese metadato.
De esta manera, la extracción de metadatos de documentos es mucho más fácil.
Tesseract OCR
Tesseract OCR, o símplemente Tesseract, es un motor de OCR (Optical Character Recognition) desarrollado bajo la filosofía de software libre. Actualmente es uno de los mejor considerados por su precisión y se encuentra en la versión 3.02.
Originalmente fue desarrollado por Hewlett Packard, que tras diez años sin soporte ni desarrollo decidió liberarlo como código libre, en el año 2006. Desde entonces, Google ha patrocinado su desarrollo, que lo han llevado a cabo desarrolladores de código libre.
Tesseract puede leer una gran variedad de formatos de imagen (todos los más extendidos y la mayoría de los menos conocidos) y convertirlos a texto en más de 60 idiomas.
Pero este motor de OCR no es útil sólo por sus funcionalides, sino también por ser multiplataforma: está disponible para Linux, Windows y Mac OSX, y además puede ser compilado para otras plataformas como Android o iOS (iPhone).
Los motores OCR son un elemento de importancia capital en los proyectos de digitalización y captura de documentos.
Tipo documental
El concepto de "tipo documental" o "tipología documental" es bastante amplio.
Por un lado podemos hablar de los tipos documentales que se emplean para la clasificación de documentos en la empresa o en la industria, que van desde modelo XXX, formulario de reclamaciones o solicitud de baja del servicio, a documentos como facturas o albaranes, cada uno con unas características específicas, y con unos datos concretos que lo diferencian de los demás.
Pero de manera mucho más general se puede hablar de tipo documental para referirnos a la estructura del documento: si está estructurado, semiestructurado o no estructurado.
En la primera clasificación encontraríamos documentos que siempre tienen el mismo formato y contienen los mismos datos, por lo que es fácil crear plantillas de extracción y definir los metadatos a extraer de los mismos.
Los documentos semiestructurados son aquellos en los que, a pesar de que sabemos que siempre tienen que contener algunos datos concretos, como en el caso de una factura, que siempre contendrá un CIF, un IVA, un importe y datos del cliente, no siempre ocupan el mismo lugar estos datos. Cada empresa los organiza de una manera diferente, e incluso algunas empresas no siempre emiten las facturas con el mismo formato.
El último caso es el de los documentos desestructurados. Son el peor tipo desde todos los aspectos: no se sabe exáctamente qué datos vamos a encontrar en ellos, ni exáctamente en qué posición, por lo que no son los más recomendables para estar bien organizados.
Si te interesa este tema, puedes seguir leyendo sobre él en este post de Verónica Meza sobre Tipos Documentales Y Extracción de Datos.
Athento Touch
Athento Touch es una interfaz táctil que permite trabajar desde dispositivos móviles con documentos almacendos en software ECM como Alfresco, Nuxeo u OpenText.
Esta herramienta se puede utilizar en dispositivos táctiles como teléfonos móviles, tablets, ipads, o mesas táctiles.
La gran ventaja de este software es su manejabilidad, puesto que permite al usuario trabajar de una manera muy intuitiva con sus documentos, ampliándolos o reduciéndolos, organizándolos o incluso apilándolos. También se pueden previsualizar, o abrirlos en modo de lectura.
Pero como una imagen dice más que mil palabras, a continuación podéis ver un vídeo en el que se muestra Athento Touch en funcionamiento. En él se pueden ver algunas funcionalidades más de las comentadas anteriormente.
Athento Touch (with Alfresco) from Athento on Vimeo.
Originalmente fue desarrollado por Hewlett Packard, que tras diez años sin soporte ni desarrollo decidió liberarlo como código libre, en el año 2006. Desde entonces, Google ha patrocinado su desarrollo, que lo han llevado a cabo desarrolladores de código libre.
Tesseract puede leer una gran variedad de formatos de imagen (todos los más extendidos y la mayoría de los menos conocidos) y convertirlos a texto en más de 60 idiomas.
Pero este motor de OCR no es útil sólo por sus funcionalides, sino también por ser multiplataforma: está disponible para Linux, Windows y Mac OSX, y además puede ser compilado para otras plataformas como Android o iOS (iPhone).
Los motores OCR son un elemento de importancia capital en los proyectos de digitalización y captura de documentos.
Tipo documental
El concepto de "tipo documental" o "tipología documental" es bastante amplio.
Por un lado podemos hablar de los tipos documentales que se emplean para la clasificación de documentos en la empresa o en la industria, que van desde modelo XXX, formulario de reclamaciones o solicitud de baja del servicio, a documentos como facturas o albaranes, cada uno con unas características específicas, y con unos datos concretos que lo diferencian de los demás.
Pero de manera mucho más general se puede hablar de tipo documental para referirnos a la estructura del documento: si está estructurado, semiestructurado o no estructurado.
En la primera clasificación encontraríamos documentos que siempre tienen el mismo formato y contienen los mismos datos, por lo que es fácil crear plantillas de extracción y definir los metadatos a extraer de los mismos.
Los documentos semiestructurados son aquellos en los que, a pesar de que sabemos que siempre tienen que contener algunos datos concretos, como en el caso de una factura, que siempre contendrá un CIF, un IVA, un importe y datos del cliente, no siempre ocupan el mismo lugar estos datos. Cada empresa los organiza de una manera diferente, e incluso algunas empresas no siempre emiten las facturas con el mismo formato.
El último caso es el de los documentos desestructurados. Son el peor tipo desde todos los aspectos: no se sabe exáctamente qué datos vamos a encontrar en ellos, ni exáctamente en qué posición, por lo que no son los más recomendables para estar bien organizados.
Si te interesa este tema, puedes seguir leyendo sobre él en este post de Verónica Meza sobre Tipos Documentales Y Extracción de Datos.
Athento Touch
Athento Touch es una interfaz táctil que permite trabajar desde dispositivos móviles con documentos almacendos en software ECM como Alfresco, Nuxeo u OpenText.
Esta herramienta se puede utilizar en dispositivos táctiles como teléfonos móviles, tablets, ipads, o mesas táctiles.
La gran ventaja de este software es su manejabilidad, puesto que permite al usuario trabajar de una manera muy intuitiva con sus documentos, ampliándolos o reduciéndolos, organizándolos o incluso apilándolos. También se pueden previsualizar, o abrirlos en modo de lectura.
Pero como una imagen dice más que mil palabras, a continuación podéis ver un vídeo en el que se muestra Athento Touch en funcionamiento. En él se pueden ver algunas funcionalidades más de las comentadas anteriormente.
Athento Touch (with Alfresco) from Athento on Vimeo.
ÍNDICE DE NAVEGACIÓN

No hay comentarios:
Publicar un comentario