Skip to end of metadata
Go to start of metadata

Athento SE es el motor inteligente de Athento que concentra la funcionalidad de análisis y captura de documentos. Athento Smart Engine es una aplicación web diseñada para procesar documentos, obtener información de los mismos y automatizar su tratamiento en entornos online.

Athento SE puede analizar numerosas características de documentos tales como colores predominantes, histogramas, OCR, HOCR, análisis de blanco, detección de logotipos, tablas, orientación del texto, entre otras características.

Gracias a este análisis permite automatizar tareas como la clasificación automática de documentos, su organización y categorización automática en repositorios documentales como Alfresco, Nuxeo y OpenText o la extracción de datos dentro del contenido de los mismos.

Athento SE es una aplicación web, desarrollada en Python y diseñada para soportar entornos Cloud.

Athento incorpora más de 100 operaciones de análisis de documentos.

El motor de OCR utilizado por defecto es Tesseract, pero es posible usar otros motores OCR, OMR o ICR. Entre los distintos motores se encuentra Abby OCR SDK, OpenText RecoStar.

 



Carga de documentos

El sistema permite varios orígenes de captura, entre los que se encuentran:

  1. Interfaz de usuario mediante formulario.
  2. Mediante arrastrar y soltar para subir variosdocumentos al mismo tiempo.
  3. Hot folders o carpetas monitorizadas mediante tareas tipo cron. La periodicidad de la monitorización puede definirse desde la zona de administración avanzada, en el menú Djcelery. Estos Los Hot folders pueden ser accedidos mediante FTP.



  4. Mediante correo electrónico. Los documentos pueden enviarse como ficheros adjuntos. El cuerpo del email es convertido a un fichero de texto que también se sube al sistema.


  5. Mediante integración con Dropbox. Consultar más sobre esta funcionalidad.

Extracción del OCR de un documento

Athento permite extraer el contenido textual de un documento o contenido digital en los siguientes formatos:

ImágenesIndexablesAudio
JPG (.jpg y .jpeg)Microsoft Word (.doc y .docx)Mp3- only mono (.mp3)
PNG (.png)Microsoft Excel (.xls y .xlsx)OGG (.ogg)
TIFF (.tiff)Microsoft Power Point (.pptx)WAV (.wav)
PDF(.pdf)HTML (.html y htm)
GIF (.gif)TXT (.txt)
PostScript (.ps)Emails (.eml)

Ebooks (.epub)

JSON (.json)

Open Office (.odt)




Athento extrae el OCR de cada página del documento como se aprecia en la imagen siguiente:



El OCR completo del documento puede ser utilizado por ejemplo para enviar a un sistema ECM como Alfresco, Documentum o Nuxeo y que estos puedan indexar para búsqueda los contenidos de los documentos.

Clasificación de documentos

Athento es capaz de identificar de forma automática tipos documentales. Esta tarea puede llevarla a cabo por diferentes medios, por ejemplo:

  • Palabras clave contenidas en el documento (Whitewords): Estas palabras deben estar contenidas dentro del texto del documento. Pueden ser ingresadas desde la interfaz de usuario, pero, además, Athento cuenta con una funcionalidad que permite sugerir al usuario las Whitewords que pueden ser usadas para reconocer un tipo documental.

    Las Whitewords son expresiones regulares, lo que significa que no tenemos que definir  necesariamente términos exactos para que la clasificación funcione, y que tenemos flexibilidad y potencia a la hora de definirlas.




  • Uso de anclajes de clasificación de tipo imagen (Template Matching):  Athento puede utilizar imágenes contenidas dentro de un documento para clasificarlo. Por ejemplo, puede utilizar un logotipo para clasificar un documento. Para ello, debe indicarse al sistema la zona en la que la imagen ha de aparecer.

    Athento permite la definición de múltiples zonas en las que se espera que el anclaje o imagen aparezca. Además, cuenta con la posibilidad de añadir un anclaje 





  • De acuerdo al valor de un metadato: Athento permite clasificación de documentos de acuerdo al valor de un metadato. Esto quiere decir que podemos decirle a Athento que clasifique con un determinado tipo documental un documento si el metadato extraído devuelve un valor determinado. 


  • Lectura de códigos de barras o QR: Athento puede leer códigos de barras y códigos QR. Gracias al mecanismo de clasificación anteriormente descrito, de acuerdo al valor devuelto por un metadato de tipo código, es posible clasificar un documento.


  • Porcentaje de blanco en una imagen: Es posible indicar a Athento en qué porcentaje debe estar vacía una página para que pueda ser clasificada como un determinado tipo documental.

     

Estos mecanismos de clasificación pueden ser configurados desde la propia interfaz del software.


Clasificación por página y separación de batches

Athento permite clasificar página a página un grupo de documentos que hayan sido incluidos dentro de un mismo PDF. Es posible aplicar para cada página de un documento las mismas operaciones de clasificación que pueden ser aplicadas a documentos individuales.


Una vez clasificadas las páginas, Athento crea documentos individuales a partir de los diferentes tipos documentales que haya encontrado dentro del batch o lote.

Extracción de Metadatos

Además, Athento permite la extracción automática de metadatos asociados a un tipo documental. Estos metadatos pueden definirse desde la interfaz del software.


Athento proporciona múltiples métodos para la extracción de datos.

  • Expresiones regulares: Athento busca patrones dentro del contenido textual del documento. Esta funcionalidad de extracción es útil para fechas, DNIs, cuentas bancarias, o cualquier dato con un formato claro y definido. Con este mecanismo, no necesitamos delimitar la zona exacta en la que el dato aparecerá.

  • Expresiones delimitadas por cadenas de texto de inicio y de final: Athento permite la extracción de información que se encuentre en medio de dos cadenas de texto. Este método es útil cuando lo que estamos buscando siempre aparece dentro del mismo contexto textual. Con este mecanismo, no necesitamos delimitar la zona exacta en la que el dato aparecerá.


  • OCR zonal: Sirve para extraer información cuando sabemos la zona exacta en la que esta aparecerá. Athento nos permite configurar esta zona desde la previsualización del documento con el selector de zona. Esta funcionalidad es de gran uso para el procesamiento de formularios.


  • Códigos de barras y QR: Athento permite la lectura de información dentro de códigos de barras y QR estándares. Algunos de los códigos permitidos se detallan a continuación.

    CódigoEjemplo
    Code 128
    Code 39
    EAN 13
    QR
    PDF 417
    Code 93
    UPC-A
    UPC-E
    EAN 8



  • HOCR: Permite localizar dentro de un documento coordenadas relativas a una determinada palabra o expresión contenida dentro del texto del documento (HOCR). Es decir, nos permite definir anclajes textuales para la extracción de metadatos.

  • Extracción de información tabular: Athento es capaz de extraer tablas de documentos. El metadato tipo tabla exporta a Excel la información tabular delimitada dentro de unas determinadas coordenadas. Estas coordenadas se delimitan mediante el selector de zona en la interfaz.

    • Número Autoincremental: Athento asigna un número autoincremental a los documentos que pertenecen a un determinado tipo documental.

Para más información sobre la configuración de metadatos puede revisar la documentación de extracción de metadatos de Athento Smart Engine.

Extracción de metadatos

Detección de Firmas Manuscritas o Sellos

Athento permite detectar la presencia de objetos en los documentos. Esta detección la hace teniendo en cuenta el porcentaje de blanco presente en una determinada área.

Para ver cómo detectar firmas manuscritas y/o sellos, consulte "Detección de Firmas y Sellos en Imágenes".


Optimización de Documentos


Peso: Athento dispone de una operación que, dentro del procesado de los documentos, permite comprimir éstos. La compresión de ficheros PDF se realiza mediante Ghostscript de forma que se consigue un nivel de compresión bueno sin perder mucha calidad en el documento. El nivel de compresión, dependiendo del tipo de documento, puede llegar hasta el 50%.

Existen otras posibilidades de compresión en las que se pierde cierta calidad del documento, aunque no están muy recomendadas.

Athento permite automatizar el “archivado” de documentos, de forma que pasada cierta condición de calidad y tiempo, los documentos pasarían al repositorio de archivo y permite hacer una gestión más eficiente del almacenamiento.

Calidad: Athento permite aplicar varios filtros de imagen que permiten mejorar la calidad de éstas. Algunos de estos filtros se detallan a continuación.

  • Salt&pepper
  • Bayessian Blur
  • Thresholding

Correcciones: Athento permite llevar a cabo ciertas correcciones de las imágenes por ejemplo, Athento dispone de una funcionalidad que detecta rotación de las páginas en grados verticales y horizontales: 90º, 180º y 270º la cual se puede aplicar para la corrección de estos casos.




Por otro lado, dispone de una funcionalidad de "deskewing", para corregir pequeñas rotaciones del documento.

Así mismo, Athento permite la eliminación de páginas en blanco dentro de un PDF. Esto es posible ya que el software reconoce el porcentaje de blanco en una página y utiliza este dato para borrar una página cuando esta está vacía.


Detección de Colores Predominantes en un Documento

Athento es capaz de detectar los colores que aparecen con mayor frecuencia en un documento. Esta información puede ser utilizada para la clasificación de documentos.

Autoetiquetado Semántico de Documentos

Athento es capaz de detectar entidades dentro del texto de un documento a partir de una ontología genérica o particular. Por defecto, la ontología utilizada es Open Calais. Usando Open Calais el autoetiquetado semántico de Athento puede detectar  algunos de los tipos de entidades que puede detectar son fechas, personas, compañías, ciudades y países.

 

Además, Athento permite a los clientes utilizar su propia ontología. Es decir, etiquetar documentos con vocabularios que son pertinentes para su negocio. Esto es posible mediante la integración de Athento con Apache Stanbol. 





Eliminación de Rostros Humanos en Documentos

Athento es capaz de detectar caras o rostros humanos en documentos y eliminarlos de forma automática de la imagen.

Anonimización de Metadatos

Athento permite la censura de ciertas áreas dentro del documento. Estas áreas normalmente se utilizan para ocultar datos a ciertos perfiles que consultan la documentación.


Las áreas a anonimizar pueden indicarse mediante coordenadas exactas o mediante coordenadas relativas a palabras contenidas en el texto del documento. La anonimización de metadatos se configura desde la interfaz de Athento.


Sincronización CMIS

Athento es capaz de obtner documentos desde un repositorio CMIS para procesarles. Así mismo, es capaz de volcar documentos procesados a un determinado repositorio. Para ello, utiliza el estándar CMIS. La configuración de la carga en ambos sentidos se realiza desde la propia interfaz del software.

Estadísticas y Reporting (Informes)

Athento permite la generación de estadísticas en un sencillo cuadro de mando, que permitirá tener los principales indicadores necesarios de un vistazo.

Estadísticas en Captura de Documentos

Por ejemplo, en documentos por estado (primera gráfica, arriba) podemos ver Documentos validados vs Otros Documentos. Y en la tercera, los documentos validados manualmente (en naranja) vs los documentos validados automáticamente por el sistema. 


Histograma Captura de Documentos

En la imagen superior se muestra un gráfico interactivo en el que se pueden ver para cada día los documentos creados (procesados por Athento SE), validados, validados manualmente y validados automáticamente.

Extracción de datos desde bases de datos externas

Athento permite la obtención de datos a partir de bases de datos externas. Estas bases de datos se cargan al sistema como ficheros CSV y Athento busca en estos ficheros coincidencias entre metadatos y valores en las filas de estos ficheros, de modo que un metadato sirva de clave para obtener información en la bse de datos externa.

Otras operaciones sobre ficheros

  • Renombrado de ficheros: Athento permite el renombrado de ficheros una vez procesados.
  • Compresión de ficheros: Athento permite la reducción de tamaño de documentos PDF.
  • Merge de documentos: Athento permite unir varios documentos en un único documento.



  • No labels

0 Comments

You are not logged in. Any changes you make will be marked as anonymous. You may want to Log In if you already have an account.