Buenas Prácticas de Generación de Documentos


Evitar duplicidades

Antes de incorporar un nuevo documento al sistema debemos asegurarnos de que no exista. Para ello, la mejor forma es realizar una búsqueda utilizando el contenido del documento para asegurarnos de evitar duplicar contenido innecesariamente.

Ejemplo paso a paso

  1. Realizar una búsqueda, por ejemplo "ciclo del agua"
     
  2. Pulsar intro, comprobaremos si existen documentos exactamente iguales o relacionados, para tomar la decisión sobre si debemos subir el documento o no.
     
  3. En este caso, y al comprobar que no hay documentos idénticos ni similares, podemos proceder a subir el cotenido en el gestor documental.

Elegir el origen óptimo (tipo de documento)

Documento digital versus documento escaneado

Si se dispone del documento en una fuente digital, incorporar la fuente digital, no el documento escaneado en formato imagen. Esto es así porque el documento en formato digital tendrá un tamaño optimizado, y el interior de su contenido será buscable más facilmente.

Ejemplo

Si tenemos un documento generado a partir de un documento word realizando una exportación de dicho documento a formato PDF, podremos realizar una selección de contenido sobre dicho documento en PDF, y seremos capaces de copiar y pegar texto.  Esto también permitirá a Athento detectar este texto  e indexarlo, o sea tenerlo almacenado para realizar búsquedas sobre todo el contenido del documento.

Por el contrario, si obtenemos el documento en formato PDF pero además lo tenemos en digital y realizamos su escaneo en alta calidad, dependiendo del tipo de escáner que tengamos, es probable que obtengamos un documento con mucho mayor tamaño (peso) y que además no nos permita buscar texto en su interior, con la dificultad a la hora de encontrarlo que esto implica.

En internet hay gran cantidad de lugares de los que podemos exportar contenidos (noticias, documentos etc) en formato indexado, realizando una exportación a PDF desde nuestro navegador, a copiando y pegando el contenido relevante hacia un documento ofimático (Word etc.).

Ejemplos de espacio ocupado por documentos escaneados a distinta resolución

La siguiente tabla muestra ejemplos de pesos de documentos según si el documento es nativo digital o si el documento está escaneado a una resolución concreta. En todos los casos se presupone 

Tipo de documento (formato)Estimación de tamaño ocupado
Escaneado en 200 dpi en blanco y negro sin compresión472 KB
Escaneado en 200 dpi en escala de grises sin compresión3.68 MB
Escaneado en 400 dpi en blanco y negro sin compresión1.8 MB
Escaneado en 200 dpi en blanco y negro con compresión472KB / 20 = 25KB

Por tanto, una página A4 escaneada a 200 dpi, Blanco y negro, debería ocupar aproximadamente 25KB.

Un documento Word en formato A4 de una página pesa aproximadamente 15KB, osea aproximadamente la mitad que un documento escaneado en 200 dpi y comprimido.

Documento existente en Internet

Si el documento está ya publicado en Internet, podemos referenciarlo desde el ECM.

Ejemplo paso a paso

Si se trata de una noticia publicada en internet o de un vídeo publicado en Youtube, Vimeo o similar, debemos:

  1. Generar un documento en el gestor documental
  2. Rellenar varios de sus metadatos, de forma que pueda ser buscado de forma sencilla.
  3. En lugar de ubicar un fichero físico, a la hora de crear el documento, podemos crear el documento sin un fichero asociado:
     
  4. Una vez creado el documento podremos realizar una referencia a un documento, noticia o vídeo que esté ya publicado en Internet. Para ello debemos ir a la pestaña Relaciones
     
  5. Una vez ahí clickar en Crear relación
     
  6. Elegiremos las opciones "Tipo de relación", con valor Está basado en o Referencia y luego añadiremos una URL en el campo denominado Objeto relacionado. Por ejemplo https://en.wikipedia.org/wiki/Best_practice
     
  7. Una vez añadida la relación, tendremos un documento en el gestor documental (ECM) con sus metadatos e información, referenciando a una web externa y con la ventaja de no ocupar espacio en Athento.

Elegir la opción óptima de Escaneo

Color

En la medida de lo posible, y siempre que no necesitemos escanear alguna imagen o gráfica con colores, realizar un escaneado en blanco y negro.

Ejemplo

Si vamos a realizar el escaneo de un periódico físico en blanco y negro, o de un documento impreso sin imágenes, deberemos optar por la opción en blanco y negro y asegurarnos de que es la que está operativa en el escáner.

Calidad del Escáner

Utilizar una configuración de escaneo de 150-200 dpi, o sea de entre 150-200 puntos por pulgada, para documentos de los que no sea necesario extraer el texto y sea suficiente con el empleo de los metadatos del documento (Título, descripción, origen, fecha de creación etc.),

Utilizar una configuración de escaneo de más de 300 dpi (300 puntos por pulgada) para documentos simples de los que se quiera (o potencialmente se pueda querer) realizar una extracción y análisis automático e inteligente del documento.

Conclusión

Espacio ocupado por documentos escaneados a distinta resolución

La siguiente tabla muestra ejemplos de pesos de documentos según si el documento es nativo digital o si el documento está escaneado a una resolución concreta. En todos los casos se presupone 

Tipo de documento (formato)Estimación de tamaño ocupado
Escaneado en 200 dpi en blanco y negro sin compresión472 KB
Escaneado en 200 dpi en escala de grises sin compresión3.68 MB
Escaneado en 400 dpi en blanco y negro sin compresión1.8 MB
Escaneado en 200 dpi en blanco y negro con compresión472KB / 20 = 25KB

Por tanto, una página A4 escaneada a 200 dpi, Blanco y negro, debería ocupar aproximadamente 25KB.

Un documento Word en formato A4 de una página pesa aproximadamente 15KB, osea aproximadamente la mitad que un documento escaneado en 200 dpi y comprimido.

Por lo tanto, y en la medida de lo posible debemos:

  1. Referenciar documentación externa desde el ECM, en lugar de duplicarla
  2. Utilizar preferiblemente documentos en formato digital
  3. Utilizar en escaneado la resolución de 200 dpi y blanco y negro, frente a otras opciones de escala de grises o color.

Contenido relacionado

Fuentes:

Comunidad de la AIIM: http://community.aiim.org/blogs/amila-hendahewa/2010/08/04/estimating-the-file-size-of-a-scanned-image

Microsoft TechNet: https://blogs.technet.microsoft.com/dangl/2012/10/18/what-is-the-average-size-of-an-office-document/