Antes de incorporar un nuevo documento al sistema debemos asegurarnos de que no exista. Para ello, la mejor forma es realizar una búsqueda utilizando el contenido del documento para asegurarnos de evitar duplicar contenido innecesariamente.
Si se dispone del documento en una fuente digital, incorporar la fuente digital, no el documento escaneado en formato imagen. Esto es así porque el documento en formato digital tendrá un tamaño optimizado, y el interior de su contenido será buscable más facilmente.
Si tenemos un documento generado a partir de un documento word realizando una exportación de dicho documento a formato PDF, podremos realizar una selección de contenido sobre dicho documento en PDF, y seremos capaces de copiar y pegar texto. Esto también permitirá a Athento detectar este texto e indexarlo, o sea tenerlo almacenado para realizar búsquedas sobre todo el contenido del documento.
Por el contrario, si obtenemos el documento en formato PDF pero además lo tenemos en digital y realizamos su escaneo en alta calidad, dependiendo del tipo de escáner que tengamos, es probable que obtengamos un documento con mucho mayor tamaño (peso) y que además no nos permita buscar texto en su interior, con la dificultad a la hora de encontrarlo que esto implica.
En internet hay gran cantidad de lugares de los que podemos exportar contenidos (noticias, documentos etc) en formato indexado, realizando una exportación a PDF desde nuestro navegador, a copiando y pegando el contenido relevante hacia un documento ofimático (Word etc.).
La siguiente tabla muestra ejemplos de pesos de documentos según si el documento es nativo digital o si el documento está escaneado a una resolución concreta. En todos los casos se presupone
Tipo de documento (formato) | Estimación de tamaño ocupado |
---|---|
Escaneado en 200 dpi en blanco y negro sin compresión | 472 KB |
Escaneado en 200 dpi en escala de grises sin compresión | 3.68 MB |
Escaneado en 400 dpi en blanco y negro sin compresión | 1.8 MB |
Escaneado en 200 dpi en blanco y negro con compresión | 472KB / 20 = 25KB |
Por tanto, una página A4 escaneada a 200 dpi, Blanco y negro, debería ocupar aproximadamente 25KB.
Un documento Word en formato A4 de una página pesa aproximadamente 15KB, osea aproximadamente la mitad que un documento escaneado en 200 dpi y comprimido.
Si el documento está ya publicado en Internet, podemos referenciarlo desde el ECM.
Si se trata de una noticia publicada en internet o de un vídeo publicado en Youtube, Vimeo o similar, debemos:
En la medida de lo posible, y siempre que no necesitemos escanear alguna imagen o gráfica con colores, realizar un escaneado en blanco y negro.
Si vamos a realizar el escaneo de un periódico físico en blanco y negro, o de un documento impreso sin imágenes, deberemos optar por la opción en blanco y negro y asegurarnos de que es la que está operativa en el escáner.
Utilizar una configuración de escaneo de 150-200 dpi, o sea de entre 150-200 puntos por pulgada, para documentos de los que no sea necesario extraer el texto y sea suficiente con el empleo de los metadatos del documento (Título, descripción, origen, fecha de creación etc.),
Utilizar una configuración de escaneo de más de 300 dpi (300 puntos por pulgada) para documentos simples de los que se quiera (o potencialmente se pueda querer) realizar una extracción y análisis automático e inteligente del documento.
La siguiente tabla muestra ejemplos de pesos de documentos según si el documento es nativo digital o si el documento está escaneado a una resolución concreta. En todos los casos se presupone
Tipo de documento (formato) | Estimación de tamaño ocupado |
---|---|
Escaneado en 200 dpi en blanco y negro sin compresión | 472 KB |
Escaneado en 200 dpi en escala de grises sin compresión | 3.68 MB |
Escaneado en 400 dpi en blanco y negro sin compresión | 1.8 MB |
Escaneado en 200 dpi en blanco y negro con compresión | 472KB / 20 = 25KB |
Por tanto, una página A4 escaneada a 200 dpi, Blanco y negro, debería ocupar aproximadamente 25KB.
Un documento Word en formato A4 de una página pesa aproximadamente 15KB, osea aproximadamente la mitad que un documento escaneado en 200 dpi y comprimido.
Por lo tanto, y en la medida de lo posible debemos:
Contenido relacionado:
Fuentes:
Comunidad de la AIIM: http://community.aiim.org/blogs/amila-hendahewa/2010/08/04/estimating-the-file-size-of-a-scanned-image
Microsoft TechNet: https://blogs.technet.microsoft.com/dangl/2012/10/18/what-is-the-average-size-of-an-office-document/