La GED ou GEIDE au service des entreprises

 

La numérisation et l'indexation des images

 

Numériseurs ou balayeurs optiques de documents pour la GED - À gauche: Fujitsu et à droite: Canon
 


Dans le cas d'un système GED dit "image", la première étape consiste à numériser, c'est-à-dire à convertir en image électronique et numérique, des originaux qu'ils soient sur papier, sur microformes, calques, transparents, etc. Cette opération est réalisée par un numériseur ou "scanner" qui, après analyse, transmet à un micro-ordinateur ou à un serveur la copie numérisée des originaux. Ces images peuvent être soit directement stockées sur un support d'archivage longue durée ou temporairement stockées sur le disque dur magnétique du micro-ordinateur dans l'attente d'un traitement ultérieur. Il existe de nombreux scanners ou numériseurs répondant à un très large éventail de besoins. Si le nombre de documents à saisir quotidiennement est faible, on peut se contenter d'un numériseur dit "bureautique" en gardant à l'esprit qu'il n'est pas fait pour saisir en série du fait de sa lenteur. Les scanners conçus pour les applications GED ou de traitement de documents sont capables de capturer et parfois de traiter très rapidement des originaux. Certains modèles numérisent une seule face à la fois, d'autres le recto et le verso de chaque original en un temps variant de 0,8 à 2 secondes par page. Certains sont conçus pour saisir des dizaines de milliers de documents par jour et sont équipés pour cela d'une alimentation automatique de très grande capacité et de dispositifs de détection des doubles. Pour les microformes, (microfilms, carte à fenêtre, microfiches), il existe une catégorie spéciale de numériseurs qui permettent de convertir des milliers de micro-images par jour lorsqu'ils sont équipés de dispositifs d'avance et de positionnement automatique des films.

numériseur de microfilm 16 mm

 

L'indexation des documents

L'indexation consiste à créer une fiche descriptive d'un document ou d'un dossier. Les informations de cette fiche ou descripteurs seront les repères qui aideront à sélectionner le document lors de recherches ultérieures ou à le diffuser de façon sélective à des utilisateurs connectés au serveur. Dans les systèmes de GED, on fait intervenir plusieurs méthodes pour indexer des documents numérisés. Certaines font appel à des progiciels de gestion documentaire pour décrire le contenu de l'original. D'autres passent par des gestionnaires de bases de données (SGBDR) pour créer des liens entre un document ou un dossier numérisé. Dans certains cas, cette indexation sera réalisée manuellement par un opérateur qui remplira les différents champs de la fiche descriptive. Dans d'autres, elle sera réalisée électroniquement par extraction de données déjà inscrites sur l'original. Le cas le plus fréquent est celui des codes à barres préalablement imprimés ou collés sur un original qui, après détection puis interprétation par l'ordinateur, permettent de récupérer automatiquement des informations qui seront exportées vers la base de données. Il est également possible d'effectuer l'extraction sélective d'informations sur des zones prédéfinies d'un formulaire en combinant la segmentation d'images et la reconnaissance optique de caractères (OCR/ICR), extraction qui générera un fichier ASCII délimité exploitable par des gestionnaires de bases de données. D'autres techniques d'indexation automatique existent. Par exemple, les séparateurs de dossiers ou de documents préalablement placés entre les originaux. Il s'agit de feuilles sur lesquelles sont imprimés des codes-barres ou sur lesquelles sont cochées des cases exploitables par un programme qui assure la conversion des informations en fichiers ASCII importables dans les bases de données. D'autres fournisseurs proposent l'indexation en texte intégral pour automatiser le référencement des originaux. Dans ce cas, les documents numérisés sont intégralement lus par des logiciels de reconnaissance optique de caractères qui créent un fichier ASCII de leur contenu. Celui-ci est ensuite indexé par un programme "texte intégral" ("full text" en anglais) assurant l'enrichissement d'une base et la création d'un lien entre le contenu extrait et l'image numérisée de l'original. Les recherches ultérieures s'effectuent par interrogation de la base à l'aide d'un mot ou d'une combinaison de mots en utilisant, si cela est nécessaire, des opérateurs (et, ou, sauf, etc.).

De plus en plus, les logiciels de GED commercialisés sur le marché intègrent des méthodes automatiques d'indexation. Certains n'intègrent que la lecture de codes à barres, d'autres combinent plusieurs méthodes. Cette fonction permet de résoudre les problèmes que pose l'indexation des documents qui constitue souvent un goulot d'étranglement dans le système GED de l'entreprise.

Les différents types d'images en GED

Le système GED gère des images numérisées dont la nature dépend des originaux et des traitements prévus par la suite. Elles peuvent être bitonales, à niveau de gris ou en couleurs. Avec les images dites bitonales, les informations d'un original sont uniquement converties en noir et blanc. Elles se rencontrent principalement là où les documents ne comportent que du texte. Les images dites à niveaux de gris restituent les nuances de gris, du gris foncé au gris pale qui donnent du relief à une photo ou un dessin. Ces nuances de gris peuvent être plus ou moins nombreuses, de 16 à 256, avec pour conséquence une augmentation de taille du fichier électronique. Certains numériseurs et certains programmes sont conçus pour pratiquer la numérisation bitonale et la numérisation à niveaux de gris sur un même document. Ainsi, les textes seront traités en bitonal tandis que les photographies ou les illustrations seront converties en utilisant des niveaux de gris.

Quant aux images en couleurs, il est possible de les numériser en codant les couleurs avec plus ou moins de précision. En général, les numériseurs adaptés permettent de numériser sur 8 bits, 16 bits ou 24 bits. Un codage des couleurs sur 8 bits permettra de restituer une image électronique en 256 couleurs différentes tandis qu'un codage sur 16 bits donnera une image de 64.000 couleurs et un codage sur 24 bits, une image de 16,7 millions de couleurs; avec toujours comme conséquence une augmentation de la taille du fichier.

Un autre facteur entrant en ligne de compte dans le processus de numérisation est la résolution d'analyse. Celle-ci est exprimée en DPI (Dots Per Inch) ou points par pouce en français. La majeure partie des numériseurs GED proposés sur le marché offrent une plage de réglage allant de 100 à 400 DPI. D'autres, notamment les appareils pour images couleurs ou pour microformes, sont capables de numériser en milliers de DPI. En général, les solutions GED utilisent des résolutions comprises entre 200 et 400 DPI (8 ou 16 points/mm), ce qui donne des résultats tout à fait acceptables.