Scanner, transfèrer, modifier.

DIVERS + DE 2 ANS

Publiée par :

Le 03/04/2017 à 14h19 401 vues

Question d'origine :

G D S Bonjour....J'aimerais savoir si un texte scanné, transféré sur un fichier ouvert sous "Word" ou "texte OpenOffice" permet de "rentrer" dans le texte du dit fichier, et d'apporter des compléments, d'en modifier d'autres et éventuellement d'en effacer, le tout afin de recréer un nouveau document plus élaboré, et si oui: comment...? Ou faut-il un logiciel complémentaire, gratuit, shareware, ou payant.? Merci de vos précisions. JS

Réponse du Guichet

gds_et - Département : Équipe du Guichet du Savoir

Le 05/04/2017 à 10h23

Bonjour,

Quand un document est scanné, un fichier image est créé : la numérisation consiste à capturer l’image, à photographier le document scanné.

Pour transformer cette image en fichier texte, c’est-à-dire en un fichier dont les caractères seront reconnus par un logiciel de traitement de texte (.txt, .doc, .odt…), il est nécessaire de passer par un logiciel capable d’interpréter l’image numérisée pour reconnaître les caractères de l’écriture. C’est ce qu’on appelle des logiciels d’océrisation ou OCR (reconnaissance optique de caractère).

« Un système OCR part de l'image numérique réalisée par un scanner optique d'une page (document imprimé, feuillet dactylographié, etc.), ou un appareil photo numérique, et produit en sortie un fichier texte en divers formats (texte simple, formats de traitements de texte, XML..., par exemple le format standardisé ALTO).

Certains logiciels tentent de conserver l'enrichissement du texte (corps, graisse et police) ainsi que la mise en page, voire de rebâtir les tableaux et d'extraire les images.

Certains logiciels comportent, en outre, une interface pour l'acquisition numérique de l'image.

Jusqu'à une date récente, le fonctionnement des systèmes OCR performants était peu connu car protégé par le secret industriel ; les logiciels open-source disponibles (ex : GOcr) étant plutôt l'œuvre d'amateurs. La publication en open-source de systèmes performants (en particulier Tesseract en 2006) a quelque peu changé cette situation.

Les étapes de traitement peuvent être schématisées ainsi :

1. Préanalyse de l'image : le but est d'améliorer éventuellement la qualité de l'image. Ceci peut inclure le redressement d'images inclinées ou déformées, des corrections de contraste, le passage en mode bicolore (noir et blanc, ou plutôt papier et encre), la détection de contours.
2. Segmentation en lignes et en caractères (ou Analyse de page) : vise à isoler dans l'image les lignes de texte et les caractères à l'intérieur des lignes. Cette phase peut aussi détecter le texte souligné, les cadres, les images.
3. Reconnaissance proprement dite des caractères : après normalisation (échelle, inclinaison), une instance à reconnaitre est comparée à une bibliothèque de formes connues, et on retient pour l'étape suivante la forme la plus « proche » (ou les N formes les plus proches), selon une distance ou une vraisemblance (likelihood). Les techniques de reconnaissance se classent en quelques grands types1:
1. Classification par Caractéristiques (Features) : une forme à reconnaître est représentée par un vecteur de valeurs numériques - appelées features en anglais - calculées à partir de cette forme. Le nombre de features est de l'ordre de 100 à 300. Si les features sont bien choisies, une classe de caractères (par exemple l'ensemble des A majuscules) sera représentée par un « nuage » contigu de points dans l'espace vectoriel des features. Le rôle du classificateur est de déterminer à quel nuage (donc à quelle classe de caractères) la forme à reconnaitre appartient le plus vraisemblablement. La classification fait généralement appel à divers types de réseaux de neurones artificiels entrainés sur de vastes bases de formes possibles.
2. Méthodes métriques : consistent à comparer directement la forme à reconnaître, au moyen d'algorithmes de distance, avec un ensemble de modèles appris. Ce type de méthode est peu utilisé et peu valorisé par les chercheurs, car souvent plus naïf et vraisemblablement moins efficace que les méthodes à base de features.
3. Méthodes statistiques : dans le domaine de la reconnaissance d'écriture manuscrite, il est fréquemment fait appel aux méthodes probabilistes/statistiques comme les chaînes de Markov.
4. Post-traitement utilisant des méthodes linguistiques et contextuelles pour réduire le nombre d'erreurs de reconnaissance : systèmes à base de règles, ou méthodes statistiques basées sur des dictionnaires de mots, de syllabes, de N-grammes (séquences de caractères ou de mots). Dans les systèmes industriels, des techniques spécialisées pour certaines zones de texte (noms, adresses postales) peuvent utiliser des bases de données pour éliminer les solutions incorrectes.
5. Génération du format de sortie, avec la mise en page pour les meilleurs systèmes. »
Source : wikipedia

De nombreux scanners sont équipés d’un petit logiciel de reconnaissance de caractère. Si ce n’est pas le cas du vôtre, vous avec le choix entre des logiciels, gratuits ou payants, téléchargeables en ligne sur des sites spécialisés :
- 01net.com
- logitheque.com
- gratuiciel.com
- commentcamarche.net
- clubic.com

D'autres sont accessibles directement en ligne sans avoir à être téléchargés. Plusieurs sont proposés ici: ORC : 4 sites pour convertir des images jpg en documents Word doc ou texte.

Sachez par ailleurs que Microsoft OneNote permet aussi de convertir des images en texte modifiable sous word.

Pour finir, quelques tutoriels :
- OCR : Extraire le texte d'une image, pcastuces.com
- La reconnaissance optique de caractère : «Océriser» un document avec Abbyy FineReader, Maison des Sciences de l'Homme Val de Loire
- Présentation de différents OCR, debutersurmac.com

Bonne journée.