28.9.16

[ Tutorial ] Extraire et retranscrire des textes avec Online O.C.R

Online O.C.R est l'outil qui m'a sauvé la mise, lorsque devant traduire une trentaine de pages très rapidement, je me suis retrouvée piégée sans original, pas d'exemplaire en librairie, deux jours pour l'avoir en commande… Grhhhh …. J'étais sur le point de renoncer, lorsque ma mémoire m'a renvoyé à un logiciel que j'utilisais au temps jadis où traductions et piges étaient mon quotidien. Hélas... Impossible de remettre la main dessus...SIC ! Prête à  définitivement jeter l'éponge, mon petit doigt m'a recommandé l'appel à un ami, j'ai choisi Google mon meilleur ami, SouRIRES. Et Eurêka ! Un emprunt à la médiathèque et quelques essais plus tard, le site Online O.C.R. était dans ma barre de favoris.  Kesako que cet OCR dont tu nous causes Grace ?


Ooo minute papillon, si on n'a plus le droit de contextualiser les trouvailles, alors rien ne va plus. SouRIRES. O.C.R est l'acronyme de Optical Character Recognition,  il s'agit d'un logiciel de reconnaissance optique de caractères. Plus simplement, c'est un outil capable d'extraire n'importe quel texte placé dans un document au format image. Grâce à Internet, des sites se sont développés pour proposer ce service, parmi lesquels ONLINE OCR qui en quelques clics permet de convertir des images avec textes aux formats JPG, GIF, TIFF, BMP ou PDF et d'en extraire uniquement les textes.

Comment cela fonctionne en ligne ?

Le plus simplement du monde : pas besoin d'adresse mail, ou d'inscription pour une utilisation occasionnelle, le site permet d'extraire 10 pages et il faut attendre au moins une heure pour pouvoir en faire d'autres à chaque fois. Eh oui, il faut bien limiter le service gratuit par quelques contraintes.Pour la démonstration, j'ai choisi d'utiliser une page d'un de mes derniers coup de cœur littéraire, le roman de Esi Edugyan que je vous recommande chaudement du reste.

Les trois étapes sont configurées sur l'image ci-dessous dans les cercles violets, elles s'effectuent dans le même élan

Étape 1: je récupère l'image scannée de la page 67 et je la télécharge. Vérifiez bien qu'elle apparaît comme là dans l'image encerclée en orangée.

Étape 2: je choisis la langue

Étape 3: je reproduis les chiffres du CAPTCHA avant d'appuyer sur "convert" pour convertir le document.


Étape 4: soit j'enregistre le document, soit je corrige les petites erreurs, coquilles et je fais un copié/coller directement. (là j'ai coupé la capture parce que l'écran est très large)


Et voilà le travail, et je ne vous mets que le premier paragraphe pour l'exemple.

    «Finalement, Falk a eu un destin atypique parce qu'il a fait partie de la minorité d'Afro-Allemands envoyés dans des camps de concentration. S'il avait été afro-américain, on l'aurait probablement gardé quelque temps à Saint-Denis, comme ce fut le cas pour les autres musiciens noirs arrêtés à Paris. Mais Falk était allemand — ou plutôt, selon les normes des nazis, "apatride" —, alors on l'a transféré à Mauthausen. Bien sûr, il est difficile de se faire une idée du nombre réel de Noirs déportés dans les camps, car tant de documents ont été détruits.
A mon sens, la solution en ligne n'est pas l'idéale pour un usage quotidien, à cause des inévitables coquilles, du fait d'être limité à 10 retranscriptions et le fait qu'une fois sur deux, le captcha s’avère inexact alors que vous avez bien tapé le bon chiffre avec comme conséquence, que cela compte tout de même comme extraction. Arghhh ! Bref, génial pour un dépannage, autrement si vous avez du temps et que vous n'êtes pas nerveux, au quotidien çà peut aussi le faire.

Pour ma part, je garde précieusement le lien et j'espère que cet outil vous aidera également.

Aucun commentaire:

Enregistrer un commentaire

Laissez votre commentaire