Ceci est une ancienne révision du document !

TRADUIRE UN PDF

On peut rencontrer en gros 3 types de fichiers pdf en langue étrangère :

des pdf en format image exclusivement
des pdf ebn format image mais avec une indexation en arrière plan
des pdf en format texte.

Une reconnaissance optique des caractères est évidemment un préalable à la traduction dans le premier cas. Une traduction automatique directe est possible dans le second cas les traducteurs pouvant lire le texte en arrière plan. Toutefois cela entraîne un risque d'erreurs, car si les mots sont reconnus, il peut y avoir des imperfections au niveau des espaces et de la ponctuation. Il est donc préférable de procéder au préalable à une reconnaissance de texte.

Reconnaissance des caractères :

Se rapporter au tutoriel On utilisera donc l'application gimagereader. Bien préciser la langue (l'anglais pour l'exemple choisi) et préférer le mode texte qui limite au maximum le risque d'erreur lors de la traduction automatique. Evidemment s'assurer au départ que le fichier tesseract de la langue de départ a été chargé et qu'il est présent dans le bon répertoire. Sur cette question des fichiers langue de Tesseract et de leur emplacement voir : Note importante sur la reconnaissance de texte Pour illustrer l'opération, nous somme partis d'un petit texte surla Haute-Marne écrit en 1918 par un soldat américain stationné à Poulangy avant d'être blessé en Argonne. Voir l'original