Libre en Fête

Outils pour utilisateurs

Outils du site


traduire_un_pdf

Ceci est une ancienne révision du document !


TRADUIRE UN PDF

On peut rencontrer en gros 3 types de fichiers pdf en langue étrangère :

  1. des pdf en format image exclusivement
  2. des pdf ebn format image mais avec une indexation en arrière plan
  3. des pdf en format texte.

Une reconnaissance optique des caractères est évidemment un préalable à la traduction dans le premier cas. Une traduction automatique directe est possible dans le second cas les traducteurs pouvant lire le texte en arrière plan. Toutefois cela entraîne un risque d'erreurs, car si les mots sont reconnus, il peut y avoir des imperfections au niveau des espaces et de la ponctuation. Il est donc préférable de procéder au préalable à une reconnaissance de texte.

Reconnaissance des caractères :

Se rapporter au tutoriel On utilisera donc l'application gimagereader. Bien préciser la langue (l'anglais pour l'exemple choisi) et préférer le mode texte qui limite au maximum le risque d'erreur lors de la traduction automatique. Evidemment s'assurer au départ que le fichier tesseract de la langue de départ a été chargé et qu'il est présent dans le bon répertoire. Sur cette question des fichiers langue de Tesseract et de leur emplacement voir : Note importante sur la reconnaissance de texte Pour illustrer l'opération, nous somme partis d'un petit texte sur la Haute-Marne écrit en 1918 par un soldat américain stationné à Poulangy avant d'être blessé en Argonne. Voir l'original Pour info, le pdf original est en fait constituées de 3 couches. On peut faire apparaître ces 3 couches au moyen de libre office Draw. L'une est l'image du texte, l'autre sa reconnaissance optique destinée à l'indexation et la dernière donnant la couleur jaune du papier.

Traduction automatique :

Il existe plusieurs possibilités pour traduire automatiquement en ligne. L'offre de Google est facile d'utilisation et sans contrainte trop forte sur la taille des fichiers. Deepl est une autre option avec une qualité légèrement meilleure mais plus de limitations pour un usage ponctuel. En dehors de la qualité du travail il est important de noter la différence entre les 2 systèmes. Deepl est gratuit pour un usage ponctuel et payant pour une utilisation plus professionnelle. C'est donc en gros l'utilisateur qui paye pour le service. Au contraire Google se rémunère par les informations qu'il récolte en proposant ce service et peut d'ailleurs à tout moment le supprimer s'il estime que le jeu n'en vaut plus la chandelle.Utiliser Deepl est donc une pratique plus saine que traduire avec Google.

Correction manuelle de la traduction automatique :

Si la qualité globale des traducteurs automatiques est aujourd'hui assez satisfaisante, n'ayant plus rien à voir avec le petit nègre que l'on obtenait il y a quelques années. En gros elle permet une bonne compréhension globale. Néanmoins pour une qualité optimale le texte a besoin d'être repris.. En gros on peut renconter des maladresses dans l'expression qui n'empèchent pas la compréhension, des erreurs liées probablement à la ponctuation pouvant aboutir à des contre sens et une mauvaise traduction de certains termes techniques.

traduire_un_pdf.1741987701.txt.gz · Dernière modification : 2025/03/14 22:28 de Christian Renaudin