Libre en Fête

Outils pour utilisateurs

Outils du site


traduire_un_pdf

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
traduire_un_pdf [2025/03/14 13:38] Christian Renaudintraduire_un_pdf [2025/03/14 22:36] (Version actuelle) – [Correction manuelle de la traduction automatique :] Christian Renaudin
Ligne 1: Ligne 1:
 ======TRADUIRE UN PDF====== ======TRADUIRE UN PDF======
 +
 +On peut rencontrer en gros 3 types de fichiers pdf en langue étrangère :
 +  - des pdf en format image exclusivement
 +  - des pdf ebn format image mais avec une indexation en arrière plan
 +  - des pdf en format texte.
 +Une reconnaissance optique des caractères est évidemment un préalable à la traduction dans le premier cas. Une traduction automatique directe est possible dans le second cas les traducteurs pouvant lire le texte en arrière plan. Toutefois cela entraîne un risque d'erreurs, car si les mots sont reconnus, il peut y avoir des imperfections au niveau des espaces et de la ponctuation. Il est donc préférable de procéder au préalable à une reconnaissance de texte.
 +====== Reconnaissance des caractères : ======
 +[[fichiers_pdf#Obtenir un texte pouvant être repris|Se rapporter au tutoriel ]]
 +On utilisera donc l'application gimagereader.
 +Bien préciser la langue (l'anglais pour l'exemple choisi) et préférer le mode texte qui limite au maximum le risque d'erreur lors de la traduction automatique. 
 +{{ :wiki:ocr1.png?direct |}}
 +Evidemment s'assurer au départ que le fichier tesseract de la langue de départ a été chargé et qu'il est présent dans le bon répertoire. Sur cette question des fichiers langue de Tesseract et de leur emplacement [[fichiers_pdf#Note importante sur la reconnaissance de texte|voir : Note importante sur la reconnaissance de texte ]] 
 +Pour illustrer l'opération, nous somme partis d'un petit texte sur la Haute-Marne écrit en 1918 par un soldat américain stationné à Poulangy avant d'être blessé en Argonne. {{ :ruralcommunityli00bishiala.pdf |Voir l'original}}
 +Pour info, le pdf original est en fait constituées de 3 couches. On peut faire apparaître ces 3 couches au moyen de libre office Draw. L'une est l'image du texte, l'autre sa reconnaissance optique destinée à l'indexation et la dernière donnant la couleur jaune du papier.
 +{{ :wiki:ocr2.png?direct |}}
 +======Traduction automatique : ======
 +Il existe plusieurs possibilités pour traduire automatiquement en  ligne. L'offre de Google est facile d'utilisation et sans contrainte trop forte sur la taille des fichiers. Deepl est une autre option avec une qualité légèrement meilleure mais plus de limitations pour un usage ponctuel. En dehors de la qualité du travail il est important de noter la différence entre les 2 systèmes. Deepl est gratuit pour un usage ponctuel et payant pour une utilisation plus professionnelle. C'est donc en gros l'utilisateur qui paye pour le service. Au contraire Google se rémunère par les informations qu'il récolte en proposant ce service et peut d'ailleurs à tout moment le supprimer s'il estime que le jeu n'en vaut plus la chandelle.Utiliser Deepl est donc une pratique plus saine que traduire avec Google.
 +======Correction manuelle de la traduction automatique : ======
 +Si la qualité globale des traducteurs automatiques est aujourd'hui assez satisfaisante, n'ayant plus rien à voir avec le petit nègre que l'on  obtenait il y a quelques années. En gros elle permet une bonne compréhension globale. Néanmoins pour une qualité optimale le texte a besoin d'être repris.. En gros on peut renconter des maladresses dans  l'expression qui  n'empèchent pas la compréhension, des erreurs liées probablement à  la ponctuation pouvant aboutir à des contre sens et une mauvaise traduction de certains termes techniques. Quelques exemples :
 +  - industries est traduit par industries pour  parler des activités agricoles et artisanales,
 +  - Houses set amid lawns, flowers, and shrubbery are seldom seen est traduit par des maisons  au milieu de pelouses, fleurs et buissons, probablement parce qu'il manque une virgule après amid,
 +  - cradle est traduit par berceau alors qu'il s'agit en fait d'une faux à moissonner munie d'une sorte de "berceau" destiné à former les gerbes.
 +  - 
traduire_un_pdf.1741955905.txt.gz · Dernière modification : 2025/03/14 13:38 de Christian Renaudin