Libre en Fête

Outils pour utilisateurs

Outils du site


fichiers_pdf

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
fichiers_pdf [2025/01/15 23:39] – [Avec libre office Draw] Christian Renaudinfichiers_pdf [2025/04/26 11:17] (Version actuelle) – [Obtenir un texte pouvant être repris] Christian Renaudin
Ligne 1: Ligne 1:
-====== Les pdf sous linux ======+====== LES PDF SOUS LINUX ====== 
  
  
Ligne 98: Ligne 99:
   - indexer le document pour permettre d'y effectuer des recherches,   - indexer le document pour permettre d'y effectuer des recherches,
   - en extraire un texte pouvant être repris ou travaillé.   - en extraire un texte pouvant être repris ou travaillé.
-=== Indexation du fichier ===+==== Indexation du fichier ====
 s’il s’agit d’indexer le fichier pour permettre des recherches, ou pour qu’il soit lu par les moteurs de recherche au cas où il soit mis sur un site internet, alors on aura recours à gscan2pdf.  s’il s’agit d’indexer le fichier pour permettre des recherches, ou pour qu’il soit lu par les moteurs de recherche au cas où il soit mis sur un site internet, alors on aura recours à gscan2pdf. 
 Pour installer gscan, se reporter à : https://doc.ubuntu-fr.org/gscan2pdf. Il faudra également installer tesseract, y compris le fichier du français : https://doc.ubuntu-fr.org/tesseract-ocr Pour installer gscan, se reporter à : https://doc.ubuntu-fr.org/gscan2pdf. Il faudra également installer tesseract, y compris le fichier du français : https://doc.ubuntu-fr.org/tesseract-ocr
Ligne 115: Ligne 116:
 Iln’enrestepasmoinsavéréqueLangresetsabanlieueétaient,autrefois,unerégionquasimentdelégende;quelavieyétaitextraordinaire- » Iln’enrestepasmoinsavéréqueLangresetsabanlieueétaient,autrefois,unerégionquasimentdelégende;quelavieyétaitextraordinaire- »
  
-=== obtenir un texte pouvant être repris ===+==== Obtenir un texte pouvant être repris ====
  s’il s’agit d’obtenir un texte pouvant être repris et travaillé, on aura recours à gimagereader. Pour l’installer : https://doc.ubuntu-fr.org/gimagereader.  s’il s’agit d’obtenir un texte pouvant être repris et travaillé, on aura recours à gimagereader. Pour l’installer : https://doc.ubuntu-fr.org/gimagereader.
 Le plus simple est de créer un sous répert Le plus simple est de créer un sous répert
Ligne 129: Ligne 130:
 {{ ::gimagereader6.png?direct |}} {{ ::gimagereader6.png?direct |}}
 Le résultat est globalement excellent quand le but est de reprendre le texte. Cela peut aussi être utile quand on souhaite demande une traduction automatique d’un texte imprimé en langue étrangère. Evidemment il faudra au préalable charger la version de tesseract adaptée à cette langue. Le résultat est globalement excellent quand le but est de reprendre le texte. Cela peut aussi être utile quand on souhaite demande une traduction automatique d’un texte imprimé en langue étrangère. Evidemment il faudra au préalable charger la version de tesseract adaptée à cette langue.
 +
 +Exemple d'un document ancien numérisé comme ci-dessus : [[https://vita-in-vines.ailes-52.org/site/html/vin_de_langres.html]]
    
-===Note importante sur la reconnaissance de texte ===+====Note importante sur la reconnaissance de texte ====
 Ces 2 méthodes de reconnaissance de caractère ont pour point commun de s’appuyer sur Tesseract. Il est donc indispensable que l’articulation entre Tesseract et gimagereader ou gscan2pdf se fasse correctement. Sinon un message d’erreur apparaît. Ces 2 méthodes de reconnaissance de caractère ont pour point commun de s’appuyer sur Tesseract. Il est donc indispensable que l’articulation entre Tesseract et gimagereader ou gscan2pdf se fasse correctement. Sinon un message d’erreur apparaît.
 Avec gimagereader, le chemin attendu peut être affiché : Avec gimagereader, le chemin attendu peut être affiché :
fichiers_pdf.1736980797.txt.gz · Dernière modification : 2025/01/15 23:39 de Christian Renaudin