fichiers_pdf
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
fichiers_pdf [2025/01/15 23:38] – [Produire un pdf à partir d’un nouveau document :] Christian Renaudin | fichiers_pdf [2025/04/26 11:17] (Version actuelle) – [Obtenir un texte pouvant être repris] Christian Renaudin | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | ====== | + | ====== |
Ligne 63: | Ligne 64: | ||
===== Avec GIMP ===== | ===== Avec GIMP ===== | ||
si le contenu est principalement une image, il peut être adapté de l’ouvrir avec Gimp. Ce sera par exemple le cas pour un schéma ou un dessin dont les légendes ne sont pas en français et que l’on veut traduire. | si le contenu est principalement une image, il peut être adapté de l’ouvrir avec Gimp. Ce sera par exemple le cas pour un schéma ou un dessin dont les légendes ne sont pas en français et que l’on veut traduire. | ||
- | ==== Avec libre office Draw ==== | + | ===== Avec libre office Draw ===== |
si le contenu est principalement du texte, on l’ouvrira avec draw dans la suite libre office. Toutefois on ne peut pas s’attendre à un résultat parfait car on perd l’avantage du format pdf qui sauvegarde à la fois le texte et les polices. A moins que le document n’ait été produit avec la même application et le même jeu de polices, il est probable que des problèmes de présentation vont se poser. | si le contenu est principalement du texte, on l’ouvrira avec draw dans la suite libre office. Toutefois on ne peut pas s’attendre à un résultat parfait car on perd l’avantage du format pdf qui sauvegarde à la fois le texte et les polices. A moins que le document n’ait été produit avec la même application et le même jeu de polices, il est probable que des problèmes de présentation vont se poser. | ||
Dans l’exemple ci-dessous, on voit que le rendu est acceptable pour le corps du texte mais que la taille de la police est inadaptée pour la note de bas de page et que du coup le texte déborde. Par ailleurs, chaque ligne de texte est comprise dans une zone de texte spécifique ce qui empêche de sélectionner tout le texte dont on veut modifier la taille de la police. | Dans l’exemple ci-dessous, on voit que le rendu est acceptable pour le corps du texte mais que la taille de la police est inadaptée pour la note de bas de page et que du coup le texte déborde. Par ailleurs, chaque ligne de texte est comprise dans une zone de texte spécifique ce qui empêche de sélectionner tout le texte dont on veut modifier la taille de la police. | ||
Ligne 98: | Ligne 99: | ||
- indexer le document pour permettre d'y effectuer des recherches, | - indexer le document pour permettre d'y effectuer des recherches, | ||
- en extraire un texte pouvant être repris ou travaillé. | - en extraire un texte pouvant être repris ou travaillé. | ||
- | === Indexation du fichier === | + | ==== Indexation du fichier |
s’il s’agit d’indexer le fichier pour permettre des recherches, ou pour qu’il soit lu par les moteurs de recherche au cas où il soit mis sur un site internet, alors on aura recours à gscan2pdf. | s’il s’agit d’indexer le fichier pour permettre des recherches, ou pour qu’il soit lu par les moteurs de recherche au cas où il soit mis sur un site internet, alors on aura recours à gscan2pdf. | ||
Pour installer gscan, se reporter à : https:// | Pour installer gscan, se reporter à : https:// | ||
Ligne 115: | Ligne 116: | ||
Iln’enrestepasmoinsavéréqueLangresetsabanlieueétaient, | Iln’enrestepasmoinsavéréqueLangresetsabanlieueétaient, | ||
- | === obtenir | + | ==== Obtenir |
| | ||
Le plus simple est de créer un sous répert | Le plus simple est de créer un sous répert | ||
Ligne 129: | Ligne 130: | ||
{{ :: | {{ :: | ||
Le résultat est globalement excellent quand le but est de reprendre le texte. Cela peut aussi être utile quand on souhaite demande une traduction automatique d’un texte imprimé en langue étrangère. Evidemment il faudra au préalable charger la version de tesseract adaptée à cette langue. | Le résultat est globalement excellent quand le but est de reprendre le texte. Cela peut aussi être utile quand on souhaite demande une traduction automatique d’un texte imprimé en langue étrangère. Evidemment il faudra au préalable charger la version de tesseract adaptée à cette langue. | ||
+ | |||
+ | Exemple d'un document ancien numérisé comme ci-dessus : [[https:// | ||
- | ===Note importante sur la reconnaissance de texte === | + | ====Note importante sur la reconnaissance de texte ==== |
Ces 2 méthodes de reconnaissance de caractère ont pour point commun de s’appuyer sur Tesseract. Il est donc indispensable que l’articulation entre Tesseract et gimagereader ou gscan2pdf se fasse correctement. Sinon un message d’erreur apparaît. | Ces 2 méthodes de reconnaissance de caractère ont pour point commun de s’appuyer sur Tesseract. Il est donc indispensable que l’articulation entre Tesseract et gimagereader ou gscan2pdf se fasse correctement. Sinon un message d’erreur apparaît. | ||
Avec gimagereader, | Avec gimagereader, |
fichiers_pdf.1736980709.txt.gz · Dernière modification : 2025/01/15 23:38 de Christian Renaudin