RÉCUPÉREZ LE CONTENU D’UN DOCUMENT PDF AVEC TESSERACT
Ce logiciel de reconnaissance optique de caractères permet d’intégrer le texte ou les images d’un PDF à un document.
INSTALLEZ L’UTILITAIRE D’OCR
La reconnaissance optique de caractères (OCR) repose sur un principe simple : un moteur intelligent analyse l’image du PDF et la forme des lettres afin d’identifier et d’extraire le texte. Il est ensuite possible d’enregistrer le fichier issu de la conversion au format RTF ou TXT ou de copier le résultat dans LibreOffice. Si des ajustements s’avèrent le plus souvent nécessaires pour gommer les coquilles et corriger les erreurs de transcription, ce travail prend infiniment moins de temps que de retaper le texte ! Des plus fiables, Tesseract livre une copie très propre. Pour installer l’utilitaire sur votre PC, ouvrez une instance du Terminal (Ctrl+Alt+T), exécutez la commande sudo apt-get install tesseractocr et validez avec le mot de passe du compte Administrateur.
LANCEZ L’ANALYSE DU PDF
Comme cela arrive parfois sous Linux, il faut composer avec l’absence d’interface graphique. Tesseract se pilote entièrement à partir de lignes de commandes. Dans la fenêtre du Terminal, lancez l’analyse d’un fichier PDF ou d’une photo en saisissant tesseract (nomfichier.pdf) nomdestination en remplaçant nomfichier par l’intitulé du fichier source et nomdestination par celui du document qui recevra le texte issu de l’analyse OCR. Validez par Entrée. Dans le cas d’un PDF éditable, vous devez d’abord le convertir en image (pdfimages -png nomfichier.pdf nomdestination) avant de lancer la procédure d’extraction.