RÉCUPÉREZ LE CONTENU D’UN DOCUMENT PDF AVEC TESSERACT

Ce logiciel de reconnaissance optique de caractères permet d’intégrer le texte ou les images d’un PDF à un document.

2021-01-13 -

INSTALLEZ L’UTILITAIRE D’OCR

La reconnaissance optique de caractères (OCR) repose sur un principe simple : un moteur intelligent analyse l’image du PDF et la forme des lettres afin d’identifier et d’extraire le texte. Il est ensuite possible d’enregistrer le fichier issu de la conversion au format RTF ou TXT ou de copier le résultat dans LibreOffice. Si des ajustements s’avèrent le plus souvent nécessaires pour gommer les coquilles et corriger les erreurs de transcription, ce travail prend infiniment moins de temps que de retaper le texte ! Des plus fiables, Tesseract livre une copie très propre. Pour installer l’utilitaire sur votre PC, ouvrez une instance du Terminal (Ctrl+Alt+T), exécutez la commande sudo apt-get install tesseractocr et validez avec le mot de passe du compte Administrateur.

LANCEZ L’ANALYSE DU PDF

Comme cela arrive parfois sous Linux, il faut composer avec l’absence d’interface graphique. Tesseract se pilote entièrement à partir de lignes de commandes. Dans la fenêtre du Terminal, lancez l’analyse d’un fichier PDF ou d’une photo en saisissant tesseract (nomfichier.pdf) nomdestination en remplaçant nomfichier par l’intitulé du fichier source et nomdestination par celui du document qui recevra le texte issu de l’analyse OCR. Validez par Entrée. Dans le cas d’un PDF éditable, vous devez d’abord le convertir en image (pdfimages -png nomfichier.pdf nomdestination) avant de lancer la procédure d’extraction.

?? ?? Tesseract affiche un taux d’erreur très bas pour un utilitaire d’OCR gratuit. — Tesseract affiche un taux d’erreur très bas pour un utilitaire d’OCR gratuit.

RÉCUPÉREZ LE CONTENU D’UN DOCUMENT PDF AVEC TESSERACT

Ce logiciel de reconnaissance optique de caractères permet d’intégrer le texte ou les images d’un PDF à un document.

Newspapers in French

Newspapers from France

RÉCUPÉREZ LE CONTENU D’UN DOCUMENT PDF AVEC TESSERACT

Ce logiciel de reconnaiss­ance optique de caractères permet d’intégrer le texte ou les images d’un PDF à un document.

Newspapers in French

Newspapers from France

Ce logiciel de reconnaissance optique de caractères permet d’intégrer le texte ou les images d’un PDF à un document.