01Net

RÉCUPÉREZ LE CONTENU D’UN DOCUMENT PDF AVEC TESSERACT

Ce logiciel de reconnaiss­ance optique de caractères permet d’intégrer le texte ou les images d’un PDF à un document.

-

INSTALLEZ L’UTILITAIRE D’OCR

La reconnaiss­ance optique de caractères (OCR) repose sur un principe simple : un moteur intelligen­t analyse l’image du PDF et la forme des lettres afin d’identifier et d’extraire le texte. Il est ensuite possible d’enregistre­r le fichier issu de la conversion au format RTF ou TXT ou de copier le résultat dans LibreOffic­e. Si des ajustement­s s’avèrent le plus souvent nécessaire­s pour gommer les coquilles et corriger les erreurs de transcript­ion, ce travail prend infiniment moins de temps que de retaper le texte ! Des plus fiables, Tesseract livre une copie très propre. Pour installer l’utilitaire sur votre PC, ouvrez une instance du Terminal (Ctrl+Alt+T), exécutez la commande sudo apt-get install tesseracto­cr et validez avec le mot de passe du compte Administra­teur.

LANCEZ L’ANALYSE DU PDF

Comme cela arrive parfois sous Linux, il faut composer avec l’absence d’interface graphique. Tesseract se pilote entièremen­t à partir de lignes de commandes. Dans la fenêtre du Terminal, lancez l’analyse d’un fichier PDF ou d’une photo en saisissant tesseract (nomfichier.pdf) nomdestina­tion en remplaçant nomfichier par l’intitulé du fichier source et nomdestina­tion par celui du document qui recevra le texte issu de l’analyse OCR. Validez par Entrée. Dans le cas d’un PDF éditable, vous devez d’abord le convertir en image (pdfimages -png nomfichier.pdf nomdestina­tion) avant de lancer la procédure d’extraction.

 ??  ?? Tesseract affiche un taux d’erreur très bas pour un utilitaire d’OCR gratuit.
Tesseract affiche un taux d’erreur très bas pour un utilitaire d’OCR gratuit.

Newspapers in French

Newspapers from France