Comment extraire du texte d’un fihcier PDF ?

extraire du texte et des images dun fihcier pdf
extraire du texte et des images dun fihcier pdf

Dernière mise à jour : 17 juillet 2022

Vous avez un document PDF dont vous souhaitez extraire tout le texte ? Qu’en est-il des images scannées dont vous souhaitez convertir et éditer le texte ? Voici quelques-unes des questions les plus courantes que j’ai vu sur mon lieu de travail lorsque vous travaillez avec ces fichiers.

Nous avons déjà vu une extension chrome qui permet de copier du texte a partir d’une image, aujourd’hui, je vais vous parler en détails de diverses façons, avec lesquelles vous pourrez extraire du texte ou image d’un fichier PDF. Les résultats d’extraction varieront selon le type et la qualité du texte ou image dans le PDF. Cela veut dire que vos résultats varieront selon l’outil que vous utiliserez, il est donc préférable d’essayer autant d’options possible citées ci-dessous pour obtenir les meilleurs résultats.

Extraire du texte ou image d’un PDF

La façon la plus simple ainsi que la plus rapide de commencer est d’essayer un service en ligne d’extracteur de texte d’un PDF. Ceux-ci sont généralement gratuits et peuvent vous donner exactement ce que vous cherchez à avoir et cela sans avoir à installer quoi que ce soit sur votre ordinateur. En Voici ceux que j’ai utilisé avec des résultats de très bonnes qualités :

ExtractPDF

ExtractPDF est un outil gratuit pour récupérer des images, du texte et des polices d’un fichier PDF. Rapide et simple d’utilisation il suffit de télécharger votre document ou d’indiquer l’adresse Url du fichier PDF que vous souhaitez utiliser et de lancer l’extraction. La seule limitation est que la taille maximale du fichier PDF est de 10 MB. Voilà un peu petite; donc si vous avez un fichier plus gros, essayer de compresser PDF ou de tester les autres méthodes cité dans l’article. Entièrement gratuit, ExtractPDF s’utilise sans aucune inscription préalable.

 extractpdf-extraire-texte-pdf

Dans l’ensemble, l’outil en ligne ExtractPDF fonctionne très bien, mais j’ai rencontré quelques problème avec un fichier PDF qui me donne un drôle résultat. Le texte est extrait très bien, mais pour quelque raison, il y a un saut de ligne après chaque mot ! Pas un grand problème pour un petit fichier PDF, mais certainement un problème pour les fichiers avec beaucoup de texte. Si cela vous arrive, essayez l’outil suivant.

Online OCR

Online OCR  a habituellement tendance à fonctionner pour les documents qui n’ont pas pu être convertis correctement avec ExtractPDF, c’est donc une bonne idée d’essayer les deux services pour voir celui qui vous donnera la meilleure sortie en terme de qualité. Online OCR  a également quelques fonctionnalités plus agréables qui peuvent s’avérer très pratiques pour n’importe qui avec un gros fichier PDF n’ayant pas besoin de convertir que quelque peu de texte sur quelques pages, et non le document entier.

La première chose que vous devriez faire est d’aller de l’avant et créer un compte gratuit. C’est un peu gênant, mais si vous ne créez pas un compte gratuit, il convertira partiellement votre PDF plutôt que l’ensemble du document. Cela vaut dire qu’au lieu d’être seulement en mesure de ne télécharger qu’un document de 5 Mo, vous pourrez télécharger jusqu’à 100 Mo par fichier avec un compte toujours gratuit.

extraire-texte-pdf

Pour utiliser Online OCR, allez sur l’adresse suivant: www.onlineocr.net, choisissez une langue, puis choisir le type de formats de sortie que vous souhaitez pour le fichier converti. Vous avez deux options et vous pouvez choisir plus d’un si vous le souhaitez. Sous le document multipage , vous pouvez sélectionner numéros de page, puis choisissez uniquement les pages que vous souhaitez convertir. Ensuite, vous sélectionnez le fichier. Enfin, cliquez sur Convertir !

Online OCR a fait un excellent travail de conversion de mes fichiers PDF parce qu’il était en mesure de maintenir la disposition réelle du texte lors du test que j’avais effectué. J’avais pris un document Word prenant en compte divers tirets, tailles de police différentes, etc.  Et le logiciel avait tout de même réussi à convertir le tout en un fichier PDF. Puis j’ai utilisé Online OCR pour reconvertir en format Word et le résultat était d’environ 95 % identique à l’original. C’est assez impressionnant pour moi.

Free Online OCR 

En parlant d’image et de texte ainsi que d’OCR, permettez-moi de mentionner un autre très bon site qui fonctionne vraiment bien pour les images. Free Online OCR  était très bon et très précis lors de l’extraction de texte de mes images test. J’ai pris alors quelques photos de mon iPhone de diverses pages de livres, brochures, etc., et j’ai été surpris à quel point l’outil était capable de convertir le texte.

online-ocr
Pour l’utiliser, commencez par choisir votre fichier puis cliquez sur le bouton Télécharger. Sur l’écran suivant, il ya un groupe d’options et un aperçu de l’image. Vous pouvez recadrer la partie que voulez vous extraire. Puis cliquez sur le bouton OCR et votre texte converti apparaît sous l’aperçu d’image. Il n’a pas non plus des limites, ce qui est vraiment agréable.

Outre les services en ligne, il y a deux convertisseurs PDF freeware, que je tiens absolument à mentionner au cas où vous aviez besoin de logiciel qui s’exécute localement sur votre ordinateur pour effectuer ce type de conversions. Avec les services en ligne, vous aurez toujours besoin d’Internet, chose qui n’est pas toujours possible pour tout le monde  à tout moment. Cependant, j’ai remarqué que la qualité des conversions des programmes freeware était sensiblement moins bonne que celles des sites Web.

A-PDF Text Extractor

A-PDF Text Extractor est un freeware qui fait en effet un travail assez impressionnant d’extraction de texte à partir de fichiers PDF. Une fois que vous le télécharger et l’installer, cliquez sur le bouton Ouvrir pour choisir votre fichier PDF. Puis cliquez sur Extract text pour démarrer le processus.

apdf-extractor

Il vous sera exigé de choisir un emplacement pour stocker le fichier de sortie et l’extraction devra enfin commencer. Vous pouvez également cliquer sur le bouton Option, qui vous permettra de choisir uniquement certaines pages à extraire et le type d’extraction. La deuxième option est intéressante car elle extrait le texte dans différentes mises en page et il est en effet très intéressant d’essayer tous les trois pour voir celles qui vous donnent le meilleur résultat et rendement espéré.

Pilote PDF2Text

PDF2Text pilote réalise un travail correct d’extraction de texte. Il n’a malheureusement pas d’options ; juste vous ajoutez des fichiers ou des dossiers, vous convertissez et espérer le meilleur. Il a bien fonctionné sur certains fichiers PDF, mais pour la majorité d’entre eux, il y avait plusieurs problèmes.

pdf2text

Cliquez sur Ajouter des fichiers et puis cliquez sur convertir. Une fois la conversion terminée, cliquez sur Parcourir pour ouvrir le fichier. Votre rendement va varier en utilisant ce programme, donc ne vous attendez pas beaucoup.

En outre, il est à noter que si vous êtes dans un environnement d’entreprise ou que vous pouvez obtenir vos mains sur une copie d’Adobe Acrobat au travail, alors vous pouvez vraiment obtenir de bien meilleurs résultats.

Acrobat n’est évidemment pas gratuit, mais le logiciel possède en effet des options de conversion pour vos projets des PDF au format Word, Excel et HTML. Il a aussi fait le meilleur rendu de maintien de la structure du document original et la conversion de texte compliquée.