¿Cómo extraer texto de un archivo PDF?

extraer texto e imágenes de un archivo pdf
extraer texto e imágenes de un archivo pdf

Última actualización: 17 de julio de 2022

¿Tienes un documento PDF del que quieres extraer todo el texto? ¿Qué pasa con las imágenes escaneadas cuyo texto desea convertir y editar? Estos son algunos de los problemas más comunes que he visto en mi lugar de trabajo al trabajar con estos archivos.

Ya hemos visto una extensión de Chrome que te permite copiar texto de una imagen, hoy te contaré en detalle sobre varias formas, con las que puedes extraer texto o imagen de un archivo PDF. Los resultados de la extracción variarán según el tipo y la calidad del texto o la imagen del PDF. Esto significa que sus resultados variarán según la herramienta que utilice, por lo que es mejor probar tantas de las opciones que se enumeran a continuación como sea posible para obtener los mejores resultados.

Extraer texto o imagen de PDF

La forma más fácil y rápida de comenzar es probar un servicio en línea.Extractor de texto PDF. Por lo general, son gratuitos y pueden brindarle exactamente lo que está buscando sin tener que instalar nada en su computadora. Aquí están los que he usado con resultados de muy buena calidad:

ExtraerPDF

ExtraerPDF es una herramienta gratuita para recuperar imágenes, texto y fuentes de un archivo PDF. Rápido y fácil de usar, simplemente cargue su documento o ingrese la dirección URL del archivo PDF que desea usar e inicie la extracción. La única limitación es que el tamaño máximo del archivo PDF es de 10 MB. Eso es un poco pequeño; así que si tiene un archivo más grande, intente comprimir PDF o probar los otros métodos mencionados en el artículo. Completamente gratis, ExtractPDF se puede utilizar sin ningún registro previo.

 extraer-pdf-extraer-texto-pdf

En general, la herramienta en línea ExtractPDF funciona muy bien, pero encontré un problema con un archivo PDF que me da un resultado extraño. El texto se extrae bien, pero por alguna razón hay un salto de línea después de cada palabra. No es un gran problema para un archivo PDF pequeño, pero definitivamente es un problema para archivos con mucho texto. Si esto te sucede, prueba la siguiente herramienta.

OCR en línea

OCR en línea  por lo general, tiende a funcionar para documentos que no se pudieron convertir correctamente con ExtractPDF, por lo que es una buena idea probar ambos servicios para ver cuál le brinda la mejor calidad de salida. El OCR en línea también tiene algunas características más agradables que pueden ser útiles para cualquier persona con un archivo PDF grande que solo necesita convertir parte del texto en algunas páginas, no en todo el documento.

Lo primero que debe hacer es seguir adelante y crear una cuenta gratuita. Es un poco inconveniente, pero si no crea una cuenta gratuita, convertirá parcialmente su PDF en lugar de todo el documento. Esto significa que en lugar de solo poder cargar un documento de 5 MB, podrá cargar hasta 100 MB por archivo con una cuenta siempre gratuita.

extracto-texto-pdf

Para usar OCR en línea, vaya a la siguiente dirección: www.onlineocr.net, elija un idioma y luego elija el tipo de formatos de salida que desea para el archivo convertido. Tienes dos opciones y puedes elegir más de una si lo deseas. En Documento de varias páginas, puede seleccionar Números de página y luego elegir solo las páginas que desea convertir. Luego seleccionas el archivo. Finalmente, haga clic en Convertir!

El OCR en línea hizo un gran trabajo al convertir mis archivos PDF porque pudo mantener el diseño del texto real en la prueba que ejecuté. Había tomado un documento de Word considerando varios guiones, diferentes tamaños de fuente, etc. Y el software aún había logrado convertir todo en un archivo PDF. Luego usé Online OCR para volver a convertir al formato de Word y el resultado fue aproximadamente un 95% idéntico al original. Es bastante impresionante para mí.

OCR en línea gratuito 

Hablando de imágenes y texto, así como de OCR, permítanme mencionar otro gran sitio que funciona muy bien para imágenes. OCR en línea gratuito  fue muy bueno y muy preciso al extraer texto de mis imágenes de prueba. Luego tomé algunas fotos desde mi iPhone de varias páginas de libros, folletos, etc., y me sorprendió lo bien que la herramienta pudo convertir el texto.

en línea-ocr
Para usarlo, comience eligiendo su archivo y luego haga clic en el botón Descargar. En la siguiente pantalla hay un grupo de opciones y una imagen de vista previa. Puede recortar la parte que desea extraer. Luego haga clic en el botón OCR y su texto convertido aparecerá debajo de la imagen de vista previa. Tampoco tiene límites, lo cual es realmente bueno.

Además de los servicios en línea, hay dos convertidores de PDF freeware, que absolutamente quiero mencionar en caso de que necesite un software que se ejecute localmente en su computadora para realizar este tipo de conversiones. Con los servicios en línea, siempre necesitará Internet, algo que no siempre es posible para todos en todo momento. Sin embargo, noté que la calidad de las conversiones de los programas gratuitos era notablemente peor que la de los sitios web.

Extractor de texto A-PDF

Extractor de texto A-PDF es un software gratuito que, de hecho, hace un trabajo bastante impresionante al extraer texto de archivos PDF. Una vez que lo descargue e instale, haga clic en el botón Abrir para elegir su archivo PDF. Luego haga clic en Extraer texto para iniciar el proceso.

extractor de apdf

Se le pedirá que elija una ubicación para almacenar el archivo de salida y finalmente debería comenzar la extracción. También puede hacer clic en el botón Opción, que le permitirá elegir solo ciertas páginas para extraer y el tipo de extracción. La segunda opción es interesante porque extrae el texto en diferentes diseños y, de hecho, es muy interesante probar los tres para ver cuál te da el mejor resultado y el retorno esperado.

Controlador PDF2Text

Controlador PDF2Text hace un trabajo decente al extraer texto. Desafortunadamente, no tiene opciones; simplemente agregue archivos o carpetas, convierta y espere lo mejor. Funcionó bien en algunos archivos PDF, pero para la mayoría de ellos hubo varios problemas.

pdf2texto

Haga clic en Agregar archivos y luego en Convertir. Cuando se complete la conversión, haga clic en Examinar para abrir el archivo. Su rendimiento variará con este programa, así que no espere demasiado.

Además, vale la pena señalar que si está en un entorno corporativo o puede obtener una copia de Adobe Acrobat en el trabajo, entonces realmente puede obtener resultados mucho mejores.

Obviamente, Acrobat no es gratuito, pero el software sí tiene opciones para convertir sus proyectos de PDF a Word, Excel y HTML. También hizo la mejor representación manteniendo la estructura original del documento y la complicada conversión de texto.