Cómo convertir a Word documentos escaneados

Si necesitas digitalizar en formato texto algún libro, es posible que te entren varias dudas. ¿Se puede hacer?¿Qué hay de la calidad, es buena? No solo se puede hacer,sino que además hay varias formas de convertir un documento escaneado a Word. Veamos:

  • Escaneando el documento en formato PDF y editándolo posteriormente con Adobe Acrobat XI Pro para guardarlo en formato Word. La versión Pro de Acrobat es de pago, pero puedes adquirir una licencia de prueba gratuita de 30 días.
  • Desde la web OnlineOCR.net. Esta aplicación web permite convertir documentos en formato PDF, JPG, TIFF y GIF a Word, Excel y texto. En la versión gratuita podemos convertir hasta 15 páginas por hora y documentos de no más de una página.
  • Escaneando el documento en formato (OCR) y guardándolo como texto. Después podemos abrir Word y editar o guardarlo en formato .doc.
  • Utilizando algún programa de reconocimiento óptico de caracteres:

La manera más eficiente de todas podríamos decir que es mediante el Adobe Acrobat Pro, pero solo si el escaneo es muy muy limpio y de gran calidad. Las aplicaciones de reconocimiento óptico de caracteres han avanzado muchísimo, pero todavía muestran algunas lagunas con cosas como la negrita o cursiva, y la transcripción de algunas palabras dependiendo del tipo de fuente del documento original pueden ser erróneas.

Intenta escanear y pasar este documento a Word a ver que pasa
Intenta escanear y pasar este documento a Word a ver que pasa

Desde el propio escáner

Algunos escáneres incluyen la característica de reconocimiento óptico (OCR) dentro de su propio programa de escaneo. Para escanear a texto un documento solo tienes que fijar el formato de digitalización y fijarte en alguno que haga referencia a OCR o similar (depende de la marca/modelo del escáner).

Pasar de PDF a Word con Adobe Acrobat XI Pro

Una vez descargado e instalado Adobe Acrobat XI Pro (AQUÍ tienes una versión de prueba gratuita de 30 días) ve a “Herramientas –> Reconocimiento de texto -> En este archivo”.

convertir a word documento escaneado 04

En la ventana de “Reconocer texto” pulsa sobre “Editar” y elige el idioma del texto, estilo de salida y resolución.

convertir a word documento escaneado 05

Para finalizar vuelve a “Herramientas -> Edición de contenido -> Editar texto e imágenes” y modifica el texto si necesitas corregir alguna palabra. Para terminar pulsa sobre “Archivo -> Guardar como” y guárdalo en formato Word.

OnlineOCR

OnlineOCR es una aplicación web para pasar imágenes o pdfs a Word y es muy fácil de usar. Te explico como funciona: Entra en http://www.onlineocr.net/ y pulsa sobre “Select file”. Selecciona el documento escaneado y a continuación elige el idioma y el formato de salida desde los 2 menús desplegables que tienes en el centro de la pantalla.

convertir a word documento escaneado 03

Para terminar pincha en “Convert”. Justo debajo aparecerá una vista previa en texto plano que puedes editar si necesitas corregir alguna palabra. Por último pulsa sobre “Download Output File” y podrás descargar el fichero en formato Word. Aquí tienes un ejemplo de un PDF convertido a Word con OnlineOCR:

  • PDF original:

convertir a word documento escaneado 01

  • Documento convertido:

convertir a word documento escaneado 02

Si esta aplicación web no te satisface puedes probar otras alternativas similares como FreeOCR o Free-Online-OCR.

Programas de reconocimiento óptico de caracteres (OCR)

Si no quieres modificar tus documentos online y necesitas una aplicación de escritorio puedes utilizar aplicaciones como VueScan (que está también disponible para Mac y Linux además del omnipresente Windows).

Otra posibilidad es utilizar tu dispositivo Android o iOS para escanear el documento y convertirlo a texto directamente. Hay aplicaciones como Office Lens (para Android e iOS) o CamScanner (para Android e iOS) que realizan todo el proceso desde la misma aplicación. Es recomendable en estos casos limpiar la imagen antes de convertirla a texto. Si quieres saber más sobre este método echa un vistazo a ESTE POST.

En mi opinión la técnica de reconocimiento óptico de caracteres aunque ha mejorado muchísimo en los últimos años todavía está a años luz de ser una técnica perfecta. Muchos detalles, muchas palabras que «traduce» con letras incorrectas y símbolos que ensucian el texto. Todavía le falta ese plus de inteligencia que le haga ver que «t&!$olog1a» no puede ser una traducción valida de ninguna palabra en un texto. Todavía no le veo una comprensión lectora, sino un simple reconocimiento visual de letras sueltas que forman palabras sin integrarlas con el resto de texto. Sin embargo, estoy convencido de que el momento en el que daremos ese último gran salto está cada día mas cerca.

BANNER-EXORCISTA

¿Tienes Telegram instalado? Recibe el mejor post de cada día en nuestro canal. O si lo prefieres, entérate de todo via RSS a través de Feedly.

DEJA UNA RESPUESTA

Escribe tu comentario!
Escribe aquí tu nombre

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.