Muchas veces sucede que, al momento de solicitar un servicio de traducción, el cliente no cuente con  un documento con texto editable y entregue un documento escaneado (incluso, en algunas ocasiones, fotografiado), que por lo general tiende a ser un portable document format, conocido popularmente como PDF.

Al no ser un documento editable, la posibilidad de extraer el texto para una posterior utilización de una herramienta de traducción asistida se ve reducida, pero de todas formas posibilitada gracias a los programas de Reconocimiento Óptico de Caracteres (más conocidos a través de sus siglas en inglés, ).

Me voy a centrar en los dos que me parecieron de mayor utilidad acorde a la complejidad de extracción de texto del documento.

Documentos en PDF simples

Es común que muchos PDF’s sean creados a través de programas como Adobe Indesign, Illustrator, o incluso mediante el mismísimo Microsoft Word. Para estos casos la herramienta de preferencia es el Adobe Acrobat, ya sea su versión Professional o Standard. Ambos son versiones más avanzadas del Adobe Reader, programa que suele utilizarse para la lectura de documentos PDF. Estas versiones cuentan con un OCR propio que se encarga de extraer el texto hacia un documento de Microsoft Word (se puede optar entre la extensión .doc o .docx). Este documento final es muy fiel al documento de origen y con un par de clics alcanzaría para tener una copia idéntica en formato editable.

Documentos en PDF complejos o documentos de imagen

Por complejos me refiero a aquellos documentos escaneados, como fotografías, que cuenten con texto dentro de imágenes o diagramas. Para este tipo de documentos la opción más apropiada es el  Fine Reader. Este programa no sólo cuenta con un paquete de más de 180 idiomas, tanto oficiales como no oficiales (como por ejemplo, el esperanto o el ido), idiomas artificiales como el Basic o el C++ o incluso permite configurar el OCR a textos de química, permitiendo extraer lo más fielmente posible el formato de las fórmulas.

El Abby Fine Reader a diferencia de otros programas de la misma índole, nos permite trabajar con más de un idioma simultáneamente, algo que resulta más que útil al momento de trabajar con documento que alternen entre distintos sistemas de escritura (por ejemplo, entre idiomas occidentales y orientales, si fuera el caso). También es más flexible que el resto, ya que de ser necesario, permite al usuario seleccionar áreas en particular dentro del documento permitiendo discriminar entre tablas, texto, imágenes y hasta imágenes de fondo.

A fin de cuentas, la complicación siempre está presente, pero conocer distintas herramientas de extracción de texto nos permitirá economizar el tiempo y los esfuerzos, obteniendo mejores resultados.

Etiquetas:

1 Comentario » for ¿Qué programa conviene utilizar para extraer texto?
    1 Pings/Trackbacks para "¿Qué programa conviene utilizar para extraer texto?"
    1. […] del contexto mismo. Lo ideal es pasar primero el archivo a formato PDF y luego convertirlo a Word (aquí encontrará detalles para realizar esta conversión). Para este proceso lo ideal sería utilizar […]