Recientemente conseguí una tesis de maestría, de la Universidad de Alberta, en Canadá, la cual habla de un tema que estoy investigando. La tesis se puede descargar directamente en formato PDF del sitio de la mencionada institución. Descubrí que en realidad el PDF es una colección de imágenes, es decir, no es un texto convertido a PDF sino que alguien escaneo -quizás página por página- la tesis original y la hace accesible como PDF, aunque investigando un poco más, hallé que no se escaneó, sino que es una imagen microfilmada y pasada a PDF de alguna manera.
La cuestión es que el escaneo de la tesis permite leerla pero, por alguna razón, quedó muy oscura, es decir, cada página muestra las palabras como si estuviesen en «súper-negritas». Se puede leer, pero cansa, resulta de alguna manera incómodo. Como que el cerebro tiene que esforzarse para entender algunas palabras. Como me empezó a fastidiar esto, pensé que algo se podría hacer, y considerando que de procesamiento de imágenes algo sé, pues he dado este curso por algunos semestres en la Facultad de Ciencias de la UNAM, empecé a buscar qué filtro podría usar para hacer más legible el documento en cuestión.
Se me ocurrió entonces la siguiente idea: tomar cada página del texto, como una imagen JPG y procesarla con un filtro aún por determinar. El primer problema era cómo pasar un archivo PDF a imágenes. Sorpresivamente hallé que más de uno ha tenido esta necesidad y hay algunos programas que funcionan de manera gratuita, en línea, que hacen esta tarea. El que hallé muy conveniente es éste, el cual puede procesar un archivo PDF hasta de 25 megabytes. Suficiente, mi archivo era de 3 megas, aproximadamente.
Como todas las imágenes las tenía en una carpeta, escribí un pequeño programa que lee imagen por imagen (de la carpeta que yo especifico), las procesa y me entrega cada una de las imágenes convertidas. Cuando se tienen todas las imágenes convertidas, entonces se hace el proceso inverso, es decir, se suben a una página todas ellas y un programa en línea las convierte en un archivo PDF (también de forma gratuita).