Usando herramientas de Linux con los narcoindultos

Alan García Pérez

Alan García Pérez (Photo credit: Wikipedia)

El tuit de Ben Solís me dio una idea:

Creo que las herramientas de Linux pueden ser de mucha ayuda para “parsear” información presente en documentos PDF y texto para obtener información de importancia periodística.

Miremos la información que se puede obtener en el caso de los #narcoindultos durante el segundo gobierno de Alan García.

El periodista Martín Hidalgo ha colgado documentos en su cuenta de Scribd conteniendo la lista de indultados por Alan García (segundo gobierno) que habían reincidido y otra vez estaban siendo procesados por diversos delitos.

Este es uno de los archivos:

Bajé los 5 documentos que eran imagénes escaneadas que habían sido convertidas a PDF. Es mejor tener la información en texto par que pueda ser trabajado. Entonces había que convertir el PDF -> en imagen -> a texto.

Existen varias herramientas en linux s que pueden ayudar con esto: todos los comandos son ejecutados desde la consola debcomandos o terminal:

# extraer la imagen desde el PDF
pdfimages DOC2.pdf doc2

Con lo que obtuve el archivo de imagen doc2-000.ppm

Para convertir la imagen a texto podemos usar la herramienta OCR llamada tesseract:

# convertir imagen a texto
tesseract doc2-000.ppm doc2 -l spa# eliminar líneas en blanco
sed -i '/^\s*$/d' doc2.txt

Obtuve el archivo de texto doc2.txt conteniendo todos los nombres. Luego de corregir algunas pequeñas fallas, y ordenar la lista de tal manera que quede un nombre por línea era cuestión de comparar esta lista con los decretos presidenciales para averiguar en qué fecha les fue otorgado us narcoindultos.

La web del min de justicia tiene colgados pdfs de todas sus normas, incluyendo los narcoindultos. Usando google encontré que estos archivos están ordenados por fecha con un formato masomenos consistente:

Por ejemplo, para el 4 de Mayo del 2010 el archivo correspondiente es está en esta dirección http://spij.minjus.gob.pe/Normas/textos/040510T.pdf

Para bajar los PDFs en grupo escribí una dirección web por línea usando un editor de texto cualquiera:

Grabé el archivo con el nombre list.txt y usé el comando de Linux wget para bajar todos los archivos de la lista:

wget -i list.txt

Luego de ejecutarse la descarga obtuve estos archivos:

-rw-rw-r-- 1 289847 Oct 15  2010 050510T.pdf
-rw-rw-r-- 1 257893 Oct 15  2010 040510T.pdf
-rw-rw-r-- 1 112326 Oct 15  2010 030510T.pdf

No es necesario usar OCR para convertir estos PDFs a texto:

pdftotext 030510T.pdf
pdftotext 040510T.pdf
pdftotext 050510T.pdf

Con lo que obtuve los archivos en texto con la extensión cambiada a .txt

Luego es cuestion de hacer un simple “crossover” de la lista de indultados que han reincidido versus los archivos de texto conteniendo las normas del Ministerio de Justicia:

cat doc2.txt | awk '{print $1 " " $2 ", " $3}' | while read APELLIDOS; do grep "${APELLIDOS}" *.txt ; done

Ese comando se asegura que los nombres de los indultados estén en el formato usado por el minjus (Apellido Paterno Apellido Materno “coma” Primer Nombre). Luego hace una búsqueda de cada nombre en todos los archivos .TXT que tenemos en el actual directorio.

040510T.txt:62. JARAMILLO BRIGIDO, CLINIA, conmutarle de 08 años a 07 años 10 meses de
040510T.txt:6. VELA TAMANI, ALEX, conmutarle de 04 años a 02 años 06 meses de pena

Bingo!

Hay dos coincidencias:

Si revisamos el archivo con la lista de indultados (doc2.txt) vemos que JARAMILLO BRIGIDO, CLINIA ha vuelto a ser procesada por el delito de tráfico ilícito de drogas. Es este un narcoindulto?

Imagínese lo que podríamos encontrar si bajamos TODAS las normas emitidas por el minjus durante el período 2006-2011 y buscar cuandó es que fueron indultados estos angelitos. Podríamos hacer un tuit ese día recordando que se le dio la gracia presidencial a alguien que talvez no lo necesitaba y bajo muy sospechosas circunstancias (tomando en cuenta todo lo que sabemos acerca de los posibles pagos bajo la mesa).

Anuncios

3 comentarios en “Usando herramientas de Linux con los narcoindultos

  1. Pingback: Te recuerdo tu narcoindulto via tuitbot | aniversario peru

  2. Pingback: Los narcoindultados con fecha de indulto usando Linux | aniversario peru

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s