lo que todos estaban esperado: la nube de palabras del Mensaje de hoy. hecha con Word It Out para mayor precisión http://t.co/Zlr858WxR6—
El Útero de Marita (@uterope) July 28, 2013
Según lo que pude leer en twitter el mensaje a la nación de Ollanta Humala este año estuvo algo aburrido. Pero lo mejor del discurso fue que duró la mitad que el del año pasado!
Luego de ver las nubes de palabras del mensaje de este año y ver al algunos opinar que este mensaje se parece mucho al del año pasado decidí hacer un rápido y rudimentario análisis de los discursos presidenciales del 2013 y 2012.
Estadísticas básicas
La cuenta de Scrib de PresidenciadelPeru tiene colagos los dos discursos. Bajé los archivos en formato PDF y los convertí a texto y averigué unas estadísticas básicas:
# convertir los archivos PDF a texto pdftotext 101360576-Spr-28-de-Julio-2012.pdf mensaje2012.txt pdftotext 156579151-Mensaje-Presidencial-2013.pdf mensaje2013.txt # Cuantas líneas y palabras de texto tiene cada discurso? wc -l mensaje2012.txt 1262 mensaje2012.txt wc -w mensaje2012.txt 11989 mensaje2012.txt wc -l mensaje2013.txt 690 mensaje2013.txt wc -w mensaje2013.txt 6558 mensaje2013.txt
Vemos que el mensaje del 2013 tiene aproximandamente la mitad del número de lineas de texto que el 2012 (54.67%) y la mitad de palabras (54.70%). Este mensaje duró la mitad del tiempo que en el 2012 (63 minutos versus 2 horas). Entonces los ayayeros que aplaudían y gritaban en el congreso y no dejaban escuchar el discurso debieron haber interrumpido el mismo número de minutos que el año pasado. Ya que al parecer no tuvieron efecto significativo en la duración del discurso. Al contrario parece que este año Ollanta Humala pudo leer su discurso más rápido (a paso ligero).
Pero este año parece haber habido más quejas por los ayayeros. Debe ser una consecuencia de la baja desaprobación del presidente.
Frecuencia de palabras usadas en los mensajes
Las nubes de palabras son muy buenas para tener una idea de las palabras que han sido más usadas durante los discursos. Pero me da curiosidad tener los números duros de las palabras que más se usaron en el discurso.
Para ver las frecuencias de palabras tuve que hacer varias manipulaciones al texto para hacer una “limpieza” superficial de los archivos de texto y poder trabajarlo:
# Eliminar signos de puntuación usando el comando tr tr -d [:punct:] < mensaje2012.txt > mensaje2012_nopunct.txt tr -d [:punct:] < mensaje2013.txt > mensaje2013_nopunct.txt # Convertir todas las mayúsculas a minúsculas tr [:upper:] [:lower:] < mensaje2012_nopunct.txt > mensaje2012_lower.txt tr [:upper:] [:lower:] < mensaje2013_nopunct.txt > mensaje2013_lower.txt # Convertir todo el texto a una lista de palabras tr ' ' '\n' < mensaje2012_lower.txt > mensaje2012_oneword.txt tr ' ' '\n' < mensaje2013_lower.txt > mensaje2013_oneword.txt
Lo que nos da archivos conteniendo todo el discurso convertido a una lista de palabras:
mensaje a la nación del señor presidente ollanta humala con ...
Podemos ver cuantas veces se usaron cada una de las palabras en cada uno de los mensajes a la nación.
Para el mensaje del 2012:
cat mensaje2012_oneword.txt | sort | uniq -c | sort -h
40 millones
41 estamos
44 ha
49 país
50 gobierno
52 estado
54 como
56 es
57 año
63 hemos
69 este
70 por
71 más
85
86 una
90 al
105 un
110 se
134 con
143 las
191 del
191 los
212 para
249 que
283 a
381 el
390 en
424 y
491 la
914 de
Las palabras comunes no nos interesan (de, la) pero vemos que se usó la palabra millones 40 veces.
Podemos averiguar cuántas veces se usó la palabra millones en el discurso del 2013:
cat mensaje2013_oneword.txt | sort | uniq -c | grep millones 43 millones
Ollanta Humala mencionó la palabra millones 43 veces! Tres veces más que el año pasado. Pero este discurso fue 54% más corto! Si este mensaje hubiera sido de la misma longitud que el del año pasado, el presidente habría mencionado millones 86 veces? El doble que el año pasado. Este año ha sido una verdadera lluvia de millones. Lo cual puede preocupar porque como dice el conocido refrán dime de que presumes y te dire de qué careces.
Algo parecido pasa si vemos la frecuencia de la palabra seguridad:
En el 2012:
cat mensaje2012_oneword.txt | sort | uniq -c | sort -h | grep seguridad
1 seguridades
3 inseguridad
15 seguridad
En el 2013:
cat mensaje2013_oneword.txt | sort | uniq -c | sort -h | grep seguridad
2 inseguridad
13 seguridad
Si hacemos el ajuste por tamaño de discurso, este año el presidente mencionó la palabra seguridad casi el doble de veces que el año pasado.
dime de que presumes y te dire de qué careces