Análisis del comportamiento tuitero de tu congresista

Como ya saben, hace unos días terminó la discusión, e idas y venidas, acerca del grupo de trabajo de derechos humanos del Congreso, presidido por la congresista fujimorista Martha Chavez (@MarthaChavezK36).

La discusión degeneró tanto que llegó al tuiter. La congresista Martha Chavez anunciaba en tuiter sus planes de trabajo dentro de la comisión y respondía a uno que otro insulto tuitero. Era notable la cantidad de tuits emitidos por la congresista. Pero, fueron muchos tuits? pocos? en qué horas acostumbra tuitar la congresista?

Usando herramientas de Linux, Python y unas cuantas librerías «open source» podemos analizar el comportamiento tuitero de Martha Chavez.

Descargué del tuiter los 3200 tuits más recientes de la congresista. Para eso usé un cliente de tuiter usable desde la consola Linux.

t timeline -c -n 3200 MarthaChavezK36 > MarthaChavezK36.csv

Aquí ven parte de los tuits descargados (click para ampliar).

3200 tuits más recientes de Martha Chavez

Hice un gráfico del número de tuits por día, usando Python.

timeline de la congresista Martha Chavez

timeline de la congresista Martha Chavez

Este timeline comienza el 24 de julio. Vemos que tuvo bastante actividad el 28 de Julio, mediados de Septiembre (cuando se discutía sobre la unión civil de parejas del mismo sexo), primera y segunda semana de Octubre (en esa época se tuiteaba sobre la renuncia de Fujimori por fax), primera semana de Noviembre (cuando se armó el chongo de su elección como coordinadora del grupo de trabajo sobre derechos humanos).

Parece que su destitución del grupo de DDHH no hizo que Martha Chavez tuitee tanto como cuando se hablaba de la unión civil (muy revelador!).

Pero supongo que Martha Chavez tuitea en sus horas libres, cuando ya terminó sus horas de trabajo en el congreso, además de los fines de semana.

Podemos ver esto si usamos sus tuits para generar un «punchcard»:

python analizar_tuits.py MarthaChavezK36.csv | python punchcard.py -f punchcard_Martha_Chavez.png

horas de tuiteo de Martha Chavez

Esto es alucinante! La congresista tuitea todos los días de la semana. Tuitea a forro entre las 8 y 10 de la mañana (ni bien llega al Congreso?). Tuitea con mayor fuerza los días Viernes. El menor número de tuits a la 1:00pm hace suponer que a esa hora almuerza. Sábados y Domingos, no descansa, tuitea tanto como los días lunes. Y parece que se va a dormir a la 1:00 am. Al parecer duerme menos de 8 horas (eso no es saludable congresista!).

Este nivel de tuits emitidos por Martha Chavez es muy alto? muy bajo? Podemos hacer una comparación con un tuitero consumado, neto y nato. Comparemos con el Útero de Marita:

Este es el punchcard del utero.pe.

punchcard uterope

Vemos que, al parecer, el útero.pe tuitea menos que la congresista. Uterope tuitea muy poco los viernes, sábados y domingos (a excepción de las 9:00pm cuando tuitea con furia, debe ser que a esa hora pasan los noticieros dominicales). Qué hace el uterope los viernes y fines de semanas que no tuitea? Debe tener buena vida. También tuitea bastante los jueves.

Aqui les dejo el código necesario para hacer este tipo de análisis (?) con cualquier tuitero. Pero fíjense que el tuitero no ande borrando sus tuits ni use tuits programados ya que malograría el «análisis».

Sección geek

Código para producir el gráfico timeline y producir las fechas en formato unix, necesarias para dibujar el punchcard. El programa que hace el punchard lo saqué de aquí: https://github.com/aaronjorbin/punchcard.py


#! /usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import codecs
import re
import datetime
import time
from itertools import groupby
import numpy as np
import matplotlib.pyplot as plt
import brewer2mpl
f = codecs.open(sys.argv[1].strip(), "r", "utf-8")
datos = f.readlines()
f.close()
timestamps = []
counting = []
x = []
for line in datos:
line = line.strip()
if re.search("^[0-9]{6,},", line):
line = line.split(",")
fecha = line[1]
unix_time = time.mktime(datetime.datetime.strptime(fecha, "%Y-%m-%d %H:%M:%S +%f").timetuple())
# correct for local time Lima -5 hours
unix_time -= 60*60*5
print unix_time
fecha = fecha.split(" ")[0]
my_time = datetime.datetime.strptime(fecha, "%Y-%m-%d")
if my_time not in timestamps:
timestamps.append(my_time)
counting.append(fecha)
if fecha not in x:
x.append(fecha)
# de reversa
timestamp = timestamps[::-1]
y_axis = [len(list(group)) for key, group in groupby(counting)]
# queremos color
set2 = brewer2mpl.get_map('Set2', 'qualitative', 8).mpl_colors
color = set2[0]
fig, ax = plt.subplots(1)
plt.plot(timestamps, y_axis, color=color)
plt.xticks(rotation="45")
plt.ylabel(u"Número de tuits por día")
plt.title(u'Actividad tuitera de Martha Chavez: timeline')
plt.tight_layout()
plt.savefig("timeline" + sys.argv[1].strip() + ".png")
sys.exit()

Guía práctica para hackear las páginas del Congreso

Según Wikipedia, un hacker es:

«A person who enjoys exploring the details of programmable systems and stretching their capabilities, as opposed to most users, who prefer to learn only the minimum necessary.»

Algunos creen equivocadamente que hacker = malechor, delincuente. Pero lo cierto es que hay varios tipos de hackers.

  • Aquel que infringe medidas de seguridad con fines maléficos, también se le conoce como «cracker».
  • Un miembro de la comunidad Unix de programas de computación libre y «open source», o alguien que usa este principio para desarrollo de software o hardware.

Además individuos considerados como hackers de la subcultura de programadores pueden hacer tareas repititivas de 100 a 1,000 veces más rapido que usuarios que no son hackers (gracias a que usan de técnicas de computación avanzadas).

El congreso peruano ha aprobado una ley de delitos informáticos recontra ridícula que ha sido criticada por muchos, por ejemplo en el blog http://iriartelaw.com y http://www.hiperderecho.org, además de ser considerada una ley Frankenstein. Esto evidencia que el congreso legisla sobre temas que desconoce.

Para demostrar qué tan mal redactada está la ley ex-beingolea. He decidido hackear las páginas web del Congreso de la República. Y aquí detallo el procedimiento.

Quiero hacer uso de programas informáticos para averiguar cúantos proyectos de ley ha propuesto cada congresista durante este año 2013.

Hay que buscar la página web del congreso que tiene la lista de los proyectos de ley emitidos este año:

Buscar la página con los proyectos de ley.

Buscar la página con los proyectos de ley.

Listado de proyectos de ley por fecha.

Listado de proyectos de ley por fecha.

Si vemos el código original HTML de esa página (hacer CTRL-U, si están en Mozilla Firefox) veremos que está compuesta de 4 «frames». Cada «frame» corresponde a una parte de la página. Me interesa el último «frame», el que contiene la lista de links a los proyectos de ley.

Código HTML de la página del congreso

Código HTML de la página del congreso

Si hacemos click al último «frame» nos encontramos con esta página:

"Frame" conteniendo la lista de proyectos de ley.

«Frame» conteniendo la lista de proyectos de ley.

Esta página lista 100 proyectos de ley, y al ver la dirección URL de esta página, nos damos cuenta que basta con cambiar el último parámetro Start=1 por Start=100 para obtener los siguientes 100 proyectos de ley.

Osea cambiar:

http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2011.nsf/PAporNumeroInverso?OpenView&Start=1

por:

http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2011.nsf/PAporNumeroInverso?OpenView&Start=100

Puedo escribir un hack (osea script) que me colecte rápidamente todas las páginas que contienen los links. En lugar de bajarme documento por documento (lo cual me tomaría muuuuucho tiempo), lo puedo hacer al toque si hago uso de las tecnologías de información y comunicación que tanto miedo causa a los congresistas:

Hay 812 proyectos de ley para examinar. Necesitamos descargar cada proyecto de ley y copiar la lista de autores para contar cuántos proyectos ha sido emitido por cada congresista. Obviamente hacer esto manualmente me demoraría una eternidad. Para eso he creado un segundo hack. Es un script in Python que examina cada link, y extrae los nombres de los congresistas que son autores de cada proyecto de ley. Junta todos los nombres y hace un gráfico para poder visualizar los datos (el código de programación está al final de este post).

Bueno, el script estaba demorando mucho, me cansé de esperar y cancelé el programa por lo que no pude colectar toda la info. Pero la idea se entiende no?

Número de proyectos de ley presentado por cada congresista durante el 2013

Número de proyectos de ley presentado por cada congresista durante el 2013

Aquí se pueden descargar la dichosa ley http://www.hiperderecho.org/wp-content/uploads/2013/09/nuevaleybeingolea.pdf.

Hagamos recuento de las veces que he faltado a la ley:

Artículo 3. Atentado a la integridad de datos informáticos

El que, a través de las tecnologias de la información o de la comunicación, introduce,
borra, deteriora, altera, suprime o hace inaccesibles datos informáticos
, será reprimido
con pena privativa de libertad

-> Al escribir este post he introducido datos informáticos al servidor de WordPress usando tecnologías de la comunicación.

Articulo 6. Tráfico ilegal de datos

El que, crea, ingresa, o utiliza indebidamente una base de datos sobre una persona natural o jurídica, identificada o identificable, para comercializar; traficar, vender, promover, favorecer o facilitar información relativa a cualquier ámbito de la esfera personal, familiar, patrimonial, laboral, financiera u otro de naturaleza análoga, creando o no perjuicio, será reprimido con pena privativa de libertad no menor de tres ni mayor de cincó años.

-> Al bajarme la lista de proyectos de Ley del Congreso he ingresado a su base de datos para facilitar la información relativa al ámbito laboral de cada congresista sin crear perjuicio (ojo que no es necesario causar perjuicio para ir en contra de la ley).

Artículo 1O. Abuso de mecanismos y dispositivos informáticos

El que fabrica, diseña, desarrolla, vende, facilita, distribuye, importa u obtiene para su utilización, uno o más mecanismos, programas informáticos, dispositivos, contraseñas, códigos de acceso o cualquier otro dato informático, específicamente diseñados para la comisión de los delitos previstos en la presente Ley, o el que ofrece o presta servicio que contribuya a ese propósito, será reprimido con pena privativa de libertad no menor de uno
ni mayor de cuatro años y con treinta a noventa días-multa.

-> En este post publico el programa informático que he fabricado, diseñado y desarrollado con el fin de específicamente incumplir los artículos 3 y 6 de la presente Ley.

Conclusión

He violado la ley de delitos informáticos (ley ex-beingolea) 3 veces

Señores congresistas métanme preso. Quiero cárcel dorada como Antauro y Fujimori. Gracias.

Sección para geeks

Aqui está el código para bajarse los nombres de los congresistas que fueron autores de proyectos de ley durante el 2013:


#!/usr/bin/env python
# -*- coding: utf-8 -*-
import socks
import cookielib
import socket
from bs4 import BeautifulSoup
import requests
import sys
import re
from os import listdir
import codecs
import urllib2
socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5, "127.0.0.1", 9050)
socket.socket = socks.socksocket
def extract_doc_links(soup):
our_links = []
for link in soup.find_all("a"):
if re.search("201[0-9]-CR$", link.get_text()):
href = link.get("href")
if href.endswith("ocument"):
our_link = "http://www2.congreso.gob.pe" + "/" + href
our_link = re.sub("//Sicr","/Sirc", our_link)
our_links.append(our_link)
return our_links
def parse_names(string):
"""
Parse string of names. Output only family name as list.
"""
names = []
for i in string.split(","):
i = re.sub("\s{2}.+", "", i)
names.append(i)
return names
def get_authors_from_project(document_link):
"""
input: link to project page
output: list of author names as list
Using tor, found help here:
http://stackoverflow.com/questions/10967631/how-to-make-http-request-through-a-tor-socks-proxy-using-python
"""
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('Accept-Charset', 'utf-8')]
request = urllib2.Request(document_link)
request.add_header('Cache-Control','max-age=0')
response = opener.open(request)
proyecto = BeautifulSoup(response.read().decode("utf-8"))
del request
del response
for i in proyecto.find_all("input"):
if i.get("name") == "NomCongre":
return parse_names(i.get("value"))
## ————————————————
def main():
all_links = []
for file in listdir("."):
if file.startswith("PA"):
print file
f = open(file, "r")
html_doc = f.read()
f.close()
soup = BeautifulSoup(html_doc)
all_links += extract_doc_links(soup)
print "Numero de proyectos de ley: %i " % len(all_links)
# Save names to file
f = codecs.open("all_authors.csv", "w", "utf-8")
f.write("Congresista\n")
f.close()
f = codecs.open("all_authors.csv", "a", "utf-8")
for link in all_links:
authors = get_authors_from_project(link)
for author in authors:
f.write(author + "\n")
f.close()
if __name__ == "__main__":
main()

Y aquí el código para plotear los datos:


# -*- coding: utf-8 -*-
import codecs
import prettyplotlib as ppl
import numpy as np
from prettyplotlib import plt
import csv
x = []
y = []
with open("all_authors.csv_bak", "rb") as csvfile:
f = csv.reader(csvfile, delimiter=",")
for row in f:
x.append(row[1].decode("utf-8"))
y.append(row[0])
y = map(int, y)
plt.rc('font', **{'family': 'DejaVu Sans'})
fig, ax = plt.subplots(1, figsize=(20,6))
width = 0.35
ind = np.arange(len(y))
xdata = ind + 0.05 + width
ax.bar(ind, y)
ax.set_xticks(ind + 0.5)
ax.set_xticklabels(x, rotation="vertical")
ax.autoscale()
ax.set_title(u'Ranking de proyectos de ley por congresista',
fontdict = {'fontsize':24}
)
plt.ylabel(u'Número de proyectos de ley', fontdict={'fontsize':18})
plt.xlabel(u'Congresista', fontdict={'fontsize':22})
ppl.bar(ax, np.arange(len(y)), y, grid="y")
fig.tight_layout()
fig.savefig("ranking_congresista.png")

view raw

plot.py

hosted with ❤ by GitHub

Patrones de voto de tus congresistas

Estuve pensando en alguna manera de visualizar el patrón de voto de nuestros congresistas en base a las más recientes (y polémicas) votaciones, en contra de los gays y a favor de escoger miembros del Tribunal Constitucional en base a una vil #repartija.

Me bajé la lista de congresistas de la web del congreso http://www.congreso.gob.pe/organizacion/pleno.asp?mode=Pleno y realicé una edición de la lista para considerar Apellido Paterno Apellido Materno y Primer Nombre para cada uno. Los espacios fueron reemplazados con subguión.

Algo así:

Abugattás_Majluf_Daniel
Acha_Romaní_Walter
Acuña_Núñez_Richard
Acuña_Peralta_Virgilio
Aguinaga_Recuenco_Alejandro
Alcorta_Suero_María
Andrade_Carmona_Fernando
Angulo_Álvarez_Roberto
Anicama_Ñañez_Elsa
Apaza_Condori_Emiliano
Apaza_Ordóñez_Justiniano

Podemos convertir la votaciones de cada congresista a modo binario. El voto a favor de una buena propuesta se puede codificar con 1 (a favor de incluir orientación sexual en la lista de crímines de odio; en contra de elegir a Cayo Galindo, Víctor Mayorga, Rolando Sousa, Francisco Eguiguren, José Luis Sardón y Ernesto Blume como magistrados del Tribunal Constitucional). Se puede codificar con 0 los que votan a favor de malas propuestas. Los ausentes por licencia, ausentes y abtenciones se pueden codificar con signo de interrogación «?»).

Además modifiqué el archivo para que esté en formato NEXUS y pueda ser leído por el programa filogenético llamado PAUP.

Algo así:

#NEXUS

BEGIN DATA;
DIMENSIONS NTAX=130 NCHAR=2;
FORMAT DATATYPE=STANDARD MISSING=? GAP=-;
MATRIX

Abugattás_Majluf_Daniel           ??
Acha_Romaní_Walter                ?0
Acuña_Núñez_Richard               10
Acuña_Peralta_Virgilio            1?
Aguinaga_Recuenco_Alejandro       00
Alcorta_Suero_María               00
Andrade_Carmona_Fernando          00
Angulo_Álvarez_Roberto            00
Anicama_Ñañez_Elsa                ?0
Apaza_Condori_Emiliano            00
Apaza_Ordóñez_Justiniano          00

El archivo completo está aquí.

Ingresé a PAUP, leí el archivo y pedí que ejecute el algoritmo conocido como Neighbor-joining que consiste en agrupar en un dendrograma los congresistas que se parezcan más según los votos que hayan emitido (favor, contra) o hayan estado ausentes.

# Entrar a PAUP y leer el archivo de datos
paup> execute congresistas.txt

# Ejecutar el algoritmo Neighbor-joining
paup> nj;

# Guardar el dendograma en directorio actual
paup> savetree file=congresistas.tre format=altnexus;

Guardé el dendograma en un archivo aparte para dibujar el dendrograma usando el paquete estadístico R y la librería APE. El dendrograma se guarda en un archivo PDF:

library(ape);
x <- read.nexus("congresistas.tre");
pdf(file="congresistas_cluster.pdf", paper="a4", width=11);
plot(x, cex=0.22);
dev.off();

Bájate el archivo resultante congresistas_cluster.pdf si deseas.

También se puede convertir el PDF a imagen y colorear los grupos de congresistas. Por ejemplo podemos colorear de verde el grupo de congresistas «buenos» (los que han votado a favor de gays y se abstuvieron de votar por los miembros del TC).

Es interesante comparar mi lista de congresistas «buenos» con aquellos de la «Lista de honor» compilada por el usuario de Scribd comunicadociudadano como resultado de un crossover de los congresistas que votaron en contra de los gays y favor de la #repartija.

Mi lista de congresistas «buenos» es más liberal ya que, por ejemplo, da el beneficio de la duda a la congresista fujimorista Leyla Chihuán que no votó por magistrados del TC porque se encontraba de licencia.

He coloreado de amarillo los congresistas «masomenos» que votaron «bien» en al menos una de las votaciones. Por ejemplo el congresista Sergio Tejada votó a favor de los gays pero votó a favor de elegir a los miembros del TC. Muchos están decepcionados de Tejada, pero por ahora no está tan mal (estaremos vigilando).

El resto de congesistas son «malos» porque votaron «mal» en las dos ocasiones o se abstuvieron de votar debido a ausencias, licencias y/o abstenciones voluntarias.

dendrograma de congresistas

Dendrograma de congresistas. Hacer click para agrandar.

Sería intersante agregar los resultados de votaciones adicionales para tener más columnas, más datos y ver si salen patrones más interesantes. Por ejemplo podríamos identificar al «congresista más bueno» (aquel que vota «bien» en todas las ocasiones) así como al «congresista más malo» (aquél que siempre vota «mal»).

El «big data» que nos hablaba el amigo útero.pe

Podríamos tener esta lista y dendrograma actualizados antes de las elecciones del 2016, para que eligas mejor a tus congresistas, sí tú, amigo lector.

Cuáles de tus congresistas vota en contra de los gays

English: Parliament/Congreso in Lima, Peru.

Congreso in Lima, Peru. (Photo credit: Wikipedia)

El 4 de Julio el congreso votó en contra de considerar agresiones a miembros de la comunidad LGTB como delito por discriminación.

Según la votación en el pleno, 56 de tus congresistas se oponen proteger los derechos de  LGTB.

Aqui el acta. Identifica a tu congresista y no votes por el en las próximas elecciones!

Aqui la lista de los que se opusieron a la medida:

  1. Aguinaga, Alejandro
  2. Alcorta, Lourdes
  3. Andrade, Fernando
  4. Angulo, Roberto
  5. Apaza, Emiliano
  6. Apaza, Justiniano
  7. Bedoya, Javier
  8. Beingolea, Alberto
  9. Belaunde, Martin
  10. Cardenas, Johnny
  11. Castagnino, Juan
  12. Chavez, Martha
  13. Chehade, Omar
  14. Coa, Ruben
  15. Condori, Natalie
  16. Cordero, Maria
  17. Crisologo, Victor
  18. De la Torre, Hernan
  19. Delgado, Jaime
  20. Elias, Jose
  21. Espinoza, Marisol
  22. Fujimori, Kenji
  23. Galarreta, Luis
  24. Gamarra, Teofilo
  25. Grandez, Victor
  26. Gutierrez, Josue
  27. Huayana, Leonidas
  28. Hurtado, Jesus
  29. Iberico, Luis
  30. Kobashigawa, Ramon
  31. Lay, Humberto
  32. Lewis, Norman
  33. Llatas, Cristobal
  34. Lopez, Maria
  35. Medina, Antonio
  36. Molina, Agustin
  37. Nayap, Eduardo
  38. Neyra, Rofilio
  39. Neyra, Angel
  40. Pari, Juan
  41. Pariona, Federico
  42. Perez del Solar, Gabriela
  43. Reynaga, Jhon
  44. Rimarachin, Jorge
  45. Rivas, Martin
  46. Romero, Eulogio
  47. Rosas, Julio
  48. Saavedra, Esther
  49. Salgado, Luz
  50. Sarmiento, Freddy
  51. Teves, Julia
  52. Urquizo, Jose
  53. Valle, Willyam
  54. Yrupailla, Cesar
  55. Zamudio, Tomas
  56. Zerillo, Manuel