Análisis del comportamiento tuitero de tu congresista

Como ya saben, hace unos días terminó la discusión, e idas y venidas, acerca del grupo de trabajo de derechos humanos del Congreso, presidido por la congresista fujimorista Martha Chavez (@MarthaChavezK36).

La discusión degeneró tanto que llegó al tuiter. La congresista Martha Chavez anunciaba en tuiter sus planes de trabajo dentro de la comisión y respondía a uno que otro insulto tuitero. Era notable la cantidad de tuits emitidos por la congresista. Pero, fueron muchos tuits? pocos? en qué horas acostumbra tuitar la congresista?

Usando herramientas de Linux, Python y unas cuantas librerías «open source» podemos analizar el comportamiento tuitero de Martha Chavez.

Descargué del tuiter los 3200 tuits más recientes de la congresista. Para eso usé un cliente de tuiter usable desde la consola Linux.

t timeline -c -n 3200 MarthaChavezK36 > MarthaChavezK36.csv

Aquí ven parte de los tuits descargados (click para ampliar).

3200 tuits más recientes de Martha Chavez

Hice un gráfico del número de tuits por día, usando Python.

timeline de la congresista Martha Chavez

timeline de la congresista Martha Chavez

Este timeline comienza el 24 de julio. Vemos que tuvo bastante actividad el 28 de Julio, mediados de Septiembre (cuando se discutía sobre la unión civil de parejas del mismo sexo), primera y segunda semana de Octubre (en esa época se tuiteaba sobre la renuncia de Fujimori por fax), primera semana de Noviembre (cuando se armó el chongo de su elección como coordinadora del grupo de trabajo sobre derechos humanos).

Parece que su destitución del grupo de DDHH no hizo que Martha Chavez tuitee tanto como cuando se hablaba de la unión civil (muy revelador!).

Pero supongo que Martha Chavez tuitea en sus horas libres, cuando ya terminó sus horas de trabajo en el congreso, además de los fines de semana.

Podemos ver esto si usamos sus tuits para generar un «punchcard»:

python analizar_tuits.py MarthaChavezK36.csv | python punchcard.py -f punchcard_Martha_Chavez.png

horas de tuiteo de Martha Chavez

Esto es alucinante! La congresista tuitea todos los días de la semana. Tuitea a forro entre las 8 y 10 de la mañana (ni bien llega al Congreso?). Tuitea con mayor fuerza los días Viernes. El menor número de tuits a la 1:00pm hace suponer que a esa hora almuerza. Sábados y Domingos, no descansa, tuitea tanto como los días lunes. Y parece que se va a dormir a la 1:00 am. Al parecer duerme menos de 8 horas (eso no es saludable congresista!).

Este nivel de tuits emitidos por Martha Chavez es muy alto? muy bajo? Podemos hacer una comparación con un tuitero consumado, neto y nato. Comparemos con el Útero de Marita:

Este es el punchcard del utero.pe.

punchcard uterope

Vemos que, al parecer, el útero.pe tuitea menos que la congresista. Uterope tuitea muy poco los viernes, sábados y domingos (a excepción de las 9:00pm cuando tuitea con furia, debe ser que a esa hora pasan los noticieros dominicales). Qué hace el uterope los viernes y fines de semanas que no tuitea? Debe tener buena vida. También tuitea bastante los jueves.

Aqui les dejo el código necesario para hacer este tipo de análisis (?) con cualquier tuitero. Pero fíjense que el tuitero no ande borrando sus tuits ni use tuits programados ya que malograría el «análisis».

Sección geek

Código para producir el gráfico timeline y producir las fechas en formato unix, necesarias para dibujar el punchcard. El programa que hace el punchard lo saqué de aquí: https://github.com/aaronjorbin/punchcard.py


#! /usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import codecs
import re
import datetime
import time
from itertools import groupby
import numpy as np
import matplotlib.pyplot as plt
import brewer2mpl
f = codecs.open(sys.argv[1].strip(), "r", "utf-8")
datos = f.readlines()
f.close()
timestamps = []
counting = []
x = []
for line in datos:
line = line.strip()
if re.search("^[0-9]{6,},", line):
line = line.split(",")
fecha = line[1]
unix_time = time.mktime(datetime.datetime.strptime(fecha, "%Y-%m-%d %H:%M:%S +%f").timetuple())
# correct for local time Lima -5 hours
unix_time -= 60*60*5
print unix_time
fecha = fecha.split(" ")[0]
my_time = datetime.datetime.strptime(fecha, "%Y-%m-%d")
if my_time not in timestamps:
timestamps.append(my_time)
counting.append(fecha)
if fecha not in x:
x.append(fecha)
# de reversa
timestamp = timestamps[::-1]
y_axis = [len(list(group)) for key, group in groupby(counting)]
# queremos color
set2 = brewer2mpl.get_map('Set2', 'qualitative', 8).mpl_colors
color = set2[0]
fig, ax = plt.subplots(1)
plt.plot(timestamps, y_axis, color=color)
plt.xticks(rotation="45")
plt.ylabel(u"Número de tuits por día")
plt.title(u'Actividad tuitera de Martha Chavez: timeline')
plt.tight_layout()
plt.savefig("timeline" + sys.argv[1].strip() + ".png")
sys.exit()

Inseguridad ciudadana para histéricos

Ministros y ex-primer ministros de este gobierno coinciden en pensar que la inseguridad ciudadana es una percepción, ilusión de la gente, producto de estados mentales histéricos y que no hay que quejarse tanto.

Lo cierto es que según los datos del INEI. El número total de delitos a nivel nacional está aumentando:

Número total de delitos. Fuente INEI http://www.inei.gob.pe/media/MenuRecursivo/Cap08005.xls

Figura 1. Número total de delitos. Fuente INEI http://www.inei.gob.pe/media/MenuRecursivo/Cap08005.xls

Estadísticas frecuentistas

Una regresión lineal nos confirma la tendencia:

Regresión lineal de número total de delitos versus año.

Figura 2. Regresión lineal de número total de delitos versus año.

La regresión lineal (y el gráfico) nos dice que conforme pasan los años ha aumentado la delincuencia (R2 = 0.67) de manera significativa (p-value = 0.008).

Se observa que entre los años 2008 y 2011 ocurrió un punto de quiebre y la delicuencia aumentó, pero no podemos apuntar con precisión en qué año comenzó esta racha de mayor número de delitos. Además que los datos no se ajustan muy bien a la línea de tendencia. Pareciera que el aumento de delitos no es lineal, parece ser exponencial! Esta incertidumbre es parte de las limitaciones de las estadísticas que estoy usando, esta corriente llamada estadísticas frecuentistas.

Estadísticas bayesianas

Pero afortunadamente existen las estadísticas bayesianas que nos pueden dar algo más de información respecto a este tema.

Estas estadísticas nos pueden ayudar a estimar en qué año aumentó la delincuencia. Por ejemplo, el promedio de delitos anuales antes de este incremento puede ser considerado como la variable \lambda_1, el promedio de delitos después del punto de quiebre pueder ser la variable \lambda_2, y el año en que ocurrió el punto de quiebre puede ser la variable tau.

Podemos estimar el rango de valores más probables que puede tener cada variable si es que usamos simulaciones de números aleatorios.

[Paréntesis]
Los estadísticos bayesianos conocen la probabilidad más alta de estos valores como probabilidad posterior. Por ejemplo, cuando tú amig@ lector(a) recibes un email (digamos de Gmail), la empresa Google tiene un software que aplica estadísticas bayesianas al contenido del mensaje. Lo que hace es buscar palabras clave que indiquen que el email recibido es spam. La probabilidad inicial que un mensaje sea Spam puede ser 0.5 (osea 50%), pero si el contenido tiene las palabras «viagra», «penis», «enlargement». Existirá una mayor probabilidad que este correo es spam, (a esta probabilidad se le llama probabilidad posterior ya que se obtiene luego de examinar la evidencia), y el software de Google lo enviará directamente a la carpeta Junk. Por eso las estadísticas bayesianas son importantes, y además las usas a diario sin darte cuenta.
[/Paréntesis]

Volviendo a nuestro problema, necesitamos ver cuáles son las probabilidades posteriores de nuestros datos de número de delitos a nivel nacional. Felizmente, el lenguaje de programación Python tiene una librería muy chévere para hacer estadísticas bayesianas. Es el paquete pymc. Entonces solo es cuestion de simular muchas veces los valores de números totales de delito antes y después del incremento, y el año de incremento en la tasa delincuencial (osea \lambda_1, \lambda_2, y tau).

Realicé una simulación de 50 mil generaciones usando una cadena Markov Monte Carlo, descarté las primeras 10 mil generaciones y dibujé los resultados:

Vemos que hay una diferencia notable entre el total esperado de delitos antes (\lambda_1) y después (\lambda_2) del incremento (casi 160 mil delitos antes y 230 mil delitos luego del incremento de la delincuencia).

También vemos que es más probable que en el 6to año (osea año 2011) ocurrió la aceleración de la delincuencia en el Perú.

Podemos combinar estas tres variables en un solo gráfico:

Este gráfico muestra los valores esperados de delito antes, después y durante la aceleración en el nivel de delicuencia. Vemos que esto ocurrió del año 2010 al 2011.

Ahora, pregunto qué acontecimiento ocurrió entre 2010 y 2011 que fue el causante del aumento de la delicuencia en nuestro país? El que sepa «que levante la mano».

Sección geek

Aquí los datos que he usado:


152516
153055
144205
151560
160848
181866
206610
254405

view raw

datos.txt

hosted with ❤ by GitHub

Auí está el código para hacer la regresión lineal en R:


library(ggplot2)
y <- read.csv("datos.txt", header=FALSE)
y <- as.vector(y[,1])
x <- 2005:2012
int <- lsfit(x,y)$coefficients[1]
slope <- lsfit(x,y)$coefficients[2]
p <- ggplot(,aes(x,y))
p + geom_point() + geom_abline(intercept=int, slope=slope) +
labs(title = "Perú: Número total de delitos por año")
summary(lm(x ~ y))
# R2 = 0.67
# p-value = 0.008

view raw

lm.R

hosted with ❤ by GitHub

Aquí el código para hacer el análisis bayesiano (usa Python, pymc, y prettyplotlib):


# -*- coding: utf-8 -*-
import prettyplotlib as ppl
from prettyplotlib import plt
import sys
import pymc as pm
import numpy as np
datos = np.loadtxt("datos.txt")
alpha = 1.0/datos.mean()
print alpha
print "alpha %f" % alpha
print "datos.mean %f" % datos.mean()
n_datos = len(datos)
lambda_1 = pm.Exponential("lambda_1", alpha)
lambda_2 = pm.Exponential("lambda_2", alpha)
print lambda_1.random()
print lambda_2.random()
tau = pm.DiscreteUniform("tau", lower=0, upper=n_datos)
print tau.random()
@pm.deterministic
def lambda_(tau=tau, lambda_1=lambda_1, lambda_2=lambda_2):
out = np.zeros(n_datos)
out[:tau] = lambda_1
out[tau:] = lambda_2
return out
observation = pm.Poisson("obs", lambda_, value=datos, observed=True)
model = pm.Model([observation, lambda_1, lambda_2, tau])
mcmc = pm.MCMC(model)
mcmc.sample(50000, 10000, 1)
lambda_1_samples = mcmc.trace('lambda_1')[:]
lambda_2_samples = mcmc.trace('lambda_2')[:]
tau_samples = mcmc.trace('tau')[:]
fig, (ax1, ax2, ax3) = plt.subplots(nrows=3, ncols=1)
plt.rc('font', **{'family': 'DejaVu Sans'})
plt.subplot(311)
plt.title(u'''Distribución posterior de las variables
$\lambda_1,\;\lambda_2,\;tau$''')
plt.hist(lambda_1_samples, histtype="stepfilled", bins=30, alpha=0.85,
normed=True)
plt.xlim([150000,250000])
plt.xlabel("valor de $\lambda_1$")
plt.subplot(312)
#ax.set_autoscaley_on(False)
plt.hist(lambda_2_samples, histtype="stepfilled", bins=30, alpha=0.85,
normed=True)
plt.xlim([150000,250000])
plt.xlabel("valor de $\lambda_2$")
plt.tick_params(axis="both", which="mayor", labelsize=4)
plt.subplot(313)
w = 1.0/tau_samples.shape[0]*np.ones_like(tau_samples)
plt.hist(tau_samples, bins=n_datos, alpha=1, weights=w, rwidth=2.0)
plt.xticks(np.arange(n_datos))
plt.ylim([0, 1.5])
plt.xlim([0, 8])
plt.xlabel("valor de $tau$")
fig.set_size_inches(7,6)
fig.tight_layout()
fig.savefig("plot1.png")
fig, ax = plt.subplots(nrows=1, ncols=1)
N = tau_samples.shape[0]
expected_texts_per_day = np.zeros(n_datos)
for day in range(0, n_datos):
ix = day < tau_samples
expected_texts_per_day[day] = (lambda_1_samples[ix].sum()
+ lambda_2_samples[~ix].sum()) / N
anhos = ["2005","2006","2007","2008","2009","2010","2011","2012"]
plt.plot(range(n_datos), expected_texts_per_day, lw=4, color="#E24A33",
label="expected number of text-messages received")
plt.xlim(0, n_datos)
plt.xticks(np.arange(n_datos) + 0.4, anhos)
plt.xlabel(u'Años')
plt.ylabel(u'Número esperado de delitos')
plt.title(u'''Cambio en el número esperado de delitos por año''')
plt.ylim(0, 300000)
plt.bar(np.arange(len(datos)), datos, color="#348ABD", alpha=0.65)
#plt.legend(loc="upper left")
fig.savefig("plot2.png")

Las más toneras de Radio Inspiración

El último reportaje de la saga #intervenganAPDAYC se está transmitiendo desde el Congreso del República (30-Oct-2013). Además el útero de marita acaba de publicar una base de datos interactiva con toda la repartición de las regalías que cobró APDAYC durante el 2012. También hay una hoja de ruta para intervenir APDAYC.

Es ya conocido que Radio Inspiración maneja muchas radios vía la Fundación Autor que está ligada a APDAYC. Esta cadena de radios pasa muchas canciones y queríamos averiguar si hay algún patrón interesante en aquellas canciones que son más difundidas y repetidas en su programación. Por ejemplo, qué canciones tienen como autores a los directivos de APDAYC?, cuáles pertenecen al catálogo de las empresas que están íntimamente relacionadas con APDAYC? (E.T. Music?, IEPMSA?)

Para eso hice una acumulación y tabulación de los datos de las canciones más toneras de Radio Inspiración (aquí están los rankings). La resolución de las imágenes era mínima y no se pudo hacer OCR. Entonces tuve que tipear las canciones una por una. Felizmente no eran muchas.

Luego era cuestión de juntar toda la información en un sólo archivo y hacer el plot usando funciones estadísticas del lenguaje de programación Python.

Canciones de Radio Inspiración del top10 que son más frecuentes.

Canciones de Radio Inspiración del top10 que son más frecuentes.

Canciones de Radio Inspiración que son más frecuentes en el top20

Canciones de Radio Inspiración que son más frecuentes en el top20

Sería interesante averiguar quiénes son los autores de esas canciones top-10. En teoría se podría ver cuáles son las canciones que pertenecen a cada autor y compositor registrado en APDAYC. Pero creo que eso es pedir demasiada transparencia.

Sección geek

Aquí el código para dibujar el gráfico:

Previa limpieza de datos:

cat all_data.csv | awk -F ',' '{print $2}' | sort | uniq -c | sort -hr | sed 's/^\s\+//g' | grep -v '1 ' | sed -r 's/^([0-9]+)\s+/\1,/g' > tmp


# -*- coding: utf-8 -*-
import prettyplotlib as ppl
import numpy as np
from prettyplotlib import plt
import csv
from array import array
import collections
""" Top 10 ranking """
x = []
y = []
ranks = ["1","2","3","4","5","6","7","8","9","10","maxima"]
with open("all_data.csv", "rb") as csvfile:
f = csv.reader(csvfile, delimiter=",")
for row in f:
print row
if row[0] in ranks:
x.append(row[1])
counter = collections.Counter(x)
x = []
y = []
for i in sorted(counter, key=counter.get, reverse=True):
if counter[i] != 1:
x.append(i)
y.append(counter[i])
for i in range(len(x)):
print str(y[i]) + "," + str(x[i])
plt.rc('font', **{'family': 'DejaVu Sans'})
fig, ax = plt.subplots(1, figsize=(20,6))
width = 0.35
ind = np.arange(len(y))
xdata = ind + 0.05 + width
ax.bar(ind, y)
ax.set_xticks(ind + 0.5)
ax.set_xticklabels(x, rotation="vertical")
ax.autoscale()
ax.set_title(u'Ranking de canciones "Top 10"\n Radio Inspiraci贸n FM',
fontdict = {'fontsize':24}
)
plt.ylabel('Frecuencia en "Top 10"', fontdict={'fontsize':18})
plt.xlabel(u"Canci贸n", fontdict={'fontsize':22})
ppl.bar(ax, np.arange(len(y)), y, grid="y")
fig.tight_layout()
fig.savefig("top10.png")

view raw

top10.py

hosted with ❤ by GitHub


# -*- coding: utf-8 -*-
import prettyplotlib as ppl
import numpy as np
from prettyplotlib import plt
import csv
from array import array
""" Top 20 ranking """
x = []
y = []
with open("tmp", "rb") as csvfile:
f = csv.reader(csvfile, delimiter=",")
for row in f:
print row
x.append(row[1])
y.append(row[0])
# converts strings to int
y = map(int,y)
print x
print y
plt.rc('font', **{'family': 'DejaVu Sans'})
fig, ax = plt.subplots(1, figsize=(20,6))
width = 0.35
ind = np.arange(len(y))
xdata = ind + 0.05 + width
ax.bar(ind, y)
ax.set_xticks(ind + 0.5)
ax.set_xticklabels(x, rotation="vertical")
ax.autoscale()
ax.set_title(u'Ranking de canciones "Top 20"\n Radio Inspiraci贸n FM',
fontdict = {'fontsize':24}
)
plt.ylabel('Frecuencia en "Top 20"', fontdict={'fontsize':18})
plt.xlabel(u"Canci贸n", fontdict={'fontsize':22})
ppl.bar(ax, np.arange(len(y)), y, grid="y")
#fig.tight_layout()
fig.savefig("top20.png")

view raw

top20.py

hosted with ❤ by GitHub

Aquí los datos:



maxima lejos de ti
1 El baile del caballo
1 Opam kay kasja
2 donde esta el amor
3 ya no sere tu panuelito
4 ai se eu te pego
5 tu ausencia
6 hoy he vuelto a ver el amor
7 intentalo
8 linda wawita
9 si me vas a abandonar
10 tirate un paso
11 balada boa
12 el ritmo de mi corazon
13 pedacito de mi vida
14 la pregunta
15 canto herido
16 corre
17 me prefieres a mi
18 el amor que perdimos
19 el teke teke
20 no te recuerdo
revelacion festroni-k
21 el dinero
21 el cuchi cuchi
22 tento tu love
23 virgen
23 en aquel lugar
24 si te vas que hare
24 te burlabas de mi
25 bombon asesino
26 chora me liga
27 la escobita
27 gitana
28 mil heridas
29 la borrachita
29 como te olvido
30 te dejo en libertad
31 cuando se pierde un amor
32 se me ha perdido el corazon
33 te eche al olvido
34 te amare
35 que pena
36 curandero de amor
37 la borrachita
37 dutty love
38 corazon herido
39 te extrano tanto
40 mr saxobeat
41 acabame
41 estar sin ti
42 corazon embustero
43 obsesion
44 ya no te aguanto
44 tirana
45 no te voy a preguntar
46 he vuelto por ti
46 te va a doler
47 si me tenias
48 esta noche
49 buscandote
50 danza kuduro
maxima bara bere
1 mi estrella
2 el baile de la gallina
3 tu me cambiaste la vida
4 tu nombre
5 more
6 diganle
7 domitila
8 volvi a nacer
9 aprendere
10 el amor esta pero viene y se va
11 como le explico a mi corazon
12 vete lejos
13 el baile del tao/el meneito arrebatao
14 leyes del corazon
15 alejate de mi
maxima bara bere
1 mi estrella
2 more
3 el baile de la gallina
4 volvi a nacer
5 tu me cambiaste la vida
6 camuflaje
7 diganle
8 domitila
9 tu nombre
10 el amor esta pero viene y se va
11 aprendere
12 leyes del corazon
13 vete lejos
14 como le explico a mi corazon
15 el baile del tao/el meneito arrebatao
maxima el baile de la gallina
1 tu nombre
2 tu me cambiaste la vida
3 aprendere
4 el baile del tao/el meneito arrebatao
5 bara bere
6 diganle
7 vete lejos
8 el amor esta pero viene y se va
9 mi estrella
10 como le explico a mi corazon
11 leyes del corazon
12 more
13 domitila
14 alejate de mi
15 volvi a nacer
maxima tu nombre
1 el baile del tao/el meneito arrebatao
2 vete lejos
3 aprendere
3 diganle
4 el baile de la gallina
5 mi estrella
6 el amor esta pero viene y se va
7 leyes del corazon
8 tu me cambiaste la vida
9 como le explico a mi corazon
10 bara bere
11 alejate de mi
12 el dinero
13 domitila
14 more
15 volvi a nacer
maxima tu nombre
1 el baile del tao/el meneito arrebatao
2 vete lejos
3 aprendere
4 leyes del corazon
5 mi estrella
6 el amor esta pero viene y se va
7 como le explico a mi corazon
8 el dinero
9 el baile de la gallina
10 alejate de mi
11 diganle
12 tu me cambiaste la vida
13 bara bere
14 cuando el amor se acaba
15 domitila
maxima el baile del tao/el meneito arrebatao
1 aprendere
2 vete lejos
3 tu nombre
4 mi estrella
5 leyes del corazon
6 el dinero
7 el amor esta pero viene y se va
8 como le explico a mi corazon
9 alejate de mi
10 el baile de la gallina
11 cuando el amor se acaba
12 tu me cambiaste la vida
13 se fue mi amor
14 diganle
15 bara bere
maxima aprendere
1 vete lejos
2 el baile del tao/el meneito arrebatao
3 leyes del corazon
4 el dinero
5 como le explico a mi corazon
6 alejate de mi
7 tu nombre
8 mi estrella
9 cuando el amor se acaba
10 el amor esta pero viene y se va
11 mix celeste
12 se fue mi amor
13 fria
14 el baile de la gallina
15 limbo
maxima aprendere
1 vete lejos
2 el dinero
3 leyes del corazon
4 cuando se acaba el amor
5 mix celeste
6 alejate de mi
7 fria
7 como le explico a mi corazon
8 se fue mi amor
9 el baile del tao/el meneito arrebatao
10 aguita de coco
11 tu nombre
12 mi estrella
13 el amor esta pero viene y se va
14 limbo
15 todo me da vueltas
maxima aprendere
1 el dinero
2 mix celeste
3 cuando se acaba el amor
4 fria
5 alejate de mi
6 se fue mi amor
7 aguita de coco
8 vete lejos
9 el baile del tao/el meneito arrebatao
9 todo me da vueltas
10 leyes del corazon
11 tu nombre
12 como le explico a mi corazon
13 limbo
14 un loco amor
15 hasta que salga el sol
maxima mix celeste
1 el dinero
2 cuando el amor se acaba
3 aprendere
4 fria
5 aguita de coco
6 se fue mi amor
7 leyes del corazon
8 alejate de mi
9 el baile del tao/el meneito arrebatao
10 un loco amor
11 vete lejos
12 hasta que salga el sol
13 limbo
14 llora llora corazon
15 tu nombre
maxima el dinero
1 cuando el amor se acaba
2 aguita de coco
3 mix celeste
4 fria
5 se fue mi amor
6 todo me da vueltas
7 leyes del corazon
8 un loco amor
9 hasta que salga el sol
10 llora llora corazon
11 alejate de mi
12 aprendere
12 como te olvido
13 el baile del tao/el meneito arrebatao
14 limbo
15 vete lejos
maxima el dinero
1 aguita de coco
2 mix celeste
3 fria
4 se fue mi amor
5 todo me da vueltas
6 hasta que salga el sol
7 como te olvido
8 un loco amor
9 llora llora corazon
9 cuando el amor se acaba
10 leyes del corazon
11 alejate de mi
12 donde estaras
13 por eso te amo
14 puro cuento
15 aprendere
maxima aguita de coco
1 fria
2 se fue mi amor
3 hasta que salga el sol
4 todo me da vueltas
5 el dinero
6 mix celeste
6 como te olvido
7 un loco amor
8 llora llora corazon
9 por eso te amo
10 leyes del corazon
11 donde estaras
12 yo te lo dije
13 puro cuento
14 alejate de mi
15 el pegao
maxima fria
1 hasta que salga el sol
2 se fue mi amor
3 aguita de coco
4 todo me da vueltas
5 como te olvido
6 un loco amor
7 por eso te amo
8 llora llora corazon
9 el dinero
9 leyes del corazon
10 yo te lo dije
11 donde estaras
12 parranda amor amor
13 puro cuento
14 el pegao
15 mix celeste
maxima fria
1 hasta que salga el sol
2 se fue mi amor
3 por eso te amo
4 como te olvido
5 un loco amor
6 llora corazon llora
7 aguita de coco
8 yo te lo dije
9 todo me da vueltas
10 donde estaras
10 parranda amor amor
11 puro cuento
12 el pegao
13 ella se fue llorando
14 carita de pasaporte
15 el dinero
15 leyes del corazon
maxima hasta que salga el sol
1 se fue mi amor
2 por eso te amo
3 como te olvido
4 un loco amor
5 fria
5 llora corazon llora
6 parranda amor amor
7 yo te lo dije
8 donde estaras
9 puro cuento
9 el pegao
10 ella se fue llorando
11 carita de pasaporte
12 aguita de coco
13 amigo mio
14 zumba
15 todo me da vueltas
maxima hasta que salga el sol
1 por eso te amo
2 como te olvido
3 llora corazon llora
3 parranda amor amor
4 un loco amor
5 se fue mi amor
6 yo te lo dije
7 carita de pasaporte
8 donde estaras
8 ella se fue llorando
9 puro cuento
9 el pegao
10 fria
11 amigo mio
12 zumba
13 lastima
14 el amor mas grande del planeta
15 aguita de coco
maxima por eso te amo
1 como te olvido
1 parranda amor amor
2 llora corazon llora
2 un loco amor
3 yo te lo dije
4 carita de pasaporte
5 amigo mio
6 ella se fue llorando
6 el pegao
7 el amor mas grande del planeta
8 zumba
9 lastima
10 puro cuento
11 caprichos del corazon
12 mi corazon esta llorandote
13 princesa
14 tu poeta
15 hasta que salga el sol
15 donde estaras
maxima por eso te amo
1 como te olvido
2 parranda amor amor
2 llora corazon llora
3 un loco amor
4 yo te lo dije
5 carita de pasaporte
6 hasta que salga el sol
7 ella se fue llorando
7 puro cuento
8 el pegao
9 amigo mio
10 el amor mas grande del planeta
11 zumba
12 donde estaras
12 lastima
13 se fue mi amor
13 caprichos del corazon
14 mi corazon esta llorandote
15 fria
maxima como te olvido
1 parranda amor amor
2 yo te lo dije
3 carita de pasaporte
3 amigo mio
4 por eso te amo
5 llora corazon llora
5 ella se fue llorando
6 el amor mas grande del planeta
7 un loco amor
7 zumba
8 lastima
9 el pegao
9 caprichos del corazon
10 mi corazon esta llorandote
11 princesa
12 hay que saber perder
13 tu poeta
14 te extrano tanto
14 cuando me acuerdo de ti
15 puro cuento
maxima parranda amor amor
1 carita de pasaporte
1 amigo mio
2 yo te lo dije
3 como te olvido
4 ella se fue llorando
5 zumba
6 lastima
6 caprichos del corazon
7 mi corazon esta llorandote
8 por eso te amo
9 un loco amor
10 te extrano tanto
11 llora corazon llora
11 hay que saber perder
12 tu poeta
13 cuando me acuerdo de ti
14 algo que decir
15 el pegao
maxima parranda amor amor
1 carita de pasaporte
1 amigo mio
2 yo te lo dije
3 ella se fue llorando
3 el amor mas grande del planeta
4 lastima
4 mi corazon esta llorandote
5 zumba
6 caprichos del corazon
7 princesa
8 te extrano tanto
9 hay que saber perder
10 como te olvido
11 tu poeta
12 cuando me acuerdo de ti
13 por eso te amo
13 algo que decir
14 te olvidare
15 llora corazon llora
maxima amigo mio
1 yo te lo dije
1 ella se fue llorando
2 parranda amor amor
2 el amor mas grande del planeta
3 mi corazon esta llorandote
4 zumba
4 princesa
5 carita de pasaporte
5 caprichos del corazon
6 te extrano tanto
7 lastima
7 tu poeta
8 hay que saber perder
8 te olvidare
9 cuando me acuerdo de ti
10 algo que decir
11 vivir mi vida
12 tan solo un minuto
13 si tu me faltas
14 como te olvido
15 un loco amor
16 llora corazon llora
17 hasta que salga el sol
18 me enamore
19 angel en zapatillas
19 hasta el fin del mundo
20 asi no
maxima ella se fue llorando
1 el amor mas grande del planeta
2 mi corazon esta llorandote
3 yo te lo dije
3 princesa
4 zumba
4 caprichos del corazon
5 amigo mio
5 te extrano tanto
6 lastima
6 tu poeta
7 hay que saber perder
7 cuando me acuerdo de ti
8 parranda amor amor
8 te olvidare
9 tan solo un minuto
10 algo que decir
11 vivir mi vida
12 carita de pasaporte
12 si tu me faltas
13 hasta el fin del mundo
14 me enamore
15 angel en zapatillas
16 asi no
17 festroni-k
18 como te olvido
18 llora corazon llora
19 un loco amor
20 hasta que salga el sol
maxima el amor mas grande del planeta
1 mi corazon esta llorandote
1 princesa
2 ella se fue llorando
3 caprichos del corazon
4 zumba
4 lastima
5 tu poeta
5 hay que saber perder
6 cuando me acuerdo de ti
6 te olvidare
7 tan solo un minuto
8 amigo mio
8 te extrano tanto
9 algo que decir
10 vivir mi vida
11 si tu me faltas
11 festroni-k
12 hasta el fin del mundo
13 parranda amor amor
13 me enamore
14 asi no
15 angel en zapatillas
16 yo te lo dije
17 carita de pasaporte
18 el tiempo
19 para siempre
20 como te olvido
maxima mi corazon esta llorandote
1 princesa
2 el amor mas grande del planeta
2 caprichos del corazon
3 lastima
3 tu poeta
4 te olvidare
5 hay que saber perder
6 cuando me acuerdo de ti
6 vivir mi vida
7 tan solo un minuto
8 ella se fue llorando
8 zumba
9 algo que decir
9 hasta el fin del mundo
10 festroni-k
11 si tu me faltas
11 me enamore
12 asi no
13 amigo mio
14 angel en zapatillas
15 te extrano tanto
16 el tiempo
17 para siempre
18 parranda amor amor
18 carita de pasaporte
19 perdon
19 lo que un dia fue no sera
20 yo te lo dije
maxima mi corazon esta llorandote
1 princesa
1 caprichos del corazon
2 lastima
2 tu poeta
3 te olvidare
4 hay que saber perder
5 cuando me acuerdo de ti
5 vivir mi vida
6 tan solo un minuto
7 el amor mas grande del planeta
7 hasta el fin del mundo
8 algo que decir
8 festroni-k
9 ella se fue llorando
10 si tu me faltas
10 asi no
11 me enamore
12 para siempre
13 angel en zapatillas
14 el tiempo
15 zumba
16 amigo mio
16 te extrano tanto
17 lo que un dia fue no sera
18 carita de pasaporte
18 perdon
19 vete
20 parranda amor amor
maxima princesa
1 caprichos del corazon
1 tu poeta
2 mi corazon esta llorandote
2 te olvidare
3 vivir mi vida
4 hay que saber perder
4 cuando me acuerdo de ti
5 hasta el fin del mundo
6 lastima
7 festroni-k
8 algo que decir
9 asi no
10 me enamore
10 para siempre
11 el amor mas grande del planeta
12 lo que un dia fue no sera
13 angel en zapatillas
13 el tiempo
14 ella se fue llorando
15 si tu me faltas
15 vete
16 zumba
17 te extrano tanto
17 perdon
18 amigo mio
19 carita de pasaporte
20 soy soltera y hago lo
maxima caprichos del corazon
1 tu poeta
1 te olvidare
2 vivir mi vida
3 princesa
3 hasta el fin del mundo
4 hay que saber perder
4 cuando me acuerdo de ti
5 lastima
6 festroni-k
6 asi no
7 para siempre
8 me enamore
8 lo que un dia fue no sera
9 tan solo un minuto
10 el tiempo
11 mi corazon esta llorandote
11 el amor mas grande del planeta
12 soy soltera y hago lo
13 algo que decir
14 ella se fue llorando
14 vete
15 perdon
16 angel en zapatillas
17 te extrano tanto
18 tributo a la cumbia
19 carita de pasaporte
19 amigo mio
20 zumba

view raw

all_data.csv

hosted with ❤ by GitHub

Guía práctica para hackear las páginas del Congreso

Según Wikipedia, un hacker es:

«A person who enjoys exploring the details of programmable systems and stretching their capabilities, as opposed to most users, who prefer to learn only the minimum necessary.»

Algunos creen equivocadamente que hacker = malechor, delincuente. Pero lo cierto es que hay varios tipos de hackers.

  • Aquel que infringe medidas de seguridad con fines maléficos, también se le conoce como «cracker».
  • Un miembro de la comunidad Unix de programas de computación libre y «open source», o alguien que usa este principio para desarrollo de software o hardware.

Además individuos considerados como hackers de la subcultura de programadores pueden hacer tareas repititivas de 100 a 1,000 veces más rapido que usuarios que no son hackers (gracias a que usan de técnicas de computación avanzadas).

El congreso peruano ha aprobado una ley de delitos informáticos recontra ridícula que ha sido criticada por muchos, por ejemplo en el blog http://iriartelaw.com y http://www.hiperderecho.org, además de ser considerada una ley Frankenstein. Esto evidencia que el congreso legisla sobre temas que desconoce.

Para demostrar qué tan mal redactada está la ley ex-beingolea. He decidido hackear las páginas web del Congreso de la República. Y aquí detallo el procedimiento.

Quiero hacer uso de programas informáticos para averiguar cúantos proyectos de ley ha propuesto cada congresista durante este año 2013.

Hay que buscar la página web del congreso que tiene la lista de los proyectos de ley emitidos este año:

Buscar la página con los proyectos de ley.

Buscar la página con los proyectos de ley.

Listado de proyectos de ley por fecha.

Listado de proyectos de ley por fecha.

Si vemos el código original HTML de esa página (hacer CTRL-U, si están en Mozilla Firefox) veremos que está compuesta de 4 «frames». Cada «frame» corresponde a una parte de la página. Me interesa el último «frame», el que contiene la lista de links a los proyectos de ley.

Código HTML de la página del congreso

Código HTML de la página del congreso

Si hacemos click al último «frame» nos encontramos con esta página:

"Frame" conteniendo la lista de proyectos de ley.

«Frame» conteniendo la lista de proyectos de ley.

Esta página lista 100 proyectos de ley, y al ver la dirección URL de esta página, nos damos cuenta que basta con cambiar el último parámetro Start=1 por Start=100 para obtener los siguientes 100 proyectos de ley.

Osea cambiar:

http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2011.nsf/PAporNumeroInverso?OpenView&Start=1

por:

http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2011.nsf/PAporNumeroInverso?OpenView&Start=100

Puedo escribir un hack (osea script) que me colecte rápidamente todas las páginas que contienen los links. En lugar de bajarme documento por documento (lo cual me tomaría muuuuucho tiempo), lo puedo hacer al toque si hago uso de las tecnologías de información y comunicación que tanto miedo causa a los congresistas:

Hay 812 proyectos de ley para examinar. Necesitamos descargar cada proyecto de ley y copiar la lista de autores para contar cuántos proyectos ha sido emitido por cada congresista. Obviamente hacer esto manualmente me demoraría una eternidad. Para eso he creado un segundo hack. Es un script in Python que examina cada link, y extrae los nombres de los congresistas que son autores de cada proyecto de ley. Junta todos los nombres y hace un gráfico para poder visualizar los datos (el código de programación está al final de este post).

Bueno, el script estaba demorando mucho, me cansé de esperar y cancelé el programa por lo que no pude colectar toda la info. Pero la idea se entiende no?

Número de proyectos de ley presentado por cada congresista durante el 2013

Número de proyectos de ley presentado por cada congresista durante el 2013

Aquí se pueden descargar la dichosa ley http://www.hiperderecho.org/wp-content/uploads/2013/09/nuevaleybeingolea.pdf.

Hagamos recuento de las veces que he faltado a la ley:

Artículo 3. Atentado a la integridad de datos informáticos

El que, a través de las tecnologias de la información o de la comunicación, introduce,
borra, deteriora, altera, suprime o hace inaccesibles datos informáticos
, será reprimido
con pena privativa de libertad

-> Al escribir este post he introducido datos informáticos al servidor de WordPress usando tecnologías de la comunicación.

Articulo 6. Tráfico ilegal de datos

El que, crea, ingresa, o utiliza indebidamente una base de datos sobre una persona natural o jurídica, identificada o identificable, para comercializar; traficar, vender, promover, favorecer o facilitar información relativa a cualquier ámbito de la esfera personal, familiar, patrimonial, laboral, financiera u otro de naturaleza análoga, creando o no perjuicio, será reprimido con pena privativa de libertad no menor de tres ni mayor de cincó años.

-> Al bajarme la lista de proyectos de Ley del Congreso he ingresado a su base de datos para facilitar la información relativa al ámbito laboral de cada congresista sin crear perjuicio (ojo que no es necesario causar perjuicio para ir en contra de la ley).

Artículo 1O. Abuso de mecanismos y dispositivos informáticos

El que fabrica, diseña, desarrolla, vende, facilita, distribuye, importa u obtiene para su utilización, uno o más mecanismos, programas informáticos, dispositivos, contraseñas, códigos de acceso o cualquier otro dato informático, específicamente diseñados para la comisión de los delitos previstos en la presente Ley, o el que ofrece o presta servicio que contribuya a ese propósito, será reprimido con pena privativa de libertad no menor de uno
ni mayor de cuatro años y con treinta a noventa días-multa.

-> En este post publico el programa informático que he fabricado, diseñado y desarrollado con el fin de específicamente incumplir los artículos 3 y 6 de la presente Ley.

Conclusión

He violado la ley de delitos informáticos (ley ex-beingolea) 3 veces

Señores congresistas métanme preso. Quiero cárcel dorada como Antauro y Fujimori. Gracias.

Sección para geeks

Aqui está el código para bajarse los nombres de los congresistas que fueron autores de proyectos de ley durante el 2013:


#!/usr/bin/env python
# -*- coding: utf-8 -*-
import socks
import cookielib
import socket
from bs4 import BeautifulSoup
import requests
import sys
import re
from os import listdir
import codecs
import urllib2
socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5, "127.0.0.1", 9050)
socket.socket = socks.socksocket
def extract_doc_links(soup):
our_links = []
for link in soup.find_all("a"):
if re.search("201[0-9]-CR$", link.get_text()):
href = link.get("href")
if href.endswith("ocument"):
our_link = "http://www2.congreso.gob.pe&quot; + "/" + href
our_link = re.sub("//Sicr","/Sirc", our_link)
our_links.append(our_link)
return our_links
def parse_names(string):
"""
Parse string of names. Output only family name as list.
"""
names = []
for i in string.split(","):
i = re.sub("\s{2}.+", "", i)
names.append(i)
return names
def get_authors_from_project(document_link):
"""
input: link to project page
output: list of author names as list
Using tor, found help here:
http://stackoverflow.com/questions/10967631/how-to-make-http-request-through-a-tor-socks-proxy-using-python
"""
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('Accept-Charset', 'utf-8')]
request = urllib2.Request(document_link)
request.add_header('Cache-Control','max-age=0')
response = opener.open(request)
proyecto = BeautifulSoup(response.read().decode("utf-8"))
del request
del response
for i in proyecto.find_all("input"):
if i.get("name") == "NomCongre":
return parse_names(i.get("value"))
## ————————————————
def main():
all_links = []
for file in listdir("."):
if file.startswith("PA"):
print file
f = open(file, "r")
html_doc = f.read()
f.close()
soup = BeautifulSoup(html_doc)
all_links += extract_doc_links(soup)
print "Numero de proyectos de ley: %i " % len(all_links)
# Save names to file
f = codecs.open("all_authors.csv", "w", "utf-8")
f.write("Congresista\n")
f.close()
f = codecs.open("all_authors.csv", "a", "utf-8")
for link in all_links:
authors = get_authors_from_project(link)
for author in authors:
f.write(author + "\n")
f.close()
if __name__ == "__main__":
main()

Y aquí el código para plotear los datos:


# -*- coding: utf-8 -*-
import codecs
import prettyplotlib as ppl
import numpy as np
from prettyplotlib import plt
import csv
x = []
y = []
with open("all_authors.csv_bak", "rb") as csvfile:
f = csv.reader(csvfile, delimiter=",")
for row in f:
x.append(row[1].decode("utf-8"))
y.append(row[0])
y = map(int, y)
plt.rc('font', **{'family': 'DejaVu Sans'})
fig, ax = plt.subplots(1, figsize=(20,6))
width = 0.35
ind = np.arange(len(y))
xdata = ind + 0.05 + width
ax.bar(ind, y)
ax.set_xticks(ind + 0.5)
ax.set_xticklabels(x, rotation="vertical")
ax.autoscale()
ax.set_title(u'Ranking de proyectos de ley por congresista',
fontdict = {'fontsize':24}
)
plt.ylabel(u'Número de proyectos de ley', fontdict={'fontsize':18})
plt.xlabel(u'Congresista', fontdict={'fontsize':22})
ppl.bar(ax, np.arange(len(y)), y, grid="y")
fig.tight_layout()
fig.savefig("ranking_congresista.png")

view raw

plot.py

hosted with ❤ by GitHub

Los que cobraron más: APDAYC 2012

El útero de marita está emitiendo informes diarios acerca de los manejos del dinero que realiza APDAYC en nombre de los compositores y escritores de música del Perú.

Marco Sifuentes escribió en Facebook que requiere ayuda para poder asimilar mejor todos los destapes que está posteando en su blog utero.pe (junto con Jonathan Castro).

Con ánimos de ayudar a la causa (#intervenganAPDAYC) me puse a ver la cantidad de dinero que cobraron algunos directivos del APDAYC durante el 2012, por concepto de derechos de autor. En el post uterino «se la llevan facil» aparecen algunos números, pero no se aprecia si esta ganancia es mucho (o poco) en comparación con lo ganado por los asociados de APDAYC que no son miembros del Consejo Directivo.

Intenté hacer un gráfico de lo ganado por los compositores más prolíficos en comparación con el dinero que cobraron los directivos de APDAYC.

Obtuve la lista de directivos de aqui. Y las ganancias de los 250 asociados que tuvieron más regalías durante el 2012 de aqui.

Tuve que bajarme el PDF, convertirlo a texto, y dibujar el gráfico. Como soy bien nerd, para convertir el texto usé comandos de Linux y para dibujar el gráfico usé el lenguaje de programación Python (con su librería gráfica matplotlib).

Aqui está el gráfico, y más abajo el código que tuve que tipear para hacer este «análisis» tan diligente 😉 (hacer click para agrandar la imagen).

Los que más cobraron, APDAYC 2012

Los que más cobraron, APDAYC 2012

Manya, son haaaaaartos los compositores que cobran regalías. Pero son unos pocos quien se llevan harta plata, y son muchos los que cobran poquito (se lleva 3 mil soles al año el que está en puesto 250).

Debemos alegrarnos por los miembros del Consejo Directivo de APDAYC que son afortunados en estar entre los que más regalías se llevaron durante el 2012 (por ejemplo José Escajadillo, Armando Massé y Julio Andrade, entre otros).

[Actualización 6 de Octubre 2013]

Un tuitero/bloguero influyente me sugirió averiguar si hay un patrón de las ganancias recibidas por los socios que tienen mayor poder de decisión en APDAYC. Osea ver si los que cortan en jamón en APDAYC ganan más o ganan menos en comparación con los socios que tienen menor voto en los manejos de la Sociedad Colectiva APDAYC.

El útero de marita nos cuenta que no todos los socios de APDAYC tienen el mismo derecho a voto. Por ejemplo cada voto de los socios principales vale por 5, cada voto de los socios vitalicios vale como 4 votos, cada voto de socios activos vale por 3.

Se supone que en una democracia cada persona es igual a un voto, pero en APDAYC eso no es así. Entonces los que tienen mayor poder de decisión del rumbo de APDAYC, los que parten y reparten son principalmente ese grupo de socios principales, vitalicios y activos.

Cuanto reciben de regalías los que cortan el jamón en APDAYC?

Estuve mirando otra vez los datos y me di cuenta que estos socios privilegiados son casi la mitad (138 socios, o el 55%) pero se llevan la mayoría de plata recaudada en APDAYC. El 84% del dinero cobrado por regalías durante el 2012 (7 millones de soles) se lo llevaron este grupo de socios con voto privilegiado. Mientras que la otra mitad de socios le corresponde poco más de 1 millon (16% del total).

Resulta interesante que los que cortan el jamón en APDAYC se lleven el 84% del dinero (a pesar de ser la mitad de socios con derecho a voto).

Bueno dicen que el que parte y reparte se lleva la mayor parte?

Aqui les dejo el gráfico para digerir mejor los datos (al final de este post está todo el código usado para los análisis).

Ganancias de socios principales, vitalicios y activos

La mitad de socios tiene voto privilegiado, cada voto vale de 3 a 5 veces que los votos de la otra mitad. Es curioso que además se lleven la mayor tajada de las regalías recaudadas por APDAYC.

[Actualización 7 Oct 2013]

Pero qué porcentaje de TODAS las regalías recibe este grupo de socios?

En la Memoria de APDAYC del 2012, señalan en la página 12 (o página 22 en
realidad), que se repartieron 29 millones de soles entre todos sus asociados.

Según el útero de marita «APDAYC tiene más de 8 mil afiliados, pero sólo 248 tienen derecho a voto en la Asamblea General».

Supongamos que APDAYC tiene 8 mil socios, entonces entre ellos repartieron 29 millones de soles durante el 2012.

Quiero saber:

  • Qué porcentaje de estos 8mil son los socios con votos privilegiados (principales, vitalicios y activos).
  • Qué porcentaje del dinero total se llevan estos socios con voto privilegiado?

Estos son los datos:

  • Dinero total: 29,197,272 Soles
  • Número total de socios: 8000
  • Total socios con voto privilegiado: 138
  • Dinero recibido por socios principales: 1240,041.19
  • Dinero recibido por socios vitalicios: 59,347.69
  • Dinero recibido por socios activos: 5731,717.18
  • Porcentaje de socios con voto privilegiado: 1.7%
  • Porcentaje del dinero que se recibe este grupo: 24.08%

Y este es el gráfico resultante:

Porcentaje de ganancias de socios con voto privilegiado

Porcentaje de ganancias de socios con voto privilegiado, APDAYC 2012

Pues es de esperarse que el 1.7% de socios se lleve la cuarta parte de las regalías. Si vemos otra vez el gráfico de los socios más rendidores, los que más plata reciben, veremos que son los socios principales y activos (con voto multiplicado por 5 y por 3) quienes reciben más regalías.

Los socios principales y activos son los que más regalías cobraron durante el 2012.

Los socios principales y activos son los que más regalías cobraron durante el 2012.

Sección para geeks

Aqui el código en la consola de Linux:

# Bajarse la memoria en PDF y extraer las páginas 34, 35 y 36
pdftk Memoria_APDAYC_2012.pdf cat 34-36 output mas_productivos_2012.pdf

# convertir PDF a texto
pdftotext -layout mas_productivos_2012.pdf

# hacer limpieza manual para eliminar texto que no se necesita (joyas y premios)
# extraer nombres y ganancias
cat mas_productivos_2012.txt | sed 's/S\/\.//g' | sed 's/\$//g' | sed 's/\s\+/ /g' | sed -r 's/([A-Z]),/\1/g' | sed 's/,//g' | sed -r 's/(([A-Z]+\s)+)/\1,/g' | sed 's/ ,/,/g' | sed -r 's/^[0-9]+\s[0-9]+\s//g' | sed -r 's/\s*$//g' > tmp_mas_productivos.txt

# dibujar el gráfico usando Python y matplotlib
python mas_productivos.py

Y aqui el código actualizado en el lenguage Python:

# -*- coding: utf-8 -*-
import codecs
import locale
import prettyplotlib as ppl
import numpy as np
from prettyplotlib import plt

locale.setlocale(locale.LC_ALL, 'en_US.UTF-8')

f = codecs.open("output/tmp_socios_principales.txt", encoding="utf-8")
data = f.read()
f.close()

# Esta es la lista de "Socios principales"
data = data.split("\n")
principales = []
vitalicios = []
activos = []
for line in data:
    line = line.strip()
    if len(line) > 0:
        line = line.split(",")
        if line[1] == "PRINCIPAL":
            principales.append(line[0])
        if line[1] == "VITALICIO":
            vitalicios.append(line[0])
        if line[1] == "ACTIVO":
            activos.append(line[0])

# cantidad de regalias por "socios principales"
f = codecs.open("output/tmp_mas_productivos.txt", encoding="utf-8")
data = f.read()
f.close()

data = data.split("\n")
princi_money = float()
vitali_money = float()
activo_money = float()
otros_money = float()

for i in data:
    if len(i) > 0:
        i = i.split(",")
        author = i[0]
        money = i[1].split(" ")
        money = money[len(money)-1]
        if author in principales:
            princi_money += float(money)
        elif author in vitalicios:
            vitali_money += float(money)
        elif author in activos:
            activo_money += float(money)
        else:
            otros_money += float(money)

## DO principales + vitalicios
## numero de socios por categoria
numero_socios = [str(len(principales) + len(vitalicios)),
                 str(250-len(principales)-len(vitalicios))]

print "Socios privilegiados con el voto " + str(len(principales) +
        len(vitalicios) + len(activos))

y = [princi_money + vitali_money, activo_money + otros_money]
annotate = [locale.format("%d", y[0], grouping=True) + " S/.",
            locale.format("%d", y[1], grouping=True) + " S/."]

width = 0.35
bar_color = ["r", "#66c2a5"]
plt.rc('font', **{'family': 'DejaVu Sans'})
fig, ax = plt.subplots(1, figsize=(8,6))
ind = np.arange(2)
xdata = ind + 0.05 + width
ax.bar(ind, y)
ax.set_xticks(ind + 0.4)
ax.set_xticklabels(["principales y vitalicios\n(" + numero_socios[0] + " socios)",
                    "otros socios\n(" + numero_socios[1] + " socios)",
                    ],
                    rotation="horizontal", multialignment="center")
ax.autoscale()
ax.set_title(u'Ganancias de socios principales y vitalicios\n comparados con el resto de socios',
        fontdict = {'fontsize':22}
        )

y_labels = ["0", "1,000,000", "2,000,000", "3,000,000", "4,000,000",
                "5,000,000", "6,000,000", "7,000,000", "8,000,000"]
ax.set_yticklabels(y_labels)

plt.ylabel(u'Regalías en S/.', fontdict={'fontsize':18})
plt.xlabel(u'Beneficiarios', fontdict={'fontsize':22})

ppl.bar(ax, np.arange(len(y)), y, grid="y", annotate=annotate, color=bar_color)
fig.tight_layout()
fig.savefig("output/socios_principales.png")
output = "Plot de socios Principales + Vitalicios guardados en archivo "
output += "``output/socios_principales.png``\n"
print output

## DO principales + vitalicios + activos
## numero de socios por categoria
numero_socios = [str(len(principales) + len(vitalicios) + len(activos)),
                 str(250-len(principales) - len(vitalicios) - len(activos))]

# Porcentaje de socios principales+vitalicios+activos versus otros
percent_pva = float((len(principales)+len(vitalicios)+len(activos))*100/250)
percent_socios_otros = 100.0 - percent_pva

# Porcentaje de DINERO de socios principales+vitalicios+activos versus otros
y = [princi_money + vitali_money + activo_money, otros_money]
percent_money_pva = int(float(princi_money + vitali_money + activo_money)*100/(y[0] + y[1]))
percent_money_otros = 100 - percent_money_pva

annotate = [locale.format("%d", y[0], grouping=True) +
                " S/.",
            locale.format("%d", y[1], grouping=True) +
                " S/."]

width = 0.35
bar_color = ["r", "#0099FF"]
plt.rc('font', **{'family': 'DejaVu Sans'})
fig, ax = plt.subplots(1, figsize=(9,6))
ind = np.arange(2)
xdata = ind + 0.05 + width

# write percentaje of money to plot
ax.annotate(str(percent_money_pva) +"%\ndel dinero", ha="center", color="w",
        size=38, xy=(0.2,1.2), xytext=(0.4, 2500000))
ax.annotate(str(percent_money_otros) +"%\ndel dinero", ha="center", color="w",
        size=18, xy=(0.2,1.2), xytext=(1.4, 150000))

ax.bar(ind, y)
ax.set_xticks(ind + 0.4)
ax.set_xticklabels(["principales, vitalicios y activos\n(" +
                            str(int(percent_pva)) + "% del total)",
                    "otros socios\n(" +
                            str(int(percent_socios_otros)) + "% del total)"
                    ],
                    rotation="horizontal", multialignment="center")
ax.autoscale()
ax.set_title(u'Ganancias de socios principales, vitalicios y activos'
        + '\ncomparados con el resto de socios',
        fontdict = {'fontsize':22}
        )

y_labels = ["0", "1,000,000", "2,000,000", "3,000,000", "4,000,000",
                "5,000,000", "6,000,000", "7,000,000", "8,000,000"]
ax.set_yticklabels(y_labels)

plt.ylabel(u'Regalías en S/.', fontdict={'fontsize':18})
plt.xlabel(u'Beneficiarios', fontdict={'fontsize':22})

ppl.bar(ax, np.arange(len(y)), y, annotate=annotate, color=bar_color)
fig.tight_layout()
fig.savefig("output/socios_principales_vitalicios_activos.png")
output = "Plot de socios Principales + Vitalicios + Activos guardados en archivo "
output += "``output/socios_principales_vitalicios_activos.png``\n"
print output

Código de cuáles miembros del consejo directivo se llevan más regalías


# -*- coding: utf-8 -*-
import codecs
import prettyplotlib as ppl
import numpy as np
from prettyplotlib import plt
import re
f = codecs.open("tmp_mas_productivos.txt", encoding="utf-8")
data = f.read()
f.close()
# This is the list of APDAYC directors "Comite Directivo"
apdayc = [
"Escajadillo Farro",
"Masse Fernandez",
"Moreira Mercado",
"Andrade Rios",
"Cabrejos Bermejo",
"Fuentes Barriga",
"Montaño Jaramillo",
"Rodriguez Grandez",
"Laura Saavedra",
"Bustamante Gomez"
]
x = []
y = []
bar_color = []
data = data.split("\n")
for i in data:
if len(i) > 0:
i = i.split(",")
author = i[0].split(" ")
author = author[0].capitalize() + " " + author[1].capitalize()
if author in apdayc:
bar_color.append("r")
else:
bar_color.append("#66c2a5")
money = i[1].split(" ")
total_money = money[len(money)-1]
x.append(author)
y.append(total_money)
y = map(float, y)
plt.rc('font', **{'family': 'DejaVu Sans'})
fig, ax = plt.subplots(1, figsize=(40,6))
width = 0.35
ind = np.arange(len(y))
xdata = ind + 0.05 + width
ax.bar(ind, y)
ax.set_xticks(ind + 0.5)
ax.set_xticklabels(x, rotation="vertical")
ax.autoscale()
ax.set_title(u'Los Asociados de APDAYC que cobraron más dinero en el 2012\nen color rojo figuran los miembros del Consejo Directivo',
fontdict = {'fontsize':24}
)
y_labels = ["0", "200,000", "400,000", "600,000", "800,000", "1,000,000"]
ax.set_yticklabels(y_labels)
plt.ylabel(u'Regalías en S/.', fontdict={'fontsize':18})
plt.xlabel(u'Beneficiario', fontdict={'fontsize':22})
print len(y)
print len(x)
ppl.bar(ax, np.arange(len(y)), y, grid="y", color=bar_color)
fig.tight_layout()
fig.savefig("output/mas_productivos.png")
###
# Que tal si ploteamos los socios principales, vitalicios y activos
f = codecs.open("data/socios_principales.tsv", encoding="utf-8")
data = f.read()
f.close()
bar_color = []
new_x = []
new_y = []
data = data.split("\n")
# keep all data in a dictionary
df = {}
for line in data:
if len(line) > 0:
line = re.sub("^\s+", "", line)
line = re.sub("\s{2,}", "|", line)
line = line.split("|")
tmp = line[3].split(",")
tmp2 = tmp[0].split(" ")
try:
author = tmp2[0].capitalize() + " " + tmp2[1].capitalize()
except:
continue
if line[4] == "PRINCIPAL":
index = x.index(author)
money = y[index]
df[money] = [author, "b"]
x.remove(author)
y.remove(y[index])
elif line[4] == "VITALICIO":
try:
index = x.index(author)
money = y[index]
df[money] = [author, "g"]
x.remove(author)
y.remove(y[index])
except:
continue
elif line[4] == "ACTIVO":
try:
index = x.index(author)
money = y[index]
df[money] = [author, "r"]
x.remove(author)
y.remove(y[index])
except:
continue
else:
try:
index = x.index(author)
money = y[index]
df[money] = [author, "#D8D8D8"]
x.remove(author)
y.remove(y[index])
except:
continue
for author in x:
index = x.index(author)
money = y[index]
df[money] = [author, "#D8D8D8"]
d = sorted(df, reverse=True)
for i in d:
new_y.append(i)
new_x.append(df[i][0])
bar_color.append(df[i][1])
fig, ax = plt.subplots(1, figsize=(40,6))
ax.bar(ind, new_y)
ax.set_xticks(ind + 0.5)
ax.set_xticklabels(new_x, rotation="vertical")
ax.autoscale()
ax.set_title(u'Los Asociados de APDAYC que recibieron más regalías en el 2012',
fontdict = {'fontsize':24}
)
y_labels = ["0", "200,000", "400,000", "600,000", "800,000", "1,000,000"]
ax.set_yticklabels(y_labels)
plt.ylabel(u'Regalías en S/.', fontdict={'fontsize':18})
plt.xlabel(u'Beneficiarios', fontdict={'fontsize':22})
ppl.bar(ax, np.arange(len(new_y)), new_y, grid="y", color=bar_color)
fig.tight_layout()
fig.savefig("output/mas_productivos2.png")

Aquí el código y datos para generar el pie-chart



socios_pva 1.725
resto_de_socios 98.275
socios principales vitalicios y activos 24.0813801372
resto de socios 75.9186198628

Y aquí el código necesario para hacer el plot usando el paquete estadístico R.

library(ggplot2)
datos <- read.csv("output/socios_pva_versus_total.csv", sep=",",
              header=FALSE)
money <- datos[3:4,]
names(money) <- c("Socios","Regalías")

png(filename="output/socios_pva_versus_total.png",
      width=950, height=630, units="px")
ggplot(money, aes(x="", y=Regalías, fill=Socios)) +
  theme(text = element_text(size=22)) +
  geom_bar(width=1, stat="identity") +
  coord_polar("y", start=pi/3) +
  labs(title="Repartición de regalías, APDAYC 2012")
dev.off()