El programa de alimentación a niños en edad escolar ha sido atacado estas últimas semanas. Uno de los ataques principales viene de un estudio académico de un profesor de Economía de la Universidad de Pacífico. Se pueden bajar el reporte de aquí: http://srvnetappseg.up.edu.pe/siswebciup/Files/DD1307%20-%20Vasquez.pdf

Estuve mirando rápidamente el reporte en cuestión y vi que una de las críticas se basa en una mala interpretación de al menos uno de los análisis estadísticos.

En la página 93 dice:

El Gráfico 50 muestra los resultados obtenidos para el caso de los escolares. En este caso se comparó el gasto presupuestado por escolar contra el porcentaje de niños entre 6 y 11 años que viven en hogares con déficit calórico, información basada en los resultados del IPM. Este muestra resultados preocupantes, a diferencia del caso para preescolares: se observa una relación negativa entre ambas variables. Esto quiere decir que el presupuesto por escolar no está distribuido equitativamente, pues es mayor en los departamentos con menor déficit calórico.

Este es el gráfico 50:

Rehaciendo el análisis

Al ojo se ve que no hay relación entre las variables. Copié los datos que están en la tabla 31 (de la página 123) y ajusté una regresión lineal en el programa estadístico R.

Mira los puntos todos aglomerados al centro. No dejes que la línea de tendencia te engañe. El coeficiente de determinación R² es casi cero (0.04) y el p-value no es significativo ( p > 0.05).

Tarán! los resultados dicen que NO hay correlación entre las variables y que las conclusiones del autor de líneas arriba están erradas. NO es cierto que los datos indiquen que se gaste menos dinero en áreas con mayor deficiencia calórica.

Si hubiera una correlación entre dos variables, osea una relación entre gasto y nivel de deficiencia calórica, deberíamos de tener un gráfico así. Mira los puntos distribuidos a lo largo de la línea de tendencia, no están aglomerados!:

Ejemplo de correlación significativa

Hay obvia correlación, a mayor valor de x, menor valor de y. Además los valores de R² y p-value son: R² = 0.82, p = 0.0002. El coeficiente R² es cercano a 1, y el p-value es mucho menor que 0.05. Osea altamente significativo.

Pero los valores que salen de analizar los datos del estudio académico son los siguientes:

R² = 0.04 (es casi cero, si fuera cercano a 1 sabes que hay correlación. Pero en este caso no tiene nada!)

p = 0.157 (es mayor que 0.05, osea datos no significativos).

Ya ves chocherita, no hay tendencia, no hay correlación, no hay causación. Señores, no tiene nada!

Pero hay más

El autor del estudio académico da como ejemplo (pag. 93) que en Puno (con alto déficit calórico) se gasta menos por niño que en Lima. Pero este es un dato anecdótico. Ya pe causa! Estudios académicos no se basan en datos anecdóticos. Además si tú criticas que la política de Qali Warma está mal, debes demostrar que en su conjunto se está gastando menos dinero donde más se necesita. Pero lamentablemente los datos y estadísticas duras refutan tus conclusiones. En este punto en particular la política será desordenada, o sin ningún patrón o tendencia, pero no es lo que afirmas pe varón.

Ya otras personas han criticado este dichoso trabajo, @rmapalacios, la ministra Mónica Rubio, y Diario16.

Actualización 22-Oct. Otro error

El señor Pepe Botella, en un comentario a este post, me avisa que él ha encontrado otro ejemplo de uso y abuso de las estadísticas en el mentado reporte académico que la prensa usa para atacar a Qali Warma.

Quiero pensar que este ha sido un error de mal uso de estadísticas, aunque el asunto se vuelve un poco rochoso.

En la página 36 empieza un floro donde el autor manifiesta que Qali Warma gasta menos dinero en los más pobres («pobres multidimensionales»).

…la poca atención que reciben los pobres multidimensionales en términos de cobertura de servicios básicos genera una fuente de ineficacia en cuanto a la distribución del gasto público

La distribución departamental del gasto social está mal enfocada pues existen departamentos con un alto nivel de pobreza multidimensional que reciben un gasto social por debajo del promedio nacional

Osea la hipótesis es hay menor gasto en departamentos con mayor porcentaje de pobreza. Esto se debería demostrar con otra regresión lineal de ajuste significativo a la línea de tendencia. Y eso es lo que prentende hacer el autor al mostrar un gráfico muy colorido:

Regresión lineal con cuadrantes blancos y rosados. Qué hacen los cuadrantes allí?

Los datos están en la Tabla 4 del informe (página 37). Bajé los datos, hice el plot y calculé el coeficiente de determinación y el valor del p-value para ver si hay o no hay correlación entre las variables gasto y nivel de pobreza.

Gráfico sin los cuadrantes que estorban.

Y creo que ya te diste cuenta que NO hay relación entre las dos variables! Mira pé:

R² = 0.02 (si hubiera correlación este debería ser cercano a 1)
p = 0.43 (si hubiera correlación este debería ser menor que 0.05)

El mismo error!

Pero aquí viene lo penoso. Qué michi hacen esos cuadrantes en tu gráfico? Primera vez en mi vida que los veo en un análisis de regresión. Los cuadrantes se usan en análisis canónico! ca-no-nico!

Si quieres demostrar algo categóricamente debes aplicar las estadísticas relevantes y que sean las más simples. Si quieres comparar 2 variables, haces regresión lineal (o ajustas una distribución exponencial, logarítmica, etc). Si quieres explicar el comportamiento de tus datos según múltiples variables haces un análisis de correspondencia canónico o similar.

No quiero pensar que estas tratanto de estirar los datos. Los desconfiados van a pensar que quieres estirar las estadísticas, forzándolas para que falsamente den soporte al resultado que quieres obtener. Debes tener cuidado chochera.

Sobre todo, causa desconfianza cuando, de todos los puntos de tu gráfico, escoges algunos, los que te conviene usar para criticar Qali Warma. Esos son datos anecdóticos. Otro broder podría escoger solo los puntos que dan una conclusión contraria y discutir ampliamente que Qali Warma hace un excelente gasto del dinero.

Para evitar esas subjetividades se hacen regresiones lineales, cálculos de coeficientes y tests de significancia (p-value). Cosa que tu informe aparenta hacer, pero no lo hace. Presentas tablas y gráficos pero haces cherry picking para la discusión! Además, ta que no he visto ninguna mención al R² o al p-value en tu informe.

Sección geek

Aquí está los dos análisis estadísticos, el de ejemplo y el que rehice con los datos del informe del señor de la Universidad del Pacífico.

	require(stats)
	library(ggplot2)
	x <- read.csv("tabla31.csv", header=FALSE)
	plot(x$V3, x$V2, xlim=c(0,200), ylim=c(0,
	70),
	ylab="Déficit calórico",
	xlab="Presupuesto de Gasto por niño (PIM)",
	main="Hay correlación entre gasto y déficit calórico?\nPrimicia: NO hay!")
	reg_lineal <- lm(x$V3 ~ x$V2)
	abline(lsfit(x$V3, x$V2))
	summary(reg_lineal)

	# grafico de ejemplo
	sale5 <- c(13, 12, 12, 11, 12, 10, 7, 9, 8, 6)
	plot(sale5, main="Ejemplo de correlación lineal significativa", las=1)
	abline(lsfit(1:10,sale5))
	summary(lm(1:10 ~ sale5))

	# Tabla 4
	x <- read.csv("tabla4.csv", header=FALSE)
	names(x) <- c("departamento", "porcentaje_pobres","gasto")
	plot(x$porcentaje_pobres, x$gasto, xlim=c(0,80), ylim=c(0,2100),
	main="\"A mayor pobreza hay menor gasto\":\nLos datos no te respaldan!",
	xlab="Tasa de pobreza multidimensional",
	ylab="Gasto social per capita",
	las=1)
	reg_lineal <- lm(x$porcentaje_pobres ~ x$gasto)
	abline(lsfit(x$porcentaje_pobres, x$gasto))
	summary(reg_lineal)

view raw

reanalisis.R

hosted with ❤ by GitHub

Aquí los datos originales usados en el reporte académico, tomado de su tabla 31.

	Amazonas,32.86,104
	Áncash,32.65,134
	Apurímac,50.49,139
	Arequipa,38.41,118
	Ayacucho,45.88,129
	Cajamarca,53.93,120
	Cusco,32.08,118
	Huancavelica,35.60,125
	Huánuco,42.40,125
	Ica,20.06,152
	Junín,39.74,154
	La Libertad,37.90,110
	Lambayeque,23.69,109
	Lima,27.25,172
	Loreto,37.05,143
	Madre de Dios,15.36,148
	Moquegua,25.64,141
	Pasco,62.38,129
	Piura,32.31,117
	Puno,45.76,88
	San Martín,22.30,128
	Tacna,30.02,119
	Tumbes,23.58,127
	Ucayali,10.74,144

view raw

tabla31

hosted with ❤ by GitHub

Aquí los datos originales de la tabla 4

Moquegua	24.8	1949
Tumbes	28.4	1839
Ayacucho	56.6	1779
Pasco	55.8	1769
Huancavelica	68.5	1750
Apurímac	60.9	1725
Madre de Dios	27.1	1584
Cusco	38.2	1574
Amazonas	61.7	1404
Tacna	26.5	1399
Huánuco	60.6	1361
Ancash	43.4	1338
Ucayali	42.6	1234
Puno	55.3	1140
Loreto	63.2	1118
Lima	16.6	1093
Cajamarca	67.8	1082
Ica	16.6	979
San Martín	51.1	966
Callao	17.7	943
La Libertad	41.6	906
Arequipa	25.7	902
Junín	40.1	889
Piura	46.4	755
Lambayeque	41.5	727

view raw

tabla4.csv

hosted with ❤ by GitHub

13 comentarios en “No hacer mal uso de las estadísticas para atacar Qali Warma”

Pingback: Mito de los suicidios India debido a transgénicos | El Útero de Marita Aniversario Perú
Elmer Walter Terrones Bartolo dijo:

on octubre 25, 2013 at 11:31 pm

mmmm creo que hay serios problemas para una redaccion mas entendible,,y por la comprension de lo ya redactado…..las hipotesis que replanteas no necesariamente es lo que el mensaje quiere transmitir. ejm: ####La distribución departamental del gasto social está mal enfocada pues existen departamentos con un alto nivel de pobreza multidimensional que reciben un gasto social por debajo del promedio nacional### ..se refiere a la mala distribucion del presupuesto…..tu hipotesis es ## hay menor gasto en departamentos con mayor porcentaje de pobreza# queriendo buscar relacion entre dos variables que obviamente no tienen dependencia,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,el pronaa , vaso de leche, Qali warma, todos esos programas depende de la buena gestion y direccionamiento acertado para la poblacion,,,,,,,sino se convierte en mas que politica y alimento para mas miseria……..

Responder
- aniversarioperu dijo:
  
  on octubre 26, 2013 at 11:08 am
  
  ese es el problema de escoger sólo los datos que le convienen a uno. Yo podría escoger los datos de Apurimac y Huancavelica donde hay mayor pobreza que en el resto de departamentos, y precisamente donde se gasta más dinero! Podría concluir que el programa hace un excelente gasto por que más plata va donde más se necesita.
  
  para evitar estas subjetividades se usan estadísticas. Si quieres averiguar el nivel de gasto según el nivel de pobreza, ya tienes tus dos variables y la prueba estadística es obvia.
  
  estos datos no dan soporte a la afirmación «el gasto está mal enfocado», tampoco da soporte a la afirmación contraria «el gasto está bien enfocado».
  
  se puede decir que en algunos departamentos se gasta bien, y en otros se debería gastar más. De allí saltar a decir «la distribución del gasto está mal enfocada» es bastante irresponsable a mi parecer.
  
  Responder
Johan Espinoza (@MrJohaNero) dijo:

on octubre 23, 2013 at 2:58 am

Muy buena la información de este post. Ahora me dedicaré a difundirla 😀

Responder
Konrado (@ExKonrado) dijo:

on octubre 22, 2013 at 7:34 pm

La ex ministra Trivelli ha leído tu post y lo hemos comentado esta mañana. ¡Buena, choche! A darle con palo al Quique por fujimorista, se ha dicho.

Responder
- aniversarioperu dijo:
  
  on octubre 22, 2013 at 10:09 pm
  
  Pepe Botella dateó otra falla, ya actualicé el post
  
  Responder
Pepe Botella dijo:

on octubre 22, 2013 at 6:58 pm

el numero exacto de pobres no visibles 2012= 3’279,258 😛

Responder
Pepe Botella dijo:

on octubre 22, 2013 at 5:55 pm

Una más, en el otro documento amarillista de 2012, el investigador indicaba que en 2010 habian 2.9 mlls pobres no visibles, en 2011 habian 3.6 mlls. Esto claramente sustentaba el titular amarillista de los pobres no visibles. Pero en 2012 el numero de pobres no visibles cayó a 3.1 mlls. Como cayó, había que buscar otro titular amarillista definitivamente
PS: no visible para el investigador = # pobres multidimensional – # pobres monetarios

Responder
- aniversarioperu dijo:
  
  on octubre 22, 2013 at 6:00 pm
  
  gracias Pepe por las ideas! voy a tratar de fijarme en esto durante la semana.
  
  al parecer el estudio académico no soporta el análisis de los bloggers.
  
  Responder
Pepe Botella dijo:

on octubre 22, 2013 at 5:41 pm

Me olvidaba, si analizas el gasto y los que tienen deficit calorico Y QUE ADEMAS SON POBRES MULTIDIMENSIONALES, la correlacion se vuelve positiva. sin embargo, al regresionar sale algo que no es significativo (aunque considerando la «rigurosidad» del documento, se podria decir que efectivamente se gasta más donde se debe gastar). Si hubiera salido significativo, ya seria mucho para un trabajo que en verdad fue improvisado, amarillista, incompleto y sin rigurosidad.

Responder
- aniversarioperu dijo:
  
  on octubre 22, 2013 at 10:09 pm
  
  gracias Pepe, ya actualicé el post con el error que encontraste
  
  Responder
Pepe Botella dijo:

on octubre 22, 2013 at 5:07 am

seria bueno que pusieras qeu es el adj r2

Responder
- aniversarioperu dijo:
  
  on octubre 22, 2013 at 5:48 am
  
  buena idea, gracias!
  
  Responder

	mauricio en Los narcoindultados con fecha…
	Los indultos firmado… en Los narcoindultados con fecha…
	Mito de los suicidio… en No hacer mal uso de las estadí…
	aniversarioperu en Guía práctica para hackear las…
	Spencer C Vasquez en Guía práctica para hackear las…

aniversario peru

me gusta recordar fechas. freelancer

No hacer mal uso de las estadísticas para atacar Qali Warma

Rehaciendo el análisis

Pero hay más

Actualización 22-Oct. Otro error

13 comentarios en “No hacer mal uso de las estadísticas para atacar Qali Warma”

Replica a Elmer Walter Terrones Bartolo Cancelar la respuesta

Rehaciendo el análisis

Pero hay más

Actualización 22-Oct. Otro error

Tu voto:

Comparte esto:

Relacionado

13 comentarios en “No hacer mal uso de las estadísticas para atacar Qali Warma”

Replica a Elmer Walter Terrones Bartolo Cancelar la respuesta