Llevamos casi dos días y todavía hay gente que sostiene –contrario a lo que expliqué– que la probabilidad de empate en las votaciones de la CUP era 1/3030. Voy a explicar ahora por qué está mal, muy mal, ese razonamiento.

Al asumir que la probabilidad es 1/3030 están asumiendo que la probabilidad de un 0-3030 a favor del no (o viceversa) tiene la misma probabilidad que un 30-3000 o 1515-1515.

Asumieron que los resultados de la votación siguen una distribución uniforme en vez de binomial, es un error enorme, monumental, de estadísticas básicas (y luego buscan fórmulas complicadísimas, argumentos retorcidos y hasta realidades inexistentes para justificarlo).

Intentaré explicarlo con una analogía sencilla.

Imaginad que tenéis cuatro monedas (o una que lanzáis cuatro veces, es equivalente al ser independientes). Representamos los resultados individuales con 0 si es cara y 1 si es cruz. Los resultados posibles son exactamente 16, o 2⁴ (son dos resultados posibles con cuatro monedas o tiradas):

0000
0001
0010
0011
0100
0101
0110
0111
1000
1001
1010
1011
1100
1101
1110
1111

Fijaros que solo hay un valor 4-0 (0000) y su probabilidad es 1/16.

¿Cuántos hay para un 3-1? Pueden ser el 0001, 0010, 0100 y 1000. Su probabilidad es 4/16 = 1/4, cuatro veces mayor.

¿Y para un empate 2-2? Son válidos 0011, 0101, 0110, 1001, 1010, 1100. Su probabilidad es la mayor: 3/8.

Con esto ya se descarta que las probabilidades en una votación sean equivalentes para cada uno de los valores. Por eso se usa la distribución binomial que expliqué en el apunte anterior.

Es decir, para este ejemplo la probabilidad de empate es: binomial(4, 2) / 2⁴ = 6/16 = 3/8. No, no es casualidad que ambos resultados sean idénticos.

Estás asumiendo que tienes información, te olvidas del principio de indiferencia

En primer lugar que sí hay información previa, en segundo lugar el principio de indiferencia (es más filosófico que matemático y mejor usado en Bayes) indica que a falta de información debes otorgarles una probabilidad equivalente. Pero hay que saber aplicarlo, sabiendo que son N decisiones independientes como N monedas, se debe aplicar el 0.5 (1/2) de probabilidad al lanzamiento de la moneda, no al número de caras o cruces que saldrán tras varios lanzamientos. No hace falta retroceder al conocimiento de probabilidades de principios de la Edad Media.

Si sabes que es un dado de 16 caras sí aplicas la probabilidad de 1/16 para cada cara, pero si son 4 monedas no puedes aplicar la misma fórmula. Aplicar el principio de indiferencia no significa hacer burradas sabiendo que son procesos completamente diferentes, un dado es un evento único, una votación o lanzamiento de monedas son varios sucesos independientes.

Pero estás asumiendo que la probabilidad del voto de cada persona es 0.5

¿Antes me pedías que aplique el principio de indiferencia -i.e. 0.5 de probabilidad a elecciones binarias- y ahora me criticas por hacerlo?

Ponte de acuerdo, pero como dije antes: además sí hay información previa que confirma que la probabilidad es muy próxima a 0.5. En las penúltimas votaciones hubo 1510 votos a favor del SÍ (1489 por la A y 28 por la C) versus 1512 a favor de NO. Esto da una probabilidad de 0.499…

Si se cuenta el resultado de la última, es exactamente 0.5. Diría que el margen de error al elegir 0.5 es bastante pequeño. ¿O tienes algo mejor?

Pero asumes que todos votan con la misma probabilidad

No es así, no hace falta. Si cada persona tiene sesgos hacia uno y hacia otro la media queda en 0.5. Puedes probarlo con este pequeño programa que simula que cada persona cambia su sesgo en cada votación.

De paso relee  Teorema Central del Límite, de dónde viene la distribución normal y por qué aparece tanto en la naturaleza y actividades humanas que la hacen tan útil (pista: combinación de eventos aleatorios independientes).

De todas formas, si dices que 0.5 no es un valor adecuado, con la información disponible ¿qué valor propones? ¿qué probabilidad de empate obtienes? ¿por qué?

En cualquier caso, elijas la probabilidad que quieras el resultado no es una uniforme, habrás resultados con mucha más probabilidad que otros. Pero si eliges un p diferente a 0.5 deberías justificar muy bien por qué, no hay razones filosóficas ni teóricas ni empíricas.

La probabilidad de p puede variar de 0 a 1 y  para todas las combinaciones la probabilidad p sí es 1/3030

Esto solo funciona si asumes que los resultados están uniformemente distribuidos. Pero es erróneo, los votos son los eventos independientes que determinan los resultados. ¿Por qué deberían ser equiprobables los resultados? Es como asegurar que la distribución de la altura o peso de las personas también están distribuidos uniformemente (sabemos que no es así sino que siguen una distribución normal, insisto con lo del Teorema Central del Límite).

Lo correcto es modelar a los votos independientes. Si la probabilidad de votar a uno u otro (el sesgo) es aleatoria con una distribución uniforme los resultados de las votaciones no son uniformes. La distribución de probabilidades tienen la siguiente forma (en %):

Screenshot from 2016-01-02 12-27-20.png

¿Te suena? Tampoco es casualidad que la probabilidad de empate tenga la mayor probabilidad y que para 3030 votos tenga el mismo valor, 1.45%.

Hablas de la normal pero usas distribución uniforme para la probabilidad de los votos

Vale, el siguiente gráfico es la distribución de probabilidades de una simulación con p siguiendo una distribución normal.

Screenshot from 2016-01-02 13-35-48

No tienes en cuenta los votos en blanco

Podría, pero debería usar distribuciones multinomiales, son más complejas -ni las controlo, la binomial es muy sencilla- y llegaríamos a probabilidades muy próximas. Pero puedes hacerlo tú si quieres, ya te indicaré los fallos que tengas (por ejemplo qué información usas para seleccionar las probabilidades de cada opción). Criticar es mucho más fácil que proponer, exponer y explicar.

No tienes en cuenta que la gente cambia de voto

Claro que la binomial los captura, se usan probabilidades, la gente puede cambiar su decisión de una votación a otra.

Ajá, entonces no tienes en cuenta los votos fijos

Porque no estamos seguros, pero de estarlo la probabilidad sería más alta que el 1.44% aproximado que di desde el inicio. Por ejemplo, supongamos que los 3022 mantienen sus votos, eso quiere decir que sólo hay 8 votos libres para llegar a los 3030.

Para que se produzca un empate debería haber 5 votos por el sí y 3 por el nó. En este caso la probabilidad es 56/2^8 = 56/256 = ¡21.875%!

Me estás dando aún más la razón de que el empate no era nada improbable, pero si hubiese comenzado con este cálculo me habrías dicho que estoy presuponiendo demasiadas cosas.

Si estás usando información previa deberías haber usado el Teorema de Bayes

Es un poco más complejo y llegaríamos a valores muy cercanos, pero vale, aquí va una solución (inspirada de este artículo).

Empezamos por la fórmula del Teorema de Bayes:

P(A|B) = P(A) P(B|A) / P(B)

Vamos a hablar de proporciones, nuestra hipótesis -el evento A- es que la proporción de votantes es idéntica para 3030 votantes. Es lo mismo que decir «tenemos en un cubo 3030 bolas, unas son rojas y otras azules, la hipótesis es que hay 1515 azules y rojas». Lo que estamos diciendo es:

Nuestra hipótesis A es que hay la misma proporción de votantes para la última votación, sabemos el resultado de la previa, B, fue 1510-1512, ¿cuál es la probabilidad de que ocurra A una vez que sabemos que ocurrió B?

Como no tenemos nada de información previa, la P(A) (o la probabilidad de que haya tantas rojas como azules) es igual a 1/3030 = 0.00033 (aquí sí usamos, correctamente, el principio de indiferencia para Bayes, idéntica probabilidad para las diferentes proporciones posibles).

Se produce una votación (o se sacan 3022 bolas) y salen 1510 rojas y 1512 azules. Este es el evento B, la información que tenemos.

¿Cuál es la probabilidad de que obtengamos este resultado si suponemos A?, es decir P(B|A). Esto se calcula de la siguiente forma, da como resultado:

P(B|A) = 0.0145

Ahora viene lo más complicado, el factor normalizador o P(B): la probabilidad total de que se obtenga 1510-1522 para todos los valores posibles. Siguiendo el método del artículo enlazado

Screenshot from 2015-12-29 18-34-53

nos queda que

P(B) = 0.0003308

Según el teorema de Bayes, la probabilidad de que haya la misma proporción de votos (P(A)) dado que sabemos P(B) y P(B|A) queda:

P(A|B) =0.00033 * 0.0145 / 0.0003308 = 0.01446

Es decir, prácticamente el mismo resultado 1.445 %

Estás haciendo el cálculo solo para par y 3030 votos

Por supuesto, de eso va, para exactamente ese número de votos, que además es par y produjo un empate exacto del que algunos dicen es muy improbable.

Con un número impar el empate exacto es imposible pero sería «técnico», con la misma distribución… y ya está explicado en el artículo anterior.

Sigues estando equivocado

Quizás, pude haberme equivocado en algún cálculo o cifra. Esto lo hago por hobby, no me pagan para un estudio pericial, admito correcciones. Aún así apuesto a que los resultados serán muy próximos a estos, y en ningún caso nada cercano a 0.033% que están dando incluso en los medios.

Es igual, estás equivocado

Me convenciste, en realidad seguro que hubo pucherazo, lo demuestran las probabilidades basadas en estudios muy rigurosos.

No es por llevarte la contraria pero quizás tengas razón

Quizás, usar las probabilidades correctamente no es sencillo aunque muchos lo crean y usen fórmulas muy complejas para justificar un cálculo inicial demasiado simplificado. De un extremo a otro y cada vez se entiende menos, pero insisten.