• Del autor
  • Principios y algoritmos de concurrencia

Ricardo Galli, de software

~ De software libre, internet, legales

Ricardo Galli, de software

Archivos de etiqueta: estadísticas

El DNI de la Infanta y el mal uso de las estadísticas

19 miércoles Jun 2013

Posted by gallir in administración, ciencia, política, prensa

≈ 46 comentarios

Etiquetas

dni infanta, estadísticas, probabilidades

Hoy publican en Las probabilidades matemáticas de que lo de la infanta sea “un error”, donde se explica que la probabilidad que cuatro notarios se equivoquen y pongan el DNI de la Infanta es 10 seguido de 30 ceros (pequeño detalle, en realidad debería haber dicho 10 seguido de 31 ceros, ya que es 100.000.000⁴ = 1×10³²). El artículo lo escribió con un doctor en matemáticas, y es un excelente ejemplo de mal uso de las probabilidades, incluso por expertos. Son casos conocidos lo de la Ley de Meadow (en UK se encarcelaron a 258 personas inocentes por la mala interpretación de las probabilidades) y la Falacia del acusador.

El problema en este caso es que se analizaron las probabilidades equivocadas. Poner mal un DNI no es la probabilidad perfecta que vemos en los juegos de una entre todas las posibilidades (en este caso 1 entre los 100 millones de números posibles), sino que depende de otros factores. Lo que se tendría que haber analizado es la probabilidad de que se hayan introducido [mal] números de dos dígitos en los sistemas informáticos que se usan. Esto es mucho más complicado. Pregunté a personas y abogados con experiencia y me dicen que el error es muy habitual, que muchas veces los programas son confusos y hacen que la persona que pica de al ENTER o se pase a otro campo de entrada después de introducir sólo unos pocos dígitos (sumado a que muchos programas autocompletan la letra). Así, la probabilidad de fallo ya es muy superior a la teórica de 1/100.000.000.

Eso ya invalida toda «acusación» basada en esa probabilidad teórica, simplemente porque depende de muchos otros factores. A lo que hay que tener en cuenta la teoría de grandes números, si la probabilidad de poner mal un DNI es del 1%, y se hacen unas 500.000 transacciones inmobiliarias (aproximada, unas 250.000 son de compra-venta de hogares) al año, ya podemos estar seguro que hay unas 5.000 que tienen mal el DNI. ¿Cuál es la probabilidad de que esos DNI mal cargados sean de dos cifras o de un miembro de la casa real? Eso es mucho más complicado, pero tomo dos ejemplos de dos tuits:

Ciudadano de Murcia con el mismo DNI que la Infanta. 00000014Z. pic.twitter.com/2GbICXsqZe

— Antonio Maestre (@AntonioMaestre) June 18, 2013

En este vemos que de 50 DNI que hay en la página mostrada, uno corresponde a la Infanta. Si nos basamos en esta pequeña muestra, la probabilidad es de 1/50, o 2%. Eso nos da que de las 500.000 transacciones anuales, unas 10.000 (al año) tendrán el DNI de la Infanta.

El otro tweet tiene todavía es más extraño:

Ciudadano de Lugo con el NIF del Principe Felipe 00000015S pic.twitter.com/ZkvCnEffjL

— Antonio Maestre (@AntonioMaestre) June 18, 2013

Si las cuentas y la vista no me fallaron, en esa captura hay sólo 18 números de DNI diferentes, de los cuales 4 son de dos cifras (y una del DNI de Felipe). Si esta muestra fuese válida, hay una probabilidad de 22% de que se introduzca un DNI de dos cifras, y un 5.5% de que el DNI sea de un miembro de la casa real. Extrapolando, hay unas 27.500 transacciones anuales con el DNI de un miembro de la Casa Real, o unos 110.000 con el DNI mal puesto con dos cifras.

Por supuesto, estas dos muestras no son válidas para inferir probabilidades, porque esas capturas fueron seleccionadas por tener errores, debe haber muchas otras sin error. Pero son un claro indicativo de que las tasas de error son mucho más elevadas -en varios órdenes de magnitud- que 1/100.000.000 y que por lo tanto esa «acusación» es una falacia estadística: la probabilidad de error no depende de la teórica, sino de otros muchos factores, humanos e informáticos.

Y todo esto sin contar que podría haber existido mala fe de los que vendieron esas propiedades, o blanqueo, u otros delitos. Pero ya no me quiero meter en ese tema que desconozco profundamente. En todo caso, es triste que se publique en portada un artículo firmado por un matemático con semejante error de fondo relatado en casi todos los libros de «malas estadísticas» en temas legales y judiciales.

Moraleja: No es lo mismo analizar probabilidades de juegos perfectos como tirar dados o jugar a la ruleta que la compleja realidad de la burocracia.

Actualización: En El Mundo también hablan de chapuzas informáticas (vía @malaprensa).

Actualización 2: Un análisis más técnico de los problemas del artículo, P-valores, infantas y tests de hipótesis.

Guía gráfica básica de fiabilidad de tendencias para periodistas y politólogos

21 jueves Mar 2013

Posted by gallir in ciencia, prensa

≈ Comentarios desactivados en Guía gráfica básica de fiabilidad de tendencias para periodistas y politólogos

Etiquetas

estadísticas, prensa, tendencias

Muchas veces os llegan gráficos de tendencias, que está subiendo o que está bajando, y no sabéis qué grado de fiabilidad tienen esas tendencias. Aquí dos ejemplos gráficos simples.

Es fiable esa tendencia

Scanned Document-1

Sigue leyendo →

Las pérdidas por piratería en España son…

04 miércoles Ene 2012

Posted by gallir in internet, legales

≈ 34 comentarios

Etiquetas

estadísticas, idc, ley sinde, sopa

Recomiendo el magnífico artículo How Copyright Industries Con Congress, mirad las cifras que manejan por convencer al Congreso norteamericano para aprobar el SOPA. Luego podéis leer mi artículo sobre estudios similares de IDC en España. Controlad la risa, o la rabia.

No, espera. Si sólo quieres reirte, o cabrearte, te voy ahorrar leer el artículo en inglés, y el mío. El resumen.

Siwek estima [1] que las pérdidas por piratería de películas norteamericanas en todo el mundo es de 6.100 millones de dólares, de los cuales 446 millones son por «pirateo» en EEUU.

Según los estudios de IDC en España, el valor total de lo pirateado [sic] en películas es de 5.003 millones de dólares [2].

Es decir, España concentraría el 82% de la piratería mundial de películas, y 11 veces más que en EEUU. Dado la diferencia de población, nos queda que los españoles miramos unas 70 veces más películas «piratas» que los norteamericanos (y relaciones igualmente disparatadas se si compara con cualquier otro país del mundo).

Todo lo anterior sin necesidad de aplicar multiplicadores raros, sólo proporciones a partir de los números que dan dos estudios. Deberías empezar a pedir responsabilidad a los medios que publican estos informes sin la menor crítica, y mucha más a los ministros que los dan por buenos.

Te están mintiendo, te están tratando de imbécil desde hace mucho tiempo. O son ellos los imbéciles. No sabría decir cuál es peor.

[1] Sin tomar en cuenta sus efectos multiplicadores mágicos.

[2] De 1867 millones de euros por semestre, multiplicado por dos (para un año), y multiplicado por 1.34 para convertir a dólares.

Ejemplo de lo mal que interpretamos la aleatoriedad

25 domingo Abr 2010

Posted by gallir in ciencia, pijadas

≈ 9 comentarios

Etiquetas

estadísticas, fórmula 1

Hace pocos días escribí sobre nuestra incapacidad de gestionar la aleatoriedad, hoy Cavalleto me dejó el balón botando frente a portería. En su blog escribe sobre el «patrón curioso» de que haya tantos corredores de Fórmula 1 con letras seguidas repetidas en sus apellidos. Comenta que hubo 12 en los últimos dos años, miré en la página de la F1 y veo que este año hay 9 que cumplen esa condición.

Cavalleto sospecha que la probabilidad es de 1 en 100 millones, desde el principió sospeché que sería muchísimo menor, así que me puse a estudiar un poco los números.

Antes de continuar leyendo haz unos cálculos rápidos. ¿Cuál es la probabilidad que una persona tenga un apellido con letras consecutivas repetidas? (pista: el castellano no es el único idioma, ni el predominante en F1, en todo caso el italiano y el inglés) ¿Cuál es la probabilidad que haya un corredor con esas características? ¿y cinco? (pista, la segunda es mucho más probable)

—-

Lo primero que hay que averiguar era el porcentaje de apellidos con letras consecutivas repetidas. Para simplificar mucho el trabajo sólo busqué los más comunes en los países con más representantes en la F1. Aunque no es completa y tiene desvíos importantes serviría para hacer una aproximación, que aunque basta puede confirmar lo malo que somos para evaluar las probabilidades.

[*] Por ejemplo los apellidos italianos de la brasileros es mucho más alto que la media brasilera, supongo que influye mucho la ciudad de orígen, o que sean los de familia italiana los más aficionados a los coches (al menos mucho más que los de apellidos originarios de Portugal)

Las listas de los apellidos más comunes las obtuve de la Wikipedia, Familypedia, y Behindthename. El resumen de las probabilidades de algunos países es el siguiente:

  • España: 10% (4 de 40)
  • Alemania: 20% (2 de 10)
  • Italia: 35% (7 de 20)
  • Brasil: 15% (25 de 168)
  • Finlandia: 10% (1 de 10)

Se puede ver que varía entre Italia que es el más alto a España o Finlandia que son los más bajos. Para aproximar asumí que los valores razonables estarían entre el 20 y el 30%. Estas son las probabilidades para cada una de ellas, la columna de la izquierda representa el número de corredores con el «apellido raro» y la segunda la probabilidad porcentual):

Para el 20%:

0 0.5%
1 2.8%
2 8.1%
3 14.9%
4 19.6%
5 19.6%
6 15.6%
7 10.0%
8 5.3%
9 2.3%
10 0.9%
11 0.3%
12 0.1%
13 0.0%
14 0.0%
15 0.0%
17 0.0%

Para el 30%

0 0.0%
1 0.1%
2 0.4%
3 1.5%
4 3.9%
5 7.9%
6 12.5%
7 16.1%
8 17.1%
9 15.1%
10 11.4%
11 7.2%
12 4.0%
13 1.8%
14 0.7%
15 0.2%
16 0.1%
17 0.0%
18 0.0%
19 0.0%

Nota: los «0.0%» no son ceros, es cuestión de precisión y redondeo, por ejemplo el último (19) de la última tabla es 0.0006%.

Es decir, las probabilidades de tener 9 corredores de 24 con apellidos con letras consecutivas repetidas está entre el 2.3 y el 15.1% (partiendo de probabilidades entre 20 y 30%). Ya se ve, muchísimas más bajas que 1 en 100 millones.

Por otro lado también es interesante analizar cada cuantos años se debe dar esta coincidencia en la F1. También es muy fácil de comprobarlo: varía entre 6.44 años de media (con 6 de desviación estándar [**]) en el caso del 30% y en 40.44 años (con desviación estándar de 42 años [**]) en el caso del 20%. Dado que la F1 se corre desde hace 60 años, en el peor de los casos analizados (con el 20%) había el 68% de probabilidades que se presentase este «patrón raro» de 9 corredores.

Pues eso, que de raro en realidad no tiene nada (aunque no miré el historial de años anteriores).

[**] En mis simulaciones, ver el Teorema del Límite Central.

Comprar el libro

Principios y algoritmos de concurrencia

gallir@twitter

  • RT @jlhortelano: Siempre ha sido un manipulador. Pero encima es muy tonto si trata de colar esta foto de Septiembre de 2021, época donde no… 20 hours ago
  • ¿Qué? Por algo se re-empieza. https://t.co/dJ16CcMu9J 1 day ago
  • "sexeafectives" twitter.com/La_Directa/sta… https://t.co/or6E5bOLvT 1 day ago
  • RT @IrvingGatell: 1. No, no se va a armar la Tercera Guerra Mundial. Pero el asunto sí se puso candente. Todo parece indicar que #Iran ha s… 2 days ago
Follow @gallir

RSS Notas recientes

  • Se ha producido un error; es probable que la fuente esté fuera de servicio. Vuelve a intentarlo más tarde.

Archivos

Comentarios recientes

PM en Cuidado con las «clever soluti…
Me matan si no traba… en Cuando el periodismo cede el c…
surco en Cuando el periodismo cede el c…
pancho pérez (@lonch… en Cuando el periodismo cede el c…
Fernando en Cuando el periodismo cede el c…
@beoxman en Cuando el periodismo cede el c…
gallir en Cuando el periodismo cede el c…
Jan Smite en Cuando el periodismo cede el c…
Alejandro en Cuando el periodismo cede el c…
Galletor en Cuando el periodismo cede el c…

Meta

  • Registro
  • Acceder
  • Feed de entradas
  • Feed de comentarios
  • WordPress.com

Licencia

Creative Commons License
Esta obra está bajo una licencia de Creative Commons.

Blog de WordPress.com.

  • Seguir Siguiendo
    • Ricardo Galli, de software
    • Únete a 667 seguidores más
    • ¿Ya tienes una cuenta de WordPress.com? Accede ahora.
    • Ricardo Galli, de software
    • Personalizar
    • Seguir Siguiendo
    • Regístrate
    • Acceder
    • Denunciar este contenido
    • Ver sitio web en el Lector
    • Gestionar las suscripciones
    • Contraer esta barra
 

Cargando comentarios...