Etiquetas

, ,

Hoy publican en Las probabilidades matemáticas de que lo de la infanta sea “un error”, donde se explica que la probabilidad que cuatro notarios se equivoquen y pongan el DNI de la Infanta es 10 seguido de 30 ceros (pequeño detalle, en realidad debería haber dicho 10 seguido de 31 ceros, ya que es 100.000.000⁴ = 1×10³²). El artículo lo escribió con un doctor en matemáticas, y es un excelente ejemplo de mal uso de las probabilidades, incluso por expertos. Son casos conocidos lo de la Ley de Meadow (en UK se encarcelaron a 258 personas inocentes por la mala interpretación de las probabilidades) y la Falacia del acusador.

El problema en este caso es que se analizaron las probabilidades equivocadas. Poner mal un DNI no es la probabilidad perfecta que vemos en los juegos de una entre todas las posibilidades (en este caso 1 entre los 100 millones de números posibles), sino que depende de otros factores. Lo que se tendría que haber analizado es la probabilidad de que se hayan introducido [mal] números de dos dígitos en los sistemas informáticos que se usan. Esto es mucho más complicado. Pregunté a personas y abogados con experiencia y me dicen que el error es muy habitual, que muchas veces los programas son confusos y hacen que la persona que pica de al ENTER o se pase a otro campo de entrada después de introducir sólo unos pocos dígitos (sumado a que muchos programas autocompletan la letra). Así, la probabilidad de fallo ya es muy superior a la teórica de 1/100.000.000.

Eso ya invalida toda “acusación” basada en esa probabilidad teórica, simplemente porque depende de muchos otros factores. A lo que hay que tener en cuenta la teoría de grandes números, si la probabilidad de poner mal un DNI es del 1%, y se hacen unas 500.000 transacciones inmobiliarias (aproximada, unas 250.000 son de compra-venta de hogares) al año, ya podemos estar seguro que hay unas 5.000 que tienen mal el DNI. ¿Cuál es la probabilidad de que esos DNI mal cargados sean de dos cifras o de un miembro de la casa real? Eso es mucho más complicado, pero tomo dos ejemplos de dos tuits:

En este vemos que de 50 DNI que hay en la página mostrada, uno corresponde a la Infanta. Si nos basamos en esta pequeña muestra, la probabilidad es de 1/50, o 2%. Eso nos da que de las 500.000 transacciones anuales, unas 10.000 (al año) tendrán el DNI de la Infanta.

El otro tweet tiene todavía es más extraño:

Si las cuentas y la vista no me fallaron, en esa captura hay sólo 18 números de DNI diferentes, de los cuales 4 son de dos cifras (y una del DNI de Felipe). Si esta muestra fuese válida, hay una probabilidad de 22% de que se introduzca un DNI de dos cifras, y un 5.5% de que el DNI sea de un miembro de la casa real. Extrapolando, hay unas 27.500 transacciones anuales con el DNI de un miembro de la Casa Real, o unos 110.000 con el DNI mal puesto con dos cifras.

Por supuesto, estas dos muestras no son válidas para inferir probabilidades, porque esas capturas fueron seleccionadas por tener errores, debe haber muchas otras sin error. Pero son un claro indicativo de que las tasas de error son mucho más elevadas -en varios órdenes de magnitud- que 1/100.000.000 y que por lo tanto esa “acusación” es una falacia estadística: la probabilidad de error no depende de la teórica, sino de otros muchos factores, humanos e informáticos.

Y todo esto sin contar que podría haber existido mala fe de los que vendieron esas propiedades, o blanqueo, u otros delitos. Pero ya no me quiero meter en ese tema que desconozco profundamente. En todo caso, es triste que se publique en portada un artículo firmado por un matemático con semejante error de fondo relatado en casi todos los libros de “malas estadísticas” en temas legales y judiciales.

Moraleja: No es lo mismo analizar probabilidades de juegos perfectos como tirar dados o jugar a la ruleta que la compleja realidad de la burocracia.

Actualización: En El Mundo también hablan de chapuzas informáticas (vía @malaprensa).

Actualización 2: Un análisis más técnico de los problemas del artículo, P-valores, infantas y tests de hipótesis.