Etiquetas
Hace pocos días escribí sobre nuestra incapacidad de gestionar la aleatoriedad, hoy Cavalleto me dejó el balón botando frente a portería. En su blog escribe sobre el «patrón curioso» de que haya tantos corredores de Fórmula 1 con letras seguidas repetidas en sus apellidos. Comenta que hubo 12 en los últimos dos años, miré en la página de la F1 y veo que este año hay 9 que cumplen esa condición.
Cavalleto sospecha que la probabilidad es de 1 en 100 millones, desde el principió sospeché que sería muchísimo menor, así que me puse a estudiar un poco los números.
Antes de continuar leyendo haz unos cálculos rápidos. ¿Cuál es la probabilidad que una persona tenga un apellido con letras consecutivas repetidas? (pista: el castellano no es el único idioma, ni el predominante en F1, en todo caso el italiano y el inglés) ¿Cuál es la probabilidad que haya un corredor con esas características? ¿y cinco? (pista, la segunda es mucho más probable)
—-
Lo primero que hay que averiguar era el porcentaje de apellidos con letras consecutivas repetidas. Para simplificar mucho el trabajo sólo busqué los más comunes en los países con más representantes en la F1. Aunque no es completa y tiene desvíos importantes serviría para hacer una aproximación, que aunque basta puede confirmar lo malo que somos para evaluar las probabilidades.
[*] Por ejemplo los apellidos italianos de la brasileros es mucho más alto que la media brasilera, supongo que influye mucho la ciudad de orígen, o que sean los de familia italiana los más aficionados a los coches (al menos mucho más que los de apellidos originarios de Portugal)
Las listas de los apellidos más comunes las obtuve de la Wikipedia, Familypedia, y Behindthename. El resumen de las probabilidades de algunos países es el siguiente:
- España: 10% (4 de 40)
- Alemania: 20% (2 de 10)
- Italia: 35% (7 de 20)
- Brasil: 15% (25 de 168)
- Finlandia: 10% (1 de 10)
Se puede ver que varía entre Italia que es el más alto a España o Finlandia que son los más bajos. Para aproximar asumí que los valores razonables estarían entre el 20 y el 30%. Estas son las probabilidades para cada una de ellas, la columna de la izquierda representa el número de corredores con el «apellido raro» y la segunda la probabilidad porcentual):
Para el 20%:
0 | 0.5% |
1 | 2.8% |
2 | 8.1% |
3 | 14.9% |
4 | 19.6% |
5 | 19.6% |
6 | 15.6% |
7 | 10.0% |
8 | 5.3% |
9 | 2.3% |
10 | 0.9% |
11 | 0.3% |
12 | 0.1% |
13 | 0.0% |
14 | 0.0% |
15 | 0.0% |
17 | 0.0% |
Para el 30%
0 | 0.0% |
1 | 0.1% |
2 | 0.4% |
3 | 1.5% |
4 | 3.9% |
5 | 7.9% |
6 | 12.5% |
7 | 16.1% |
8 | 17.1% |
9 | 15.1% |
10 | 11.4% |
11 | 7.2% |
12 | 4.0% |
13 | 1.8% |
14 | 0.7% |
15 | 0.2% |
16 | 0.1% |
17 | 0.0% |
18 | 0.0% |
19 | 0.0% |
Nota: los «0.0%» no son ceros, es cuestión de precisión y redondeo, por ejemplo el último (19) de la última tabla es 0.0006%.
Es decir, las probabilidades de tener 9 corredores de 24 con apellidos con letras consecutivas repetidas está entre el 2.3 y el 15.1% (partiendo de probabilidades entre 20 y 30%). Ya se ve, muchísimas más bajas que 1 en 100 millones.
Por otro lado también es interesante analizar cada cuantos años se debe dar esta coincidencia en la F1. También es muy fácil de comprobarlo: varía entre 6.44 años de media (con 6 de desviación estándar [**]) en el caso del 30% y en 40.44 años (con desviación estándar de 42 años [**]) en el caso del 20%. Dado que la F1 se corre desde hace 60 años, en el peor de los casos analizados (con el 20%) había el 68% de probabilidades que se presentase este «patrón raro» de 9 corredores.
Pues eso, que de raro en realidad no tiene nada (aunque no miré el historial de años anteriores).
[**] En mis simulaciones, ver el Teorema del Límite Central.
Macho, y ahora que me toca decir a mi? Pues que chapeau, que me quito el sombrero y te agradezco que te hayas currado estas estadísticas.
Pero creo que en tu caso hablas de probabilidades, yo me centraba más en las «posibilidades». En ese caso juegan otras variables que no las tienes en cuenta, no?
Como el hecho de que no toda la población tiene las mismas oportunidades de llegar a ser piloto de F1.
Que entre los muchos o pocos soñadores que aspiren a conducir un monoplaza, no siempre se repartirá en la misma proporción los que tienen apellidos con letras repetidas.
Asumes que los brasileños son más aficionados al motor por tener ascendencia italiana. Vaya, esa ha sido buena, casi me la cuelas.
Por tanto sigo manteniendo el 1 de cada 100 millones. En tu caso usaste toda la población como si todos tuvieran el mismo interés o las mismas posibilidades de llegar a ser piloto.
Y si tienes en cuenta que las mujeres casi tienen vetado el acceso, no reduce eso la posibilidad? O que la población aspirante debe reducirse a la franja de los 18-20 años?
Qué, me escapo o no me escapo?
Pingback: El misterio de las letras dobles en los apellidos de pilotos de F1 | SoyPlastic
@cavalleto
Yo calculé probabilidades.
Sobre las otras variables que no tomo en cuenta, se supone que los apellidos son idependientes de las posibilidades de llegar a ser piloto. Salvo que parece los italianos tienen más afinidad (lo que haría aumentar aún más las probabilidades que muestro aquí).
Sobre los barileros-italianos, sólo digo que no coincide la media brasilera de apellidos italianos con la de los corredores, lo que indica que hay una influencia externa, pero en todo caso haría subir aún más la probabilidades si es así (mira que Italia tiene el mayor porcentaje de apellidos con doble letras).
Sobre el interés, te repito, en principio son independientes y por eso calculé entre el 20 y el 30% (no el 35 de los italianos). Sospecho que si se analizan los apellidos con más detalle estarán en ese rango.
Sobre las mujeres, no tiene nada que ver, en principio porque tienen los mismos apellidos, porque no estamos analizando el porcentaje de mujeres/hombre, sólo el apellido de los que hay y sus combinatorias.
> Qué, me escapo o no me escapo?
Te escapas, las cosas que planteas son independientes. Lo que no es independiente es la influencia de países, Italia, UK y Alemania tienen muchos más representantes. Pero ese es otro problema diferente e independiente.
Saludos otra cosa curiosa y saludabel sobre probabilidades y estadística …
Algún comentario:
-Bueno .. los cálculos parecen correctos. Pero creo que se podría también rehacer para la probibilidad de que hayan al menos 9 (1-probabilidad de que hayan 8 omenos) corredores con apellidos raros.
-El hecho de que hayan exactamente nueve es más raro de que encontremos al menos nueve apellidos raros.
-Por ejemplo si quiero saber si un supuesto vidente lo es, le puedo proponer adivinar el valor de 10 cartas de una baraja. Si el adivina x de las diez me preguntaré ¿cuál es la probabilidad de adivinar al menos x?
– Así, en el caso de los apellidos, para coindicencias del 20% con 24 corredores se tiene que la Pr(apellidos raros >8)=0.0362 y el número de años es 1/0.0362=27.62431 años….Se reduce en aproximadamente 1/3
Vaya post para amantes de los numeros, me ha parecido muy curioso el analisis. Parten de unos postulados correctos aunque puede que deriven en pequeños margen de error. Felicidades 🙂
Solo anoto unas cositas sobre este punto:
> Sobre los barileros-italianos, sólo digo que no
> coincide la media brasilera de apellidos italianos
> con la de los corredores, lo que indica que hay una
> influencia externa, pero en todo caso haría subir
> aún más la probabilidades si es así (mira que
> Italia tiene el mayor porcentaje de apellidos con
> doble letras).
Dos influencias sociales explican porque hay mas corredores brasileños con apellido italiano que apellidos italianos en el promedio de la populación brasileña:
1) Riqueza
Los descendentes de italianos en Brasil no son distribuidos uniformemente en todas las clases sociales, pero tienden a ocupar las clases mas ricas de la sociedad. Esto es un hecho. Porque? Bueno, puedes ser porque los italianos emigraron mas al sur y allí hay mas riqueza, porque los italianos son mas agresivos / competitivos de la media de los inmigrantes a Brasil .. aquí ya entramos en la sociología y en discusiones pocos simpaticas 😉
2) Grandes ciudades del Sur
Los descendentes de italiano en Brasil no son distribuidos geograficamente de forma homogénea, son muy muy concentrados en las grandes ciudades de 4 estados: Sao Paulo y los tres Estados del Sur. Porque? Porque la emigracion italiana a diferencia de la alemana, por ejemplo, fue historicamente mas urbana.
Ahora, hay una correlación clara entre poder pilotar y ser de familia con dinero (riqueza) y poder pilotar y vivir en una ciudad rica y grande suficiente para tener un autodromo (grandes ciudades del Sur Este y Sur de Brasil).
Por eso, entre los pilotos brasileños hay mucho mas descendentes de italianos que en la media de la populación brasileña.
Finalmente, hay un ultimo efecto típico de la inmigración italiana en Brasil: muchos apellidos italianos perdieron las dobles llegando a Brasil. Por eso si se analiza la incidencia de apellidos con dobles consonantes en Brasil, se sub estima la aportación italiana.
Saludos!
Me se corto’ la primera frase:
Ricardo, divertida y perfecta análisis !!!
Un gran calculo, pero, esto puede ser aplicado para algo que realmente sea productivo?
Ser italiano tampoco te vincula tanto al mundo del motor.. si acaso tienen escuderias famosas pero no seria mas normal pensar que ese % elevado se enfocarian mas en el futbol… de hecho no hay tantos pilotos italianos de renombre.