Etiquetas
Hoy acabé de leer The Drunkard’s Walk: How Randomness Rules Our Lives (libro duro en algunas partes, pero muy bueno), uno de los temas que toca el libro es la Ley de Benford. Ésta aparece en determinadas series resultado de operaciones acumulativas (especialmente los datos financieros), los primeros dígitos de los números resultates no siguen una distribución uniforme.
La distribución es aproximadamente la siguiente para números de base 10:
d | p |
1 | 30.10% |
2 | 17.60% |
3 | 12.50% |
4 | 9.70% |
5 | 7.90% |
6 | 6.70% |
7 | 5.80% |
8 | 5.10% |
9 | 4.60% |
La gráfica (de la Wikipedia) queda:
Lo interesante de esta ley es que se usa para auditorías financieras e incluso es admisible como prueba en casis criminales en EEUU. Se basa en que los «balances» financieros (o evolución de precios de la bolsa, subastas en eBay, incluso número de enlaces en Delicious) deben seguir esta ley, pero cuando se estafa manipulando los resultados se tiende a poner números aleatorios. Un ejemplo muy mencionado es que se usó para detectar el fraude de un emprendedor, Kevin Lawrence, que se gastó fraudulentamente 91 millones de dólares de sus inversores, también se la mencionó como evidencia de fraude es las lecciones de Irán en 2009, y la usaron para analizar las declaraciones de renta de Clinton (que las pasó correctamente).
Como me llamó la atención, me pregunté si el karma del Menéame seguiría la Ley de Benford. Si fuese así la usaría como evidencia que no hay fraude (y si no me callaría la boca :roll:).
Claramente no podía usar el karma de las noticias publicadas, ya que el karma de publicación es aproximadamente el mismo para todas (más o menos 500-550 de media) y éste se deja de incrementar una vez se publicó. Así que lo hice con todas las noticias que quedaron en pendientes.
La tabla resultante es la siguiente (nota: hay algunos ceros, en los primeros meses no se insertaba el voto del autor automáticamente, y otras que con la suma de positivos y negativos quedan en cero):
d | Total | p |
---|---|---|
0 | 4070 | 0.7 |
1 | 178254 | 32 |
2 | 95631 | 17.2 |
3 | 60085 | 10.8 |
4 | 47170 | 8.5 |
5 | 40710 | 7.3 |
6 | 38589 | 6.9 |
7 | 34191 | 6.1 |
8 | 30738 | 5.5 |
9 | 27251 | 4.9 |
Cumple casi a la perfección con la Ley de Benford ideal:
Me ha gustado mucho el planteamiento. Felicitarle por su blog.
Bueno, eso sólo demuestra que no hay fraude en el cálculo del karma, pero, anda, a ver si eres capaz de demostrar matemáticamente que no hay «mafia» 😛
Ricardo:
Muy interesante, pero con total sinceridad…me perdí. 🙂
Yo lo único que interpreto de tu entrada es que el sistema de atribución de karma para una noticia publicada en portada es correcto…bien. ¿ Pero un algoritmo matemático perfecto puede contradecir a otro igualmente perfecto ?
( Soy de letras pero dudo siempre )
A mi particularmente lo que me preocupa es si «La condición humana» es realmente algorítmica…francamente no lo `puedo demostrar, pero mi intuición y mi experiencia personal me indica que no.
En cualquier caso, yo aprendo cosas…buena entrada.
Muy interesante artículo. El disponer de la base de datos histórica de menéame debe ser la leche. Se me hace la boca agua de los estudios que se podrían hacer con ella.
Me parece curioso y sorprendente, aunque lamentablemente no entiendo el por qué. Intuitivamente debería ser una distribución uniforme.
¿ocurre lo mismo con la lotería? Es broma, aquí si debería ser uniforme, pues sino el fraude está claro.
Respecti al libro «El andar del borracho» es recomendable para gente que no tiene ni idea de estadística y/o de lo que significan los valores aceptables de probabilidad y lo ligados que están a la aleatoriedad.
Es algo didáctico, pero en mi opinión acaba siendo un recopilatorio de anécdotas sobre estadística que a la larga no acaba de ser del todo ameno…
Respecto al de «letras», estoy de acuerdo: los instintos son algorítmicos, pero cuanto más nos pensamos una reacción más impredecible puede ser («yo soy yo y mis circunstancias» y mis circunstancias suelen ser aleatorias si las comparamos con las de los demas). Conclusión: somos semi-predecibles…
Muy interesante. Hasta donde se Hacienda Española también utiliza la Ley de Benford para priorizar que empresas investiga primero.
Sino recuerdo mal, los ceros no cuentan, para el momento de sacar el porcentage sobre el total. Para mostrarlo gráficamente puedes hacer una ameba de 9 patas donde cada pata sea la desviación respecto de la Ley
Interesante seria hacer esto para todos los usuarios, respecto el karma de sus comentarios. ¿Que patrones saldrian? ¿Podríamos ver a los graciosos? ¿o los trolls?
Muy interesante el artículo.
Pero eso sólo demuestra que de existir manipulación habría sido por alguien conocedor de la ley de Benford. O que las manipulaciones no son significativas frente al gran volumen de publicaciones.
Es decir, que si no se hubiera pasado la prueba habría indicios de manipulación. Pero en caso contrario no nos demuestra nada.
Dicho esto aclarar que no creo que exista manipulación.
Creo poder contestarte Miguel, en el juego de la lotería los números se extraen al azar y deberían ajustarse a una distribución uniforme. Intuitivamente la Ley Benford podría resumirse así:
1. La mayoría de los números que utilizamos forman parte de series que cuentan u ordenan.
2. En estas series se empieza normalmente por el 1.
3. Los siguientes números pueden aparecer o no, cuanto más altos menor será la probabilidad de que lo hagan.
Por ejemplo los tres puntos numerados que acabo de exponer son a mayor gloria de la Ley Benford. Observa también que es una ley (empírica) no un teorema.
Señor Galli, le felicito por su trayectoria personal y por cosas como menéame pero quisiera hacer la siguiente reflexión: aunque leo menéame desde sus comienzos jamás he estado «afiliado» ni he hecho comentarios, aunque algunas veces me haya costado aguantarme. Hoy en día uso más G-Reader que menéame que ha cambiado mucho con los años. En general, creo que la inteligencia de los comentarios ha decaído y cada vez hay más flames.
Jamás entendí por qué había que registrarse y no se podía comentar con la misma facilidad que en este blog por ejemplo.
Un saludo y gracias por lo que nos ha regalado.
Pingback: El carisma y la Ley de Benford | Jonéame
¿ Qué programa o librería usas para hacer los gràficos ? es que yo uso Gnuplot pero me gustan mas estos para los de barras
Mira esto con R:
> digits Absolute.freq.meneame probs.benford data
> chisq.test(Absolute.freq.meneame ,p=probs.benford )
Chi-squared test for given probabilities
data: Absolute.freq.meneame
X-squared = 3594.825, df = 8, p-value < 2.2e-16
Quitando los ceros …. lo siento, los dígitos del karma no siguen una ley uniforme, pero TAMPOCO siguen la ley Benford p-value < 2.2e-16.
Las gráficas engañana …. 🙂
@ricardo A.
Con una muestra relativamente pequeña, y con tan pocos dígitos (tres como máximo) y no superan 400, claro que el p-value te dará tan bajo comparado con la Benford ideal.
En las elecciones iranías, con una muestra gigantesca (y con más dígitos), les salió un 7e-3
Pingback: Top Posts — WordPress.com
Uff. Es un poco peligroso utilizar como evidencia ante un tribunal algo así.
Bueno, aunque se pudiera decir que no hay «fraude» en las noticias pendientes y no publicadas (que no se podría), sería interesante poder hacer este cálculo en las noticias publicadas, aunque el resultado tampoco sería relevante.