Inicio > ciencia, menéame, pijadas > El karma y la Ley de Benford

El karma y la Ley de Benford

abril 25, 2010

Hoy acabé de leer The Drunkard’s Walk: How Randomness Rules Our Lives (libro duro en algunas partes, pero muy bueno), uno de los temas que toca el libro es la Ley de Benford. Ésta aparece en determinadas series resultado de operaciones acumulativas (especialmente los datos financieros), los primeros dígitos de los números resultates no siguen una distribución uniforme.

La distribución es aproximadamente la siguiente para números de base 10:

d p
1 30.10%
2 17.60%
3 12.50%
4 9.70%
5 7.90%
6 6.70%
7 5.80%
8 5.10%
9 4.60%

La gráfica (de la Wikipedia) queda:

Lo interesante de esta ley es que se usa para auditorías financieras e incluso es admisible como prueba en casis criminales en EEUU. Se basa en que los “balances” financieros (o evolución de precios de la bolsa, subastas en eBayincluso número de enlaces en Delicious) deben seguir esta ley, pero cuando se estafa manipulando los resultados se tiende a poner números aleatorios. Un ejemplo muy mencionado es que se usó para detectar el fraude de un emprendedor, Kevin Lawrence, que se gastó fraudulentamente 91 millones de dólares de sus inversores, también se la mencionó como evidencia de fraude es las lecciones de Irán en 2009, y la usaron para analizar las declaraciones de renta de Clinton (que las pasó correctamente).

Como me llamó la atención, me pregunté si el karma del Menéame seguiría la Ley de Benford. Si fuese así la usaría como evidencia que no hay fraude (y si no me callaría la boca :roll: ).

Claramente no podía usar el karma de las noticias publicadas, ya que el karma de publicación es aproximadamente el mismo para todas (más o menos 500-550 de media) y éste se deja de incrementar una vez se publicó. Así que lo hice con todas las noticias que quedaron en pendientes.

La tabla resultante es la siguiente (nota: hay algunos ceros, en los primeros meses no se insertaba el voto del autor automáticamente, y otras que con la suma de positivos y negativos quedan en cero):

d Total p
0 4070 0.7
1 178254 32
2 95631 17.2
3 60085 10.8
4 47170 8.5
5 40710 7.3
6 38589 6.9
7 34191 6.1
8 30738 5.5
9 27251 4.9

Cumple casi a la perfección con la Ley de Benford ideal:

Categorías:ciencia, menéame, pijadas Etiquetas: ,
  1. abril 25, 2010 a las 2:16 am | #1

    Me ha gustado mucho el planteamiento. Felicitarle por su blog.

  2. extrema-hora
    abril 25, 2010 a las 3:05 am | #2

    Bueno, eso sólo demuestra que no hay fraude en el cálculo del karma, pero, anda, a ver si eres capaz de demostrar matemáticamente que no hay “mafia” :P

  3. abril 25, 2010 a las 8:10 am | #3

    Ricardo:

    Muy interesante, pero con total sinceridad…me perdí. :-)

    Yo lo único que interpreto de tu entrada es que el sistema de atribución de karma para una noticia publicada en portada es correcto…bien. ¿ Pero un algoritmo matemático perfecto puede contradecir a otro igualmente perfecto ?

    ( Soy de letras pero dudo siempre )

    A mi particularmente lo que me preocupa es si “La condición humana” es realmente algorítmica…francamente no lo `puedo demostrar, pero mi intuición y mi experiencia personal me indica que no.

    En cualquier caso, yo aprendo cosas…buena entrada.

  4. abril 25, 2010 a las 10:43 am | #4

    Muy interesante artículo. El disponer de la base de datos histórica de menéame debe ser la leche. Se me hace la boca agua de los estudios que se podrían hacer con ella.

  5. Miguel
    abril 25, 2010 a las 10:48 am | #5

    Me parece curioso y sorprendente, aunque lamentablemente no entiendo el por qué. Intuitivamente debería ser una distribución uniforme.

    ¿ocurre lo mismo con la lotería? Es broma, aquí si debería ser uniforme, pues sino el fraude está claro.

  6. Nacho Serrahima
    abril 25, 2010 a las 12:40 pm | #6

    Respecti al libro “El andar del borracho” es recomendable para gente que no tiene ni idea de estadística y/o de lo que significan los valores aceptables de probabilidad y lo ligados que están a la aleatoriedad.

    Es algo didáctico, pero en mi opinión acaba siendo un recopilatorio de anécdotas sobre estadística que a la larga no acaba de ser del todo ameno…

    Respecto al de “letras”, estoy de acuerdo: los instintos son algorítmicos, pero cuanto más nos pensamos una reacción más impredecible puede ser (“yo soy yo y mis circunstancias” y mis circunstancias suelen ser aleatorias si las comparamos con las de los demas). Conclusión: somos semi-predecibles…

  7. HARKi
    abril 25, 2010 a las 1:00 pm | #7

    Muy interesante. Hasta donde se Hacienda Española también utiliza la Ley de Benford para priorizar que empresas investiga primero.

    Sino recuerdo mal, los ceros no cuentan, para el momento de sacar el porcentage sobre el total. Para mostrarlo gráficamente puedes hacer una ameba de 9 patas donde cada pata sea la desviación respecto de la Ley

    Interesante seria hacer esto para todos los usuarios, respecto el karma de sus comentarios. ¿Que patrones saldrian? ¿Podríamos ver a los graciosos? ¿o los trolls?

  8. Roberto
    abril 25, 2010 a las 1:33 pm | #8

    Muy interesante el artículo.

    Pero eso sólo demuestra que de existir manipulación habría sido por alguien conocedor de la ley de Benford. O que las manipulaciones no son significativas frente al gran volumen de publicaciones.

    Es decir, que si no se hubiera pasado la prueba habría indicios de manipulación. Pero en caso contrario no nos demuestra nada.

    Dicho esto aclarar que no creo que exista manipulación.

  9. javier fuentes
    abril 25, 2010 a las 3:30 pm | #9

    Creo poder contestarte Miguel, en el juego de la lotería los números se extraen al azar y deberían ajustarse a una distribución uniforme. Intuitivamente la Ley Benford podría resumirse así:
    1. La mayoría de los números que utilizamos forman parte de series que cuentan u ordenan.
    2. En estas series se empieza normalmente por el 1.
    3. Los siguientes números pueden aparecer o no, cuanto más altos menor será la probabilidad de que lo hagan.

    Por ejemplo los tres puntos numerados que acabo de exponer son a mayor gloria de la Ley Benford. Observa también que es una ley (empírica) no un teorema.

    Señor Galli, le felicito por su trayectoria personal y por cosas como menéame pero quisiera hacer la siguiente reflexión: aunque leo menéame desde sus comienzos jamás he estado “afiliado” ni he hecho comentarios, aunque algunas veces me haya costado aguantarme. Hoy en día uso más G-Reader que menéame que ha cambiado mucho con los años. En general, creo que la inteligencia de los comentarios ha decaído y cada vez hay más flames.

    Jamás entendí por qué había que registrarse y no se podía comentar con la misma facilidad que en este blog por ejemplo.

    Un saludo y gracias por lo que nos ha regalado.

  10. Fernandito
    abril 25, 2010 a las 6:01 pm | #10

    ¿ Qué programa o librería usas para hacer los gràficos ? es que yo uso Gnuplot pero me gustan mas estos para los de barras

  11. Ricardo A.
    abril 25, 2010 a las 6:22 pm | #11

    Mira esto con R:

    > digits Absolute.freq.meneame probs.benford data
    > chisq.test(Absolute.freq.meneame ,p=probs.benford )

    Chi-squared test for given probabilities

    data: Absolute.freq.meneame
    X-squared = 3594.825, df = 8, p-value < 2.2e-16

    Quitando los ceros …. lo siento, los dígitos del karma no siguen una ley uniforme, pero TAMPOCO siguen la ley Benford p-value < 2.2e-16.

    Las gráficas engañana …. :-)

  12. abril 25, 2010 a las 7:51 pm | #12

    @ricardo A.

    Con una muestra relativamente pequeña, y con tan pocos dígitos (tres como máximo) y no superan 400, claro que el p-value te dará tan bajo comparado con la Benford ideal.

    En las elecciones iranías, con una muestra gigantesca (y con más dígitos), les salió un 7e-3

  13. abril 26, 2010 a las 8:51 am | #13

    Uff. Es un poco peligroso utilizar como evidencia ante un tribunal algo así.

  14. uyate
    abril 26, 2010 a las 12:08 pm | #14

    Bueno, aunque se pudiera decir que no hay “fraude” en las noticias pendientes y no publicadas (que no se podría), sería interesante poder hacer este cálculo en las noticias publicadas, aunque el resultado tampoco sería relevante.

Los comentarios están cerrados.
Seguir

Get every new post delivered to your Inbox.

Únete a otros 600 seguidores