• Del autor
  • Principios y algoritmos de concurrencia

Ricardo Galli, de software

~ De software libre, internet, legales

Ricardo Galli, de software

Archivos de etiqueta: big data

Cuidado con el Big Data II

07 viernes Jun 2013

Posted by gallir in ciencia, cultura, internet

≈ 6 comentarios

Etiquetas

big data, causación, correlaciones

Hace unos días publiqué Sé cuidadoso con el “Big Data”. Hace un par de horas descubrí Beware the Big Errors of ‘Big Data’. Prometo que no lo había leído, ni sabía de su existencia, pero sí había todos los libros de su autor Nicholas Taleb. En particular Antifragile, su último libro donde habla bastante de los problemas del ruido en el «Big Data».

Lo interesante es que en el artículo en Wired dice:

This is not all bad news though: If such studies cannot be used to confirm, they can be effectively used to debunk — to tell us what’s wrong with a theory, not whether a theory is right.

Dice que al análisis de big data no sirve (o no debería) servir para confirmar teorías, pero sí que sirve para desenmascarar las falsas.

Ayer por la mañana leí, vía Menéame, Correlación, causalidad… y grafos: lo más fundamental (e ignorado) en estadística, donde justamente explican el caso del artículo que demuestra que hay una correlación entre el número de tiendas IKEA y el número de Premios Nobel de cada país, para mostrar la falsedad del estudio que asguró (y fue muy publicitado) que el mayor consumo de chocolate ayuda a tener más premios Nobel (¡sí!, eso decía).

Correlación entre número de tiendas IKEA y Premios Nobel

 

Sé cuidadoso con el «Big Data»

29 miércoles May 2013

Posted by gallir in ciencia

≈ 18 comentarios

Etiquetas

big data, problemas

Últimamente se habla mucho de Big Data, incluso ha parido o ayudado a crear el hype del 2013: Periodismo de datos. El tema no es nada nuevo, las grandes corporaciones llevan décadas haciendo este tipo de análisis, también conocidos como «minería de datos», o «análisis prospectivos».  En Wall Street eran famosos los complejisimos «análisis de las 4:15», los informes de exposición de riesgo (basados en el modelo VaR, Value at Risk) que hacían los «analistas de cuantificación» para los CEOs y directivos de bancos y financieras 15 minutos después que cerraban los mercados y que se basaban en evolución de valores en los últimos 20 años (este modelo es uno de los principales culpables de la crisis de 2008, al crear una confianza irreal a inexistente, sin tomar en cuenta los riesgos reales del «1% restante» del 99% de fiabilidad que aseguraba el modelo VaR).

En los últimos años se ha popularizado el Big Data, tenemos más datos accesibles, es más fácil obtenerlos, y además es mucho más fácil y barato disponer  del procesamiento de cálculo necesario. El problema con el Big Data es que es muy difícil separar ruido de la señal, y se pueden encontrar correlaciones con casi cualquier ruido si no se es muy cuidadoso.

Vamos a un ejemplo concreto. Supongamos que solo tenemos los siguientes datos de evolución de alguna medida económica o social de los últimos 40 años (muchos estudios sólo usan los últimos 20 años):

da7_5

Variables 1 a 5

Esos datos no dicen mucho, de hecho si se usan herramientas estadísticas de correlación, no se encontrará casi nada.

Ahora supongamos que en vez de cinco variables, tenemos a disposición mil variables, ¡eso ya parece Big Data!:

da7_1000

Las 1000 variables

Con esos datos se podrían obtener correlaciones entre las variables usando algoritmos como Pearson, por ejemplo. Obtendríamos información interesante, por ejemplo que hay un par de variables que tienen una alta correlación positiva (es decir, crecen o decrecen conjuntamente):

da7_corr_2

Variables 30 y 132, correlación de Pearson: 0.66

Esto no puede ser casualidad, ¿no? Hay una correlación muy clara entre ellas. Si se analiza un poco más encontraríamos varios pares de variables con una evolución muy similar. Incluso podríamos encontrar variables con correlación negativa:

da7_corr_1

Variables 49 y 570, correlación de Pearson: -0.64

Muy bonito, los algoritmos y herramientas (incluso las hojas de cálculo) detectarán esas correlaciones y podemos empezar a descubrir cosas interesantes que antes no sabíamos.

Pero hay un gran problema. Esas 1000 variables con 40 valores cada una son puro ruido. Las generé con un programa, con números pseudoaleatorios,  independientes unos de otros en la misma secuencia (cada una con una media aleatoria y con distribución normal), y a su vez independientemente de los valores generados para las diferentes secuencias (los datos usados). Si en vez de 40 valores (o «años») hubiese usado sólo 20, las correlaciones encontradas serían aún mayor.

En estos casos sólo el sentido común -educado- puede descartar correlaciones casuales. Aún peor, cuando hay mucha cantidad de datos es muy difícil separar el ruido de la señal. Cada día veremos más gráficos y análisis de este tipo, totalmente inservibles y que en algunos casos podrían llevar a generar medidas o políticas desastrosas si no se analizan con cuidado.

Nuestra sociedad es muy compleja, se generan muchísimos datos, pero la mayoría de ellos son ruido o basura (como dicen los estadísticos, garbage in, garbage out, de datos basura sólo se obtienen estadísticas basura). Además, como explica Taleb, la utilización de estos análisis tan complejos harán que nuestra sociedad sea aún más compleja, por lo que quizás nunca llegaremos a comprender del todo cómo funcionamos.

Así que alerta, hay que ser muy cuidadosos al hacer análisis, y escépticos para no creerse esos estudios de Big Data que se popularizan cada vez más. No es tan fácil como saber usar un programa de estadística u hoja de cálculo, se requiere mucha habilidad y conocimientos estadísticos para estar mínimamente seguros que no se genera información basura.

Sólo eso, cuando veas gráficos bonitos de correlación, sé escéptico, en realidad con más datos disponibles, la probabilidad de encontrar correlaciones (pero sin relación alguna) es mayor.

Comprar el libro

Principios y algoritmos de concurrencia

gallir@twitter

Tuits de gallir

RSS Notas recientes

  • Se ha producido un error; es probable que la fuente esté fuera de servicio. Vuelve a intentarlo más tarde.

Archivos

Comentarios recientes

PM en Cuidado con las «clever soluti…
Me matan si no traba… en Cuando el periodismo cede el c…
surco en Cuando el periodismo cede el c…
pancho pérez (@lonch… en Cuando el periodismo cede el c…
Fernando en Cuando el periodismo cede el c…
@beoxman en Cuando el periodismo cede el c…
gallir en Cuando el periodismo cede el c…
Jan Smite en Cuando el periodismo cede el c…
Alejandro en Cuando el periodismo cede el c…
Galletor en Cuando el periodismo cede el c…

Meta

  • Registro
  • Iniciar sesión
  • Feed de entradas
  • Feed de comentarios
  • WordPress.com

Licencia

Creative Commons License
Esta obra está bajo una licencia de Creative Commons.

Crea un blog o un sitio web gratuitos con WordPress.com.

  • Seguir Siguiendo
    • Ricardo Galli, de software
    • Únete a 667 seguidores más
    • ¿Ya tienes una cuenta de WordPress.com? Inicia sesión.
    • Ricardo Galli, de software
    • Personalizar
    • Seguir Siguiendo
    • Regístrate
    • Iniciar sesión
    • Denunciar este contenido
    • Ver sitio web en el Lector
    • Gestionar las suscripciones
    • Contraer esta barra
 

Cargando comentarios...