Últimamente se habla mucho de Big Data, incluso ha parido o ayudado a crear el hype del 2013: Periodismo de datos. El tema no es nada nuevo, las grandes corporaciones llevan décadas haciendo este tipo de análisis, también conocidos como «minería de datos», o «análisis prospectivos». En Wall Street eran famosos los complejisimos «análisis de las 4:15», los informes de exposición de riesgo (basados en el modelo VaR, Value at Risk) que hacían los «analistas de cuantificación» para los CEOs y directivos de bancos y financieras 15 minutos después que cerraban los mercados y que se basaban en evolución de valores en los últimos 20 años (este modelo es uno de los principales culpables de la crisis de 2008, al crear una confianza irreal a inexistente, sin tomar en cuenta los riesgos reales del «1% restante» del 99% de fiabilidad que aseguraba el modelo VaR).
En los últimos años se ha popularizado el Big Data, tenemos más datos accesibles, es más fácil obtenerlos, y además es mucho más fácil y barato disponer del procesamiento de cálculo necesario. El problema con el Big Data es que es muy difícil separar ruido de la señal, y se pueden encontrar correlaciones con casi cualquier ruido si no se es muy cuidadoso.
Vamos a un ejemplo concreto. Supongamos que solo tenemos los siguientes datos de evolución de alguna medida económica o social de los últimos 40 años (muchos estudios sólo usan los últimos 20 años):
Esos datos no dicen mucho, de hecho si se usan herramientas estadísticas de correlación, no se encontrará casi nada.
Ahora supongamos que en vez de cinco variables, tenemos a disposición mil variables, ¡eso ya parece Big Data!:
Con esos datos se podrían obtener correlaciones entre las variables usando algoritmos como Pearson, por ejemplo. Obtendríamos información interesante, por ejemplo que hay un par de variables que tienen una alta correlación positiva (es decir, crecen o decrecen conjuntamente):
Esto no puede ser casualidad, ¿no? Hay una correlación muy clara entre ellas. Si se analiza un poco más encontraríamos varios pares de variables con una evolución muy similar. Incluso podríamos encontrar variables con correlación negativa:
Muy bonito, los algoritmos y herramientas (incluso las hojas de cálculo) detectarán esas correlaciones y podemos empezar a descubrir cosas interesantes que antes no sabíamos.
Pero hay un gran problema. Esas 1000 variables con 40 valores cada una son puro ruido. Las generé con un programa, con números pseudoaleatorios, independientes unos de otros en la misma secuencia (cada una con una media aleatoria y con distribución normal), y a su vez independientemente de los valores generados para las diferentes secuencias (los datos usados). Si en vez de 40 valores (o «años») hubiese usado sólo 20, las correlaciones encontradas serían aún mayor.
En estos casos sólo el sentido común -educado- puede descartar correlaciones casuales. Aún peor, cuando hay mucha cantidad de datos es muy difícil separar el ruido de la señal. Cada día veremos más gráficos y análisis de este tipo, totalmente inservibles y que en algunos casos podrían llevar a generar medidas o políticas desastrosas si no se analizan con cuidado.
Nuestra sociedad es muy compleja, se generan muchísimos datos, pero la mayoría de ellos son ruido o basura (como dicen los estadísticos, garbage in, garbage out, de datos basura sólo se obtienen estadísticas basura). Además, como explica Taleb, la utilización de estos análisis tan complejos harán que nuestra sociedad sea aún más compleja, por lo que quizás nunca llegaremos a comprender del todo cómo funcionamos.
Así que alerta, hay que ser muy cuidadosos al hacer análisis, y escépticos para no creerse esos estudios de Big Data que se popularizan cada vez más. No es tan fácil como saber usar un programa de estadística u hoja de cálculo, se requiere mucha habilidad y conocimientos estadísticos para estar mínimamente seguros que no se genera información basura.
Sólo eso, cuando veas gráficos bonitos de correlación, sé escéptico, en realidad con más datos disponibles, la probabilidad de encontrar correlaciones (pero sin relación alguna) es mayor.
Hoy en día la gente no es capaz ni de dar una desviación (o el tamaño de muestra) cuando da una media ni entiende lo que es un histograma. Tengo colegas en la Universidad de Sevilla que se daban de tortas con la minería de datos hace 15 años ya (usando algoritmos de IA… pero IA de verdad). Para mí, eso sí que es correlación negativa a escala de país.
Por cierto, no sé si los conoces, pero el blog de Datanalytics debería molarte http://www.datanalytics.com/blog/
Pingback: Sé cuidadoso con el “Big Data”
Buen consejo.
Pingback: Sé cuidadoso con el “Big Data”
Perdón por mi ignorancia, creía que había entendido pero al final me despisté…
«Si en vez de 40 valores (o “años”) hubiese usado sólo 20, las correlaciones encontradas serían aún mayor.»
«con más datos disponibles, la probabilidad de encontrar correlaciones (pero sin relación alguna) es mayor.»
Ya me aclaré, tenía que procesarlo más…
Bien, kroko.
Los algoritmos estadísticos (usados correctamente) son bastante más robustos. Una práctica común es separar observaciones en datos de entrenamiento / validación; con los datos de entrenamiento puedes encontrar relaciones espurias del estilo de las de este post, pero la probabilidad de que estas relaciones pasen la validación es muy baja. Dependiendo del problema estadístico, también se pueden corregir (estilo Bonferroni) los umbrales para comparaciones múltiples para minimizar el problema (no eliminar, porque cualquier test estadístico siempre tiene una probabilidad no nula de fallar simplemente por azar).
Una cosa en la que sí estoy de acuerdo con el post es que los modelos estadísticos, por sí solos, sólo describen los datos: hay que tener cuidado al formularlos e interpretarlos para extraer conclusiones válidas (p. ej. a la hora de interpretar los coeficientes de una regresión múltiple en presencia de multicolinealidad, endogeneidad, variables ocultas, etc). Sólo la combinación de teoría con datos produce conocimiento fiable.
Luego el análisis de series temporales ya es un mundo aparte.
De todos es sabido que correlación no es causación. Si en vez de usar datos aleatorios se usaran datos reales se pueden encontrar muchísimos más casos de correlación.

Por ejemplo en el campo del autismo su incremento correlaciona con múltiples cosas como: el mayor uso del ordenador, los móviles, montar en bicicleta por la ciudad o la venta de comida orgánica:
Un caso sonado al respecto es la correlación vacunas-autismo. En este caso no hablamos en un primer momento de datos estadísticos ya que utiliza primigeniamente el principio «Post hoc ergo propter hoc» («después de esto, luego a consecuencia de esto) ya que la administración de la triple vírica coincide más o menos poco antes de obtener un dignóstico de autismo.
El caso es que los proponentes de esta «causación» han usado, para reforzar en esta idea, datos estadísticos correlacionales, como los arriba indicados, jugando además con los datos de población o la amplitud de la muestra en años.
Con «estrategias» así y tal como sabiamente se decía en un tebeo de Astérix «A los números se les hace decir lo que tu quieres».
El caso del autismo es sólo uno de entre los miles de ellos que nos encontramos sobre el uso del big data (política, conspiranoia, economía, etc). Y no hace falta tener una «mente manipuladora» para obtener resultados erróneos. Es suficiente con tener la predisposición en un sentido concreto para que encontremos datos que corroboran nuestras expectativas.
Como dice Potatoffel, con la validación cruzada (Crossvalidation) se resuelven la mayoría de estos problemas.
Para quien quiera profundizar en estos temas le recomiendo el curso de Andrew Ng (https://www.coursera.org/course/ml). Me divertí mucho cuando lo hice.
De ahí el manido mantra correlation don’t imply causation. Es por eso que los data miners tienen que tener un sólido conocimiento de su dominio.
Dejo aquí mi humilde opinión (ya que en cosas parecidas me ha tocado lidiar).
Es un «problema» típico del High-troughput data, que parece que salen descubrimientos por el mero azar. En realidad, no son problemas de la estadísitica, sino que son consecuencia de no aplicar la estadística adecuada. Estoy totalmente de acuerdo con la advertencia de Ricardo. No en vano, en Genómica se llegaron a publicar en la década pasada artículos científicos de muy alto impacto a poco de salir las tecnologías high-thoughput (eg: microarrays), que hacían este tipo de «descubrimientos». Los científicos tuvieron que tirar de los libros viejos de estadística de nuevo.
En primer lugar, se debe evaluar la significancia de cada coeficiente de correlación obtenido (conocido como p-valor). Esto nos dice si un coeficiente de pearson dado a partir de un par de muestras de un tamaño dado es «significativo», o dicho de otra manera, cuál es la probabilidad de que no hubiese correlación. Por eso se buscan p-valores bajos (en general <0.05).
Y luego entra el big-data o high-troughtput, que consiste en la falacia de creer que una comparación individual es significativa tras haber hecho miles de comparaciones. Se suele decir que "si un número infinito de monos teclean en una máquina de escribir, la probabilidad de que uno de ellos escriba el Quijote perfecto tiende a 1". Cuando las comparaciones son muchas (en este caso son 1000*1000 = 1Millón), se deben corregir los p-valores con métodos que precísamente tienen en cuenta en número de hipótesis que ha hecho el científico. Cuantos más palos de ciego, más difícil hacer descubrimientos. Aquí dejo un documento para "no estadísticos (entre los que me encuentro)" que me fue muy útil en su día: http://www.chem.agilent.com/cag/bsp/sig/downloads/pdf/mtc.pdf
Un ejemplo que leí en un libro de estadística: existe una correlación entre el número de cigüeñas y el nacimiento de niños. Por lo que podemos concluir que los niños los traen las cigüeñas.
Este ejemplo me parece más peligroso que la correlación de ruido porque existe una causa común que sin los datos adecuados no se puede separar: a mayor población en una ciudad, más nacimientos de niños, más iglesias, más nidos de cigüeña.
Incluso trabajando con 50-100 años seguirá habiendo una correlación real que permitirá afirmar que los niños los traen las cigüeñas.
Lo bonito del bigdata es que una persona los procese, separe y evalue de forma manual, de otro modo, ciertamente, solo es ruido.
Está claro que el análisis de datos hace mucho tiempo que se realiza, sobretodo por parte de las grandes organizaciones, que al final son las que poseen esos datos. Lo que es novedad a este respecto es que el acceso a datos, es mayor actualmente gracias a las TIC e internet. Pero no tanto al «BigData», como a los de datos que deben publicar administraciones y corporaciones, más conocido como OpenData. Si me permites, Galli, discrepo de la relación que estableces entre el BigData y el periodismo de datos. Efectivamente, para tratar «BigData» hacen falta programas muy específicos y hacer un buen «scrapping» de esa información, cosa que no se encuentra al alcance de cualquiera. Se necesita formación más relacionada con las matemáticas y los sistemas informáticos que de periodismo.
El periodismo de datos no es más que poner en voga una parte de esta disciplina, que tiene sus antecedentes en los artículos que tradicionalmente se escriben en base a información (datos) estadísticos, información agregada, finalmente, en datos que puedan ser «fácilmente» organizados para ser interpretados ( cosa imposible con BigData). Además que encuentro complicado el acceso a BigData por parte de cualquier mortal ya que nisiquiera podemos acceder a la información que originamos a nivel individual. El periodismo de datos está directamente relacionada con la democratización de la información, la cultura y la política.
Saludos.
Big Data es una cosa y minería de datos otra, aunque frecuentemente relacionadas y otras veces completamente opuestas. Big Data lo que busca es desarrollar tecnologías para tratar grandísimas cantidades de datos (petabytes de información) en un tiempo razonable sean del tipo que sean. Muchas veces esos datos se utilizan con fines estadísticos pero otras veces, muy al contrario lo que se busca es deshacerse de las estadística. El ejemplo más claro es la predicción meteorológica. Los modelos estadísticos intentan suplir la carencia de datos. A medida que se adoptan sistemas de «big-data» los modelos *estadísticos* son reemplazados por modelos *deterministas* basados en sistemas que «trocean» la atmósfera y la superficie oceánica en pequeños volúmenes (creo que ahora mismo con 0.5kms cúbicos de precisión). Google utiliza técnicas de big-data para procesar grandes volúmenes, a veces con fines estadísticos (page-rank) y otras con propósitos muy distintos (parsing o «compilación» de páginas web).
Lo interesante del «big-data» precisamente es intentar encontrar mecanismos deterministas aprovechando una inmensa cantidad de datos que sustituyan a los «no siempre tan fiables» mecanismos estadísticos. Por ejemplo, ahora mismo, la evolución del virus de la gripe se hace de forma estadística mientras que con un sistema «big-data» se metería a los 6000 millones de habitantes en una base de datos con su historial clínico, los viajes realizados, las personas con las que ha estado en contacto, su edad, su patrón genético, las condiciones metorológicas … y se simularía de forma precisa cómo va a propagarse el virus, con una posibilidad mínima de error (obviamente esto ahora mismo no es posible porque existen sistemas «big-data» capaces de gestionar los datos, pero los datos en sí mismos no existen, al menos hasta que alguien cree una aplicación para Android e iPhone).
Para big data, un millón de megabytes:
Class of 99
Pingback: Cuidado con el Big Data II | Ricardo Galli, de software libre