Etiquetas

,

Últimamente se habla mucho de Big Data, incluso ha parido o ayudado a crear el hype del 2013: Periodismo de datos. El tema no es nada nuevo, las grandes corporaciones llevan décadas haciendo este tipo de análisis, también conocidos como “minería de datos”, o “análisis prospectivos”.  En Wall Street eran famosos los complejisimos “análisis de las 4:15”, los informes de exposición de riesgo (basados en el modelo VaR, Value at Risk) que hacían los “analistas de cuantificación” para los CEOs y directivos de bancos y financieras 15 minutos después que cerraban los mercados y que se basaban en evolución de valores en los últimos 20 años (este modelo es uno de los principales culpables de la crisis de 2008, al crear una confianza irreal a inexistente, sin tomar en cuenta los riesgos reales del “1% restante” del 99% de fiabilidad que aseguraba el modelo VaR).

En los últimos años se ha popularizado el Big Data, tenemos más datos accesibles, es más fácil obtenerlos, y además es mucho más fácil y barato disponer  del procesamiento de cálculo necesario. El problema con el Big Data es que es muy difícil separar ruido de la señal, y se pueden encontrar correlaciones con casi cualquier ruido si no se es muy cuidadoso.

Vamos a un ejemplo concreto. Supongamos que solo tenemos los siguientes datos de evolución de alguna medida económica o social de los últimos 40 años (muchos estudios sólo usan los últimos 20 años):

da7_5

Variables 1 a 5

Esos datos no dicen mucho, de hecho si se usan herramientas estadísticas de correlación, no se encontrará casi nada.

Ahora supongamos que en vez de cinco variables, tenemos a disposición mil variables, ¡eso ya parece Big Data!:

da7_1000

Las 1000 variables

Con esos datos se podrían obtener correlaciones entre las variables usando algoritmos como Pearson, por ejemplo. Obtendríamos información interesante, por ejemplo que hay un par de variables que tienen una alta correlación positiva (es decir, crecen o decrecen conjuntamente):

da7_corr_2

Variables 30 y 132, correlación de Pearson: 0.66

Esto no puede ser casualidad, ¿no? Hay una correlación muy clara entre ellas. Si se analiza un poco más encontraríamos varios pares de variables con una evolución muy similar. Incluso podríamos encontrar variables con correlación negativa:

da7_corr_1

Variables 49 y 570, correlación de Pearson: -0.64

Muy bonito, los algoritmos y herramientas (incluso las hojas de cálculo) detectarán esas correlaciones y podemos empezar a descubrir cosas interesantes que antes no sabíamos.

Pero hay un gran problema. Esas 1000 variables con 40 valores cada una son puro ruido. Las generé con un programa, con números pseudoaleatorios,  independientes unos de otros en la misma secuencia (cada una con una media aleatoria y con distribución normal), y a su vez independientemente de los valores generados para las diferentes secuencias (los datos usados). Si en vez de 40 valores (o “años”) hubiese usado sólo 20, las correlaciones encontradas serían aún mayor.

En estos casos sólo el sentido común -educado- puede descartar correlaciones casuales. Aún peor, cuando hay mucha cantidad de datos es muy difícil separar el ruido de la señal. Cada día veremos más gráficos y análisis de este tipo, totalmente inservibles y que en algunos casos podrían llevar a generar medidas o políticas desastrosas si no se analizan con cuidado.

Nuestra sociedad es muy compleja, se generan muchísimos datos, pero la mayoría de ellos son ruido o basura (como dicen los estadísticos, garbage in, garbage out, de datos basura sólo se obtienen estadísticas basura). Además, como explica Taleb, la utilización de estos análisis tan complejos harán que nuestra sociedad sea aún más compleja, por lo que quizás nunca llegaremos a comprender del todo cómo funcionamos.

Así que alerta, hay que ser muy cuidadosos al hacer análisis, y escépticos para no creerse esos estudios de Big Data que se popularizan cada vez más. No es tan fácil como saber usar un programa de estadística u hoja de cálculo, se requiere mucha habilidad y conocimientos estadísticos para estar mínimamente seguros que no se genera información basura.

Sólo eso, cuando veas gráficos bonitos de correlación, sé escéptico, en realidad con más datos disponibles, la probabilidad de encontrar correlaciones (pero sin relación alguna) es mayor.