Periodismo convencional

marzo 14, 2014 Los comentarios están cerrados

Plenty of pundits have really high IQs, but they don’t have any discipline in how they look at the world, and so it leads to a lot of bullshit, basically [...] We think that’s a weakness of conventional journalism, that you have beautiful English language skills and fewer math skills.

They don’t permit a lot of complexity in their thinking. They pull threads together from very weak evidence and draw grand conclusions based on them.

They’re ironically very predictable from week to week. [...] You can kind of auto-script it, basically.

It’s people who have very strong ideological priors, is the fancy way to put it, that are governing their thinking. They’re not really evaluating the data as it comes in, not doing a lot of [original] thinking. They’re just spitting out the same column every week and using a different subject matter to do the same thing over and over.

[T]he first step in using data is that you have to collect data, you have to organize it, and you have to explain the relationships. Only then, in rare cases, do you feel like you have a good enough understanding to generalize it into predictions about the way the world really works.

En la entrevista a Nate Silver, palabras de él. Muy de acuerdo. Si te pica, es que quizás no lavas tan bien ;)

Categorías:malaprensa, medios Etiquetas: ,

Las instancias m3 de EC2 no son lo que prometen

marzo 13, 2014 4 comentarios

Actualización: sigo estudiando el tema porque es muy raro, si pongo un proceso en bucle no consume el 100% de CPU, sino el 50%. Parece que hay un problema de medición (tanto localmente como lo que mide Amazon CloudWatch). Si descubro algo más lo pondré.

En enero de este año Amazon habilitó el uso general de sus nuevas instancias “m3″ (las originales son m1). Además del almacenamiento SSD, estas instancias tienen -según ellos- más CPU (3 ECU vs 2 ECU de las m1). Para los servidores web de Menéame usamos instancias m1.medium, pero las m3.medium parecían más adecuadas, nos podíamos ahorrar alrededor del 50% del coste. No las cambié inmediatamente porque el espacio disponible en /mnt en las m3 es muy pequeño (sólo 4GB) y allí es donde generábamos los logs del NGInx.

Pero estos días Amazon también empezó a ofrecer almacenar los logs del balanceador de carga (ELB) en S3, por lo que habilté estos y deshabilité los generados por NGInx en las instancias. Así, ya no hacían faltan varias decenas de GB por cada 24 horas de funcionamiento de cada instancia y podíamos pasar a usar las instancias m3 sin ningún otro cambio. Lo hice a partir de las 12 de la noche, tal como es visible en el siguiente gráfico.

Leer más…

Categorías:menéame Etiquetas: , ,

Tendencias (“trends”) históricas del uso de palabras con Sphinx

febrero 13, 2014 4 comentarios

Hace unos días quise saber desde cuándo se empezó a hablar de desahucios y suicidios en la prensa en España. Fui a Google Trends y el gráfico mostraba una evolución demasiada plana, que no se correspondía con tantas noticias que leímos en la prensa española. Me pregunté si, y cómo, podía obtener esas estadísticas en Menéame. Se me ocurrió que debería haber un truco relativamente sencillo usando los índices de de búsqueda de Sphinx (lo usamos para el buscador de Menéame). Así fue que en pocas horas pude implementar un sistema similar a Google Trends en Menéame.

Esto es lo que salió con las tendencias de esas dos palabras por su frecuencia de aparición por meses:

Evolución de suicidios y deshaucios

Leer más…

El vídeo del interrogatorio de la infanta, y la [des]protección de las fuentes

febrero 11, 2014 8 comentarios

Ayer me desayuné con el vídeo del interrogatorio de la infanta, me sorprendió. Pero no por lo que dijo, era de esperar, sino por la forma en que se ha divulgado, especialmente por El Mundo, sin tomar medidas previas para asegurar el anonimato de los autores. Es un tema ya debatido, la responsabilidad y la protección cuando se divulga información que puede poner en problemas a las fuentes. Ocurrió con Wikileaks y el soldado Manning, a pesar de todos los recaudos que tomaron, al final la única víctima de la liberación de esa documentación fue el/la pobre soldado.

Con el tema del vídeo de la Infanta pasó algo similar, pero mucho más chapuza e irresponsable. Me explico:

  1. Las imágenes del vídeo permiten localizar con precisión de centímetros a la posición de la cámara grabadora.
  2. No sólo está rodeado de testigos, también hay cámaras grabando (y seguramente fotografías), por lo que conocida la posición de la cámara se puede saber quién era el portador de la misma. Adiós cualquier indicio de anonimato.
  3. Se sube el vídeo “anónimamente” a una web de una empresa española, con sede y servidores en España, la justicia lo tiene muy sencillo para solicitar los datos con que se dio de alta el usuario y desde dónde subió el vídeo. La empresa no se puede negar a entregar esos datos, por lo que los que grabaron y/o subieron el vídeo lo tienen aún más complicado para defenderse.
  4. Parece (dicen, no confirmado) que se subió vía una conexión 3G, por lo que -dependiendo de operador, pero la mayoría lo permiten- se puede ubicar qué dispositivo es el que lo subió. No es lo mismo que ocurre con conexiones hogareñas con routers WiFi, donde no se puede conocer con precisión al dispositivo/ordenador que se conectó a un servidor externo. Actualización: parece que se hizo usando una VPN.

Para proteger el anonimato de las fuentes tendría que haberse eliminado las imágenes, haber subido a un servidor de otro país (preferentemente sin convenios de colaboración con España o Europa) mediante TOR o servidores anonimizadores en otros países. Aún así todavía es posible obtener la dirección IP de origen (por eso es mejor hacerlo desde conexiones “colectivas”), pero requiere mucho más esfuerzo, que quizás no compense por la tontería de información que se divulgó.

En resumen, se divulga un vídeo -que aporta nada de información que no se supiese o esperase- sin tomar los mínimos recaudos para proteger a las fuentes. Los más probable (a menos que encuentren otras relaciones e intereses) es que El Mundo o Wouzee no sufran las consecuencias legales, sólo el “pringao” que grabó ese vídeo, que creyó que ya aseguraba su anonimato subiéndolo con un nombre de usuario falso. Una gran irresponsabilidad de unos, y una ignorancia casi infantil de otros.

Otra prueba de que la tecnología por sí misma no soluciona los problemas políticos ni nos da más libertad automágicamente, ni para los más tecnoutópicos. Los que a esta hora están siendo investigados (y quizás hasta interrogados) lo habrán aprendido por experiencia propia. Por eso cabe más responsabilidad de los que se han lucrado (en dinero o clics) con este vídeo: han dejado a sus fuentes en pelotas y casi sin defensas para informarnos de lo obvio. Un coste enorme para unos, un beneficio casi cero para los demás. Una irresponsabilidad.

No sé qué les hacen los móviles, o mi fallida portabilidad de móviles con ONO

enero 29, 2014 8 comentarios

Se está hablando bastante ahora de la posible compra de ONO por parte de Vodafone, las reacciones suelen ser de que empeorará mucho el servicio. No estoy tan seguro que sea empeorable en móviles. Somos clientes de ONO casi desde sus inicios (1996 o 1997), empezamos con el modem analógico. Cuando ofrecieron Internet a 128 kbps nos pasamos casi inmediatamente. Cuando ofrecieron teléfono fijo, también nos pasamos casi inmediatamente. Luego pasaron a TV digital (los decodificadores Motorola), nos pasamos rápidamente. Cuando empezaron a ofrecer TiVo, nos pasamos rápidamente. Ahora tenemos combinado TV (con todos los canales), teléfono fijo, Internet de 50 mbps, un 3G de datos, y dos TiVos.

Durante todos estos años (más de 15) no tuvimos problemas con la atención de ONO, y técnicamente sólo me quejé de los cortes de Internet de madrugada (hace unos meses que no ocurren, o al menos no lo noté). Es decir, fui siempre un cliente razonablemente satisfecho… hasta que hace 10 días acepté hacer una portabilidad de móvil de Pepehone hacia ONO. Fue una pesadilla, y ni siquiera se pudo hacer, tuve que llamar varias veces para cancelarlas por errores de ellos.

El jueves 16 de enero (como a las 20hs) me llama una operadora para ofrecerme -por cuarta vez- móvil con banda ancha. Le dije que no, que tenemos tres líneas familiares con Pepephone y que estábamos satisfechos. Me dijo que con tres líneas podían hacerme una buena oferta, le pedí que me llame al día siguiente (estaba en la calle).

Me llamó el viernes a la misma, era una chica que apenas podía hablar, era muy difícil entenderse con ella. No era sólo su acento sudamericano, no suelo tener problemas con eso, soy “sudaca”, era algo más, la calidad del sonido era mala. Me hace una oferta de las tres líneas con 1 GB de datos (era lo mínimo que le dije que aceptaría) por poco más de tres euros en total por mes. La oferta era muy buena, le dije que adelante. Tardamos más de hora y media hasta que le pasé todos los datos y los números de las tres líneas (les llamaré A, B y C) e hicimos las verificaciones y correcciones (tuve muchos problemas en hacerle entender que mi apellido era Galli, con G, con Calli, con C).

Al final acabamos y me dice que me pasará al departamente de verificación. Me atiende una chica con acento peninsular, me empieza a repetir los datos pero me da sólo los de la línea B. Les dije que faltaban dos líneas, me responde que sólo le pasaron esa. Le contesto que hacemos las tres o ninguna, que no iba a estar a medias y reclamando. Entonces la chica dice que tiene que cancelar todo y que avisará para que me vuelvan a llamar.

A los pocos minutos me llama la misma chica que antes, me pide disculpas y me dice que ahora lo pasaba de nuevo bien. Me vuelve a pasar al departamento de verificación, exactamente el mismo problema, sólo estaban los datos de la línea B. Vuelta a cancelar y dice que dejará una nota.

No sé si esa misma noche o el sábado me llama una hombre, me pregunta qué había pasado, le explico. Me pregunta si todavía me interesa, le digo que sí, pero sólo si se hacen las tres a la vez. Me dice que no hay problemas, que está cancelado y que me llamará un comercial.

El miércoles de la semana siguiente (21 de enero) recibo los siguientes SMS:

SMS de ONO

Mi sorpresa era mayúscula, no sólo porque entendí que el proceso estaba muerto, además no había venido nadie por casa, y era sospechoso que sólo apareciesen dos SMS y no por las tres líneas (A, B y C), ni uno por la única (B) que me habían intentado verificar antes.

Llamé al teléfono indicado, me atienden bien, dicen que efectivamente se hicieron un lío y me pide que llame al 800 400 005. Llamo a ese número, le explico, me confirma el error y me dice que está todo cancelado. Me dice si sigo interesado en reiniciar el proceso, le digo que si mantienen la oferta sí, Me pide que por favor no cuelgue, suena una música, luego se calla, después de 7 minutos se corta la llamada (todo esto desde el teléfono fijo del propio ONO). Me quedo muy cabreado, pero no vuelvo a insistir.

Al día siguiente por la tarde noche, otra sorpresa, dos sobres de ONO con los microchips para las líneas A y B, y avisando que la portabilidad seguía en curso:

ONO

El viernes 23 llamé muy cabreado al 800 400 005. Les vuelvo a explicar, casi chillando -estaba my cabreado a estas alturas-. Pero las sorpresas no acaban, me dice que la portabilidad estaba en curso, que eran de 300 MB de datos, y que sólo por la primera línea (la B) eran 3 euros y pico. No la dejé continuar, le dije que ni siquiera eso era lo que me ofrecieron -ni en datos ni en tarifa- y que lo corte ya mismo, que estaba todo grabado.

Al final parece que cancelaron todo, al menos todavía no he vuelto a tener noticias. Pero es curioso, tantos años de cliente satisfecho con ONO [*], pero en cuanto intenté ser cliente de móviles se jodió toda la historia.

No sé que les pasa con los móviles, pero ya da miedo hasta coger las llamadas de sus comerciales.

[*] A pesar que nunca te aplican los descuentos automáticamente, tienes que llamar para obtener los precios más bajos que ofrecen por lo mismo.

Categorías:empresas, internet Etiquetas: ,

Malaprensa: ¿sólo el 13,6% de menores de 30 años tiene trabajo?

enero 26, 2014 12 comentarios

Respuesta breve: ¡cielos!

Respuesta un poco más larga: no sé cómo han obtenido ese disparate.

Respuesta aún más larga: aunque no sepas nada de estadísticas básicas -deberías, sobre todo si eres periodista y escribes de economía-, ese número debería hacer saltar todas las alarmas y no puedes publicarlo sin preguntar antes.

Actualización: cambiaron el titular  a Una generación arrasada por el paro: sólo el 13,6% de los ocupados son menores de 30 años, que muy sensacionalista, pero no dice nada si no se explica la distribución demográfica.

Titulares disparatados

Me dí cuenta del titular por @malaprensa, al principio hasta dudé -no recuerdo de memoria los números de EPA-, pero tras pocos segundos pensé que era demasiado, y que además no definían desde qué edad. ¿No se les habrá ocurrido contar hasta los bebés recién nacidos? (todo puede ser).

Recurrí a los datos de la EPA y bajé un par de hojas de cálculo (usé los del cuarto trimestre de 2013): los totales de población activa (EPA-4) y las de población ocupada (EPA-8). La EPA no da los totales a 30 años, precisamente, sino en rango de edad de de 16-19, luego a 24, luego a 55 y más de 55. En otra hoja de cálculo obtuve los totales acumulados para 19, 24, 54 y mayores. Y este es el gráfico resultante:

Paro por edades acumulados

Si estás acostumbrado a mirar gráficos ya te diste cuenta: la ocupación hasta 24 años es del 45%, la de hasta 54 años es el 73%. Por la tanto la ocupación de las personas hasta 30 años debe ser superior a 45% y menor a 73%. Con esto ya es suficiente para ver lo ridículo del titular de la noticia, pero se puede intentar una aproximación mejor con estos datos: una interpolación lineal entre el 45 y 73 da una ocupación aproximada mínima [*] del 50% para personas hasta 30 años.

No tiene relación con ese 13%, ¿cómo llegó a eso? Ni idea, no soy socio y no puedo leer todavía (paradoja que se llame infolibre), pero no creo que haya ningún dato que pueda sostener eso. A menos que se le haya ocurrido comparar con el censo total (es decir, personas “no activas”, como estudiantes de bachillerato o universitarios que no buscan trabajo), lo que no deja de ser una burrada, sobre todo si es para elaborar titulares de artículos que pretenden analizar el paro.

En cualquier caso, ya sois un pelín más conscientes de la calidad de información que consumís.

Addendum

En la entradilla afirma:

Los jóvenes rozaban la cuarta parte de la población ocupada en 2006

No sé de dónde saca esos datos ni su relación con ese presunto 13% de ocupados, pero según la EPA en 2006 los jóvenes de hasta 24 años eran el 10,3% de la población ocupada. En 2013 fue del 4.3%.

PS: Si esto es el periodismo de datos que prometen, prefiero a las tertulias.

[*] Se se hacen los ajustes de curva como tocan, el porcentaje será superior. Fijaros que al final -a la derecha- la tasa de ocupación está mucho más estabilizada, lo que implica que la subida de ocupación de 24 a 55 no es lineal, sino que sube más rápido al principio y luego se hace más horizontal. Es simple hacerlo, pero ya es tarde.

Categorías:malaprensa, medios, prensa Etiquetas: , , ,

¿Es verdad que sólo 85 personas tienen la misma riqueza que la mitad más pobre del planeta?

enero 20, 2014 19 comentarios

Respuesta breve: NO.

Respuesta más larga y precisa: con los datos disponibles NO lo podemos saber, tampoco parece muy probable.

Respuesta aún más larga: es muy difícil que lo podamos saber.

La frase sale del informe del Oxfam GOBERNAR PARA LAS ÉLITES Secuestro democrático y desigualdad económica (y titulada así hasta en The Guardian, Oxfam: 85 richest people as wealthy as poorest half of the world):

La mitad más pobre de la población mundial posee la misma riqueza que las  85 personas más ricas del mundo.

Actualización: En El Mundo publican un análisis con más detalles de otros errores importantes del informe.

¿Cómo llegaron a ese número?

Los datos de riqueza total los obtuvieron del informe Global Wealth Report 2013, a su vez están basados en los estudios de Anthony Shorrocks, James B. Davies y Rodrigo Lluberas publicados en Global Wealth Databook 2013, y usaron ese total para compararlo con la lista de “riqueza” de los más millonarios de la revista Forbes.

¿Cuál es el problema?

Medir la riqueza global es muy complicado, diría que es imposible obtener una cifra precisa, todas dependen de datos y muestreos estadísticos. Además de los propios problemas de selección de muestras, hay otros problemas insalvables.

Una vaca o hectárea de campo en California vale (en dólares o euros) más que una en Somalía, aunque ambas den de comer a las mismas personas. Un piso en San Francisco tiene mucho más valor que uno en un pueblo de China, aunque ambos den el mismo cobijo y comodidad al mismo número de personas.

Los países con menor desarrollo tienen pocos activos financieros (y sistemas financieros menos maduros) que los más desarrollados. Es difícil cuantificar los activos reales tanto como los financieros: ¿cuánto vale la casa o el coche? ¿qué deuda tiene? ¿el valor de las acciones es real o está en un pico o valle? También hay desigualdad en la información de diferentes países, por ejemplo, en el propio estudio explican estos problemas y ponen el ejemplo de China, que tienen datos de hace diez años, sobre los cuales se hace una estimación.

Es decir, el total de riqueza estimado es eso, una estimación. Puede ser la mitad como puede ser el doble, y dependiendo de coeficientes correctores (por ejemplo, coste de vida y diferencias en cotización) pueden hacer variar los resultados de forma radical. Por eso estos estudios son útiles solo al tener en cuenta resultados estadísticos (medias, percentiles, etc.) y para comparar la evolución si, y solo sí, se usan los mismos métodos de medición.

Uno de los objetivos del estudio era estudiar la “movilidad” entre las personas más ricas. En el propio informe se explican los problemas de sus estudios (que no sirven para comparar con poblaciones pequeñas), por lo que usaron datos de listas de Forbes y otras publicaciones, pero no lo pudieron usar directamente, tuvieron que aplicar correcciones, aplicar fórmulas, descartar

Our method of estimating global personal wealth is essentially a “bottom-up” approach. It begins  by establishing the average level of wealth in different countries onto which we graft the pattern of wealth holding revealed in household sample surveys and other sources. Although sample surveys do not formally exclude high net worth (HNW) individuals with net assets above USD 1 million, they are not always captured, and the value of their wealth holdings is likely to be underestimated. The same is true to a much greater extent for ultra high net worth (UHNW) individuals with net assets above USD 50 million. In fact, the US Survey of Consumer Finances  – which otherwise does an excellent job in the upper tail of the wealth distribution– explicitly omits the 400 wealthiest families from its sampling frame. This is not enough to completely  invalidate our general approach: for example, the world’s billionaires reported by Forbes  magazine for the year 2013 were collectively worth about USD 5.3 trillion, which equates to 2%  of our estimate of USD 241 trillion for total world household wealth. However, further analysis  and appropriate adjustments are required in order to paint an accurate picture of the number of  the wealthiest individuals and the size of their holdings.  In order to proceed, we exploit the fact that the top tail of wealth distributions is usually well approximated by the Pareto distribution, which produces a straight line graph when the  logarithm of the number of persons above wealth level w is plotted against the logarithm of w.  Our data yield a close fit to the Pareto distribution in the wealth range from USD 250,000 to USD 5 million.

[...]

The “rich lists” provided by Forbes and other sources have other limitations for our purposes.  The figures are dominated by financial assets, especially equity holdings in public companies  traded in international markets. For practical reasons, less attention is given to non-financial  assets apart from major real estate holdings and trophy assets, such as expensive yachts. Even less is known – and hence recorded – about personal debts. Some people cooperate  enthusiastically with those compiling the lists; others prefer to protect their privacy. There are also different country listings for nationals and residents, which is especially evident for India, for instance. As a consequence, the rich list data should be treated with caution. At the same time, the broad patterns and trends are informative, and they provide the best available source of information at the apex of the global wealth distribution.

[...]

The study of global household wealth is at an embryonic stage.

Lo citado anteriormente explica que el método usado para medir la riqueza global no es capaz de capturar la riqueza de los más ricos, que incluso para obtener estadísticas razonables (en EEUU) hasta se omiten a las 400 familias más ricas, que en las listas de Forbes no recogen las deudas, y que es complicado usar esa lista incluso hasta para obtener estadísticas de decenas de miles de “millonarios”.

Y lo más importante, la frase que puse del final (en la página 9): estos estudios están todavía en fase embrionaría, por lo que no hay que tomar como datos definitivos, ni siquiera como de alta precisión.

Creo que ya está claro que la conclusión de que los 85 más ricos del mundo tienen la misma riqueza que la mitad más pobre es un error muy grave, no se pueden mezclar datos obtenidos de forma y con metodologías diferentes (uno es un macroestudio profesional, el otro una aproximación mucho más burda e incompleta). Cualquiera que sepa lo mínimo de economía y/o estadísticas detectará el error muy rápidamente y le dará la credibilidad que se merece: cero. ¿Es esto lo que pretendían? Supongo que no, pero en la búsqueda del titular espectacular, es lo que consiguieron.

¿Y qué dice el informe sobre millonarios y distribución de riqueza?

Sí, según los estudios citados, el 1% de los más ricos poseen el 46% de la riqueza mundial, el 0,7% posee el 41% y el 68,7 de la población sólo el 3% (de los cuales, sólo el 30% de la población de países desarrollados cae en esta categoría).

Pirámide de riqueza

Por otro lado, en el estudio de la parte superior de la pirámide obtuvieron la siguiente segmentación:

Pirámide de los más ricos

Our estimates suggest that there are 98,700 UHNW individuals worldwide with net assets exceeding USD 50 million. Of these, 33,900 are worth at least USD 100 million and 3,100 have assets above USD 500 million.

Aquí se puede aproximar (aunque no lo dicen en el estudio, porque es muy arriesgado llegar a esta conclusión: no se sabe la media, sólo el umbral > de 500 millones de dólares) que los 3.100 individuos más ricos poseen aproximadamente entre el 0,6 y el 1% de la riqueza mundial. Ojo, insisto, es aproximación para mostrar una dato espectacular y forzado, pero aún así muy lejano de las 85 personas que poseen lo mismo que la mitad más pobre.

También dicen en el informe que según sus propios datos, la desigualdad aumentó desde mediados de 2012 a mediados de 2013: la riqueza global aumentó un 4.9% pero el número de millonarios en un 6.1%.

Nota: El 38% del 10% de la población más rica pertenece a Europa, que ha subido considerablemente con la apreciación del euro. Si me estás leyendo desde Europa, quizás estás en el 10%, y hay una probabilidad del 70% que estés por encima del resto del 68.7% de la población más pobre.

Disclaimer: No pertenezco a ese 1% más rico, ni me pagaron ni pidieron que escriba este apunte.

Categorías:medios Etiquetas: , ,
Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.

Únete a otros 428 seguidores