Archivo

Archivo de Autor

Periodismo convencional

marzo 14, 2014 Los comentarios están cerrados

Plenty of pundits have really high IQs, but they don’t have any discipline in how they look at the world, and so it leads to a lot of bullshit, basically [...] We think that’s a weakness of conventional journalism, that you have beautiful English language skills and fewer math skills.

They don’t permit a lot of complexity in their thinking. They pull threads together from very weak evidence and draw grand conclusions based on them.

They’re ironically very predictable from week to week. [...] You can kind of auto-script it, basically.

It’s people who have very strong ideological priors, is the fancy way to put it, that are governing their thinking. They’re not really evaluating the data as it comes in, not doing a lot of [original] thinking. They’re just spitting out the same column every week and using a different subject matter to do the same thing over and over.

[T]he first step in using data is that you have to collect data, you have to organize it, and you have to explain the relationships. Only then, in rare cases, do you feel like you have a good enough understanding to generalize it into predictions about the way the world really works.

En la entrevista a Nate Silver, palabras de él. Muy de acuerdo. Si te pica, es que quizás no lavas tan bien ;)

Categorías:malaprensa, medios Etiquetas: ,

Las instancias m3 de EC2 no son lo que prometen

marzo 13, 2014 4 comentarios

Actualización: sigo estudiando el tema porque es muy raro, si pongo un proceso en bucle no consume el 100% de CPU, sino el 50%. Parece que hay un problema de medición (tanto localmente como lo que mide Amazon CloudWatch). Si descubro algo más lo pondré.

En enero de este año Amazon habilitó el uso general de sus nuevas instancias “m3″ (las originales son m1). Además del almacenamiento SSD, estas instancias tienen -según ellos- más CPU (3 ECU vs 2 ECU de las m1). Para los servidores web de Menéame usamos instancias m1.medium, pero las m3.medium parecían más adecuadas, nos podíamos ahorrar alrededor del 50% del coste. No las cambié inmediatamente porque el espacio disponible en /mnt en las m3 es muy pequeño (sólo 4GB) y allí es donde generábamos los logs del NGInx.

Pero estos días Amazon también empezó a ofrecer almacenar los logs del balanceador de carga (ELB) en S3, por lo que habilté estos y deshabilité los generados por NGInx en las instancias. Así, ya no hacían faltan varias decenas de GB por cada 24 horas de funcionamiento de cada instancia y podíamos pasar a usar las instancias m3 sin ningún otro cambio. Lo hice a partir de las 12 de la noche, tal como es visible en el siguiente gráfico.

Leer más…

Categorías:menéame Etiquetas: , ,

Tendencias (“trends”) históricas del uso de palabras con Sphinx

febrero 13, 2014 4 comentarios

Hace unos días quise saber desde cuándo se empezó a hablar de desahucios y suicidios en la prensa en España. Fui a Google Trends y el gráfico mostraba una evolución demasiada plana, que no se correspondía con tantas noticias que leímos en la prensa española. Me pregunté si, y cómo, podía obtener esas estadísticas en Menéame. Se me ocurrió que debería haber un truco relativamente sencillo usando los índices de de búsqueda de Sphinx (lo usamos para el buscador de Menéame). Así fue que en pocas horas pude implementar un sistema similar a Google Trends en Menéame.

Esto es lo que salió con las tendencias de esas dos palabras por su frecuencia de aparición por meses:

Evolución de suicidios y deshaucios

Leer más…

El vídeo del interrogatorio de la infanta, y la [des]protección de las fuentes

febrero 11, 2014 8 comentarios

Ayer me desayuné con el vídeo del interrogatorio de la infanta, me sorprendió. Pero no por lo que dijo, era de esperar, sino por la forma en que se ha divulgado, especialmente por El Mundo, sin tomar medidas previas para asegurar el anonimato de los autores. Es un tema ya debatido, la responsabilidad y la protección cuando se divulga información que puede poner en problemas a las fuentes. Ocurrió con Wikileaks y el soldado Manning, a pesar de todos los recaudos que tomaron, al final la única víctima de la liberación de esa documentación fue el/la pobre soldado.

Con el tema del vídeo de la Infanta pasó algo similar, pero mucho más chapuza e irresponsable. Me explico:

  1. Las imágenes del vídeo permiten localizar con precisión de centímetros a la posición de la cámara grabadora.
  2. No sólo está rodeado de testigos, también hay cámaras grabando (y seguramente fotografías), por lo que conocida la posición de la cámara se puede saber quién era el portador de la misma. Adiós cualquier indicio de anonimato.
  3. Se sube el vídeo “anónimamente” a una web de una empresa española, con sede y servidores en España, la justicia lo tiene muy sencillo para solicitar los datos con que se dio de alta el usuario y desde dónde subió el vídeo. La empresa no se puede negar a entregar esos datos, por lo que los que grabaron y/o subieron el vídeo lo tienen aún más complicado para defenderse.
  4. Parece (dicen, no confirmado) que se subió vía una conexión 3G, por lo que -dependiendo de operador, pero la mayoría lo permiten- se puede ubicar qué dispositivo es el que lo subió. No es lo mismo que ocurre con conexiones hogareñas con routers WiFi, donde no se puede conocer con precisión al dispositivo/ordenador que se conectó a un servidor externo. Actualización: parece que se hizo usando una VPN.

Para proteger el anonimato de las fuentes tendría que haberse eliminado las imágenes, haber subido a un servidor de otro país (preferentemente sin convenios de colaboración con España o Europa) mediante TOR o servidores anonimizadores en otros países. Aún así todavía es posible obtener la dirección IP de origen (por eso es mejor hacerlo desde conexiones “colectivas”), pero requiere mucho más esfuerzo, que quizás no compense por la tontería de información que se divulgó.

En resumen, se divulga un vídeo -que aporta nada de información que no se supiese o esperase- sin tomar los mínimos recaudos para proteger a las fuentes. Los más probable (a menos que encuentren otras relaciones e intereses) es que El Mundo o Wouzee no sufran las consecuencias legales, sólo el “pringao” que grabó ese vídeo, que creyó que ya aseguraba su anonimato subiéndolo con un nombre de usuario falso. Una gran irresponsabilidad de unos, y una ignorancia casi infantil de otros.

Otra prueba de que la tecnología por sí misma no soluciona los problemas políticos ni nos da más libertad automágicamente, ni para los más tecnoutópicos. Los que a esta hora están siendo investigados (y quizás hasta interrogados) lo habrán aprendido por experiencia propia. Por eso cabe más responsabilidad de los que se han lucrado (en dinero o clics) con este vídeo: han dejado a sus fuentes en pelotas y casi sin defensas para informarnos de lo obvio. Un coste enorme para unos, un beneficio casi cero para los demás. Una irresponsabilidad.

No sé qué les hacen los móviles, o mi fallida portabilidad de móviles con ONO

enero 29, 2014 8 comentarios

Se está hablando bastante ahora de la posible compra de ONO por parte de Vodafone, las reacciones suelen ser de que empeorará mucho el servicio. No estoy tan seguro que sea empeorable en móviles. Somos clientes de ONO casi desde sus inicios (1996 o 1997), empezamos con el modem analógico. Cuando ofrecieron Internet a 128 kbps nos pasamos casi inmediatamente. Cuando ofrecieron teléfono fijo, también nos pasamos casi inmediatamente. Luego pasaron a TV digital (los decodificadores Motorola), nos pasamos rápidamente. Cuando empezaron a ofrecer TiVo, nos pasamos rápidamente. Ahora tenemos combinado TV (con todos los canales), teléfono fijo, Internet de 50 mbps, un 3G de datos, y dos TiVos.

Durante todos estos años (más de 15) no tuvimos problemas con la atención de ONO, y técnicamente sólo me quejé de los cortes de Internet de madrugada (hace unos meses que no ocurren, o al menos no lo noté). Es decir, fui siempre un cliente razonablemente satisfecho… hasta que hace 10 días acepté hacer una portabilidad de móvil de Pepehone hacia ONO. Fue una pesadilla, y ni siquiera se pudo hacer, tuve que llamar varias veces para cancelarlas por errores de ellos.

El jueves 16 de enero (como a las 20hs) me llama una operadora para ofrecerme -por cuarta vez- móvil con banda ancha. Le dije que no, que tenemos tres líneas familiares con Pepephone y que estábamos satisfechos. Me dijo que con tres líneas podían hacerme una buena oferta, le pedí que me llame al día siguiente (estaba en la calle).

Me llamó el viernes a la misma, era una chica que apenas podía hablar, era muy difícil entenderse con ella. No era sólo su acento sudamericano, no suelo tener problemas con eso, soy “sudaca”, era algo más, la calidad del sonido era mala. Me hace una oferta de las tres líneas con 1 GB de datos (era lo mínimo que le dije que aceptaría) por poco más de tres euros en total por mes. La oferta era muy buena, le dije que adelante. Tardamos más de hora y media hasta que le pasé todos los datos y los números de las tres líneas (les llamaré A, B y C) e hicimos las verificaciones y correcciones (tuve muchos problemas en hacerle entender que mi apellido era Galli, con G, con Calli, con C).

Al final acabamos y me dice que me pasará al departamente de verificación. Me atiende una chica con acento peninsular, me empieza a repetir los datos pero me da sólo los de la línea B. Les dije que faltaban dos líneas, me responde que sólo le pasaron esa. Le contesto que hacemos las tres o ninguna, que no iba a estar a medias y reclamando. Entonces la chica dice que tiene que cancelar todo y que avisará para que me vuelvan a llamar.

A los pocos minutos me llama la misma chica que antes, me pide disculpas y me dice que ahora lo pasaba de nuevo bien. Me vuelve a pasar al departamento de verificación, exactamente el mismo problema, sólo estaban los datos de la línea B. Vuelta a cancelar y dice que dejará una nota.

No sé si esa misma noche o el sábado me llama una hombre, me pregunta qué había pasado, le explico. Me pregunta si todavía me interesa, le digo que sí, pero sólo si se hacen las tres a la vez. Me dice que no hay problemas, que está cancelado y que me llamará un comercial.

El miércoles de la semana siguiente (21 de enero) recibo los siguientes SMS:

SMS de ONO

Mi sorpresa era mayúscula, no sólo porque entendí que el proceso estaba muerto, además no había venido nadie por casa, y era sospechoso que sólo apareciesen dos SMS y no por las tres líneas (A, B y C), ni uno por la única (B) que me habían intentado verificar antes.

Llamé al teléfono indicado, me atienden bien, dicen que efectivamente se hicieron un lío y me pide que llame al 800 400 005. Llamo a ese número, le explico, me confirma el error y me dice que está todo cancelado. Me dice si sigo interesado en reiniciar el proceso, le digo que si mantienen la oferta sí, Me pide que por favor no cuelgue, suena una música, luego se calla, después de 7 minutos se corta la llamada (todo esto desde el teléfono fijo del propio ONO). Me quedo muy cabreado, pero no vuelvo a insistir.

Al día siguiente por la tarde noche, otra sorpresa, dos sobres de ONO con los microchips para las líneas A y B, y avisando que la portabilidad seguía en curso:

ONO

El viernes 23 llamé muy cabreado al 800 400 005. Les vuelvo a explicar, casi chillando -estaba my cabreado a estas alturas-. Pero las sorpresas no acaban, me dice que la portabilidad estaba en curso, que eran de 300 MB de datos, y que sólo por la primera línea (la B) eran 3 euros y pico. No la dejé continuar, le dije que ni siquiera eso era lo que me ofrecieron -ni en datos ni en tarifa- y que lo corte ya mismo, que estaba todo grabado.

Al final parece que cancelaron todo, al menos todavía no he vuelto a tener noticias. Pero es curioso, tantos años de cliente satisfecho con ONO [*], pero en cuanto intenté ser cliente de móviles se jodió toda la historia.

No sé que les pasa con los móviles, pero ya da miedo hasta coger las llamadas de sus comerciales.

[*] A pesar que nunca te aplican los descuentos automáticamente, tienes que llamar para obtener los precios más bajos que ofrecen por lo mismo.

Categorías:empresas, internet Etiquetas: ,

Malaprensa: ¿sólo el 13,6% de menores de 30 años tiene trabajo?

enero 26, 2014 12 comentarios

Respuesta breve: ¡cielos!

Respuesta un poco más larga: no sé cómo han obtenido ese disparate.

Respuesta aún más larga: aunque no sepas nada de estadísticas básicas -deberías, sobre todo si eres periodista y escribes de economía-, ese número debería hacer saltar todas las alarmas y no puedes publicarlo sin preguntar antes.

Actualización: cambiaron el titular  a Una generación arrasada por el paro: sólo el 13,6% de los ocupados son menores de 30 años, que muy sensacionalista, pero no dice nada si no se explica la distribución demográfica.

Titulares disparatados

Me dí cuenta del titular por @malaprensa, al principio hasta dudé -no recuerdo de memoria los números de EPA-, pero tras pocos segundos pensé que era demasiado, y que además no definían desde qué edad. ¿No se les habrá ocurrido contar hasta los bebés recién nacidos? (todo puede ser).

Recurrí a los datos de la EPA y bajé un par de hojas de cálculo (usé los del cuarto trimestre de 2013): los totales de población activa (EPA-4) y las de población ocupada (EPA-8). La EPA no da los totales a 30 años, precisamente, sino en rango de edad de de 16-19, luego a 24, luego a 55 y más de 55. En otra hoja de cálculo obtuve los totales acumulados para 19, 24, 54 y mayores. Y este es el gráfico resultante:

Paro por edades acumulados

Si estás acostumbrado a mirar gráficos ya te diste cuenta: la ocupación hasta 24 años es del 45%, la de hasta 54 años es el 73%. Por la tanto la ocupación de las personas hasta 30 años debe ser superior a 45% y menor a 73%. Con esto ya es suficiente para ver lo ridículo del titular de la noticia, pero se puede intentar una aproximación mejor con estos datos: una interpolación lineal entre el 45 y 73 da una ocupación aproximada mínima [*] del 50% para personas hasta 30 años.

No tiene relación con ese 13%, ¿cómo llegó a eso? Ni idea, no soy socio y no puedo leer todavía (paradoja que se llame infolibre), pero no creo que haya ningún dato que pueda sostener eso. A menos que se le haya ocurrido comparar con el censo total (es decir, personas “no activas”, como estudiantes de bachillerato o universitarios que no buscan trabajo), lo que no deja de ser una burrada, sobre todo si es para elaborar titulares de artículos que pretenden analizar el paro.

En cualquier caso, ya sois un pelín más conscientes de la calidad de información que consumís.

Addendum

En la entradilla afirma:

Los jóvenes rozaban la cuarta parte de la población ocupada en 2006

No sé de dónde saca esos datos ni su relación con ese presunto 13% de ocupados, pero según la EPA en 2006 los jóvenes de hasta 24 años eran el 10,3% de la población ocupada. En 2013 fue del 4.3%.

PS: Si esto es el periodismo de datos que prometen, prefiero a las tertulias.

[*] Se se hacen los ajustes de curva como tocan, el porcentaje será superior. Fijaros que al final -a la derecha- la tasa de ocupación está mucho más estabilizada, lo que implica que la subida de ocupación de 24 a 55 no es lineal, sino que sube más rápido al principio y luego se hace más horizontal. Es simple hacerlo, pero ya es tarde.

Categorías:malaprensa, medios, prensa Etiquetas: , , ,

¿Es verdad que sólo 85 personas tienen la misma riqueza que la mitad más pobre del planeta?

enero 20, 2014 19 comentarios

Respuesta breve: NO.

Respuesta más larga y precisa: con los datos disponibles NO lo podemos saber, tampoco parece muy probable.

Respuesta aún más larga: es muy difícil que lo podamos saber.

La frase sale del informe del Oxfam GOBERNAR PARA LAS ÉLITES Secuestro democrático y desigualdad económica (y titulada así hasta en The Guardian, Oxfam: 85 richest people as wealthy as poorest half of the world):

La mitad más pobre de la población mundial posee la misma riqueza que las  85 personas más ricas del mundo.

Actualización: En El Mundo publican un análisis con más detalles de otros errores importantes del informe.

¿Cómo llegaron a ese número?

Los datos de riqueza total los obtuvieron del informe Global Wealth Report 2013, a su vez están basados en los estudios de Anthony Shorrocks, James B. Davies y Rodrigo Lluberas publicados en Global Wealth Databook 2013, y usaron ese total para compararlo con la lista de “riqueza” de los más millonarios de la revista Forbes.

¿Cuál es el problema?

Medir la riqueza global es muy complicado, diría que es imposible obtener una cifra precisa, todas dependen de datos y muestreos estadísticos. Además de los propios problemas de selección de muestras, hay otros problemas insalvables.

Una vaca o hectárea de campo en California vale (en dólares o euros) más que una en Somalía, aunque ambas den de comer a las mismas personas. Un piso en San Francisco tiene mucho más valor que uno en un pueblo de China, aunque ambos den el mismo cobijo y comodidad al mismo número de personas.

Los países con menor desarrollo tienen pocos activos financieros (y sistemas financieros menos maduros) que los más desarrollados. Es difícil cuantificar los activos reales tanto como los financieros: ¿cuánto vale la casa o el coche? ¿qué deuda tiene? ¿el valor de las acciones es real o está en un pico o valle? También hay desigualdad en la información de diferentes países, por ejemplo, en el propio estudio explican estos problemas y ponen el ejemplo de China, que tienen datos de hace diez años, sobre los cuales se hace una estimación.

Es decir, el total de riqueza estimado es eso, una estimación. Puede ser la mitad como puede ser el doble, y dependiendo de coeficientes correctores (por ejemplo, coste de vida y diferencias en cotización) pueden hacer variar los resultados de forma radical. Por eso estos estudios son útiles solo al tener en cuenta resultados estadísticos (medias, percentiles, etc.) y para comparar la evolución si, y solo sí, se usan los mismos métodos de medición.

Uno de los objetivos del estudio era estudiar la “movilidad” entre las personas más ricas. En el propio informe se explican los problemas de sus estudios (que no sirven para comparar con poblaciones pequeñas), por lo que usaron datos de listas de Forbes y otras publicaciones, pero no lo pudieron usar directamente, tuvieron que aplicar correcciones, aplicar fórmulas, descartar

Our method of estimating global personal wealth is essentially a “bottom-up” approach. It begins  by establishing the average level of wealth in different countries onto which we graft the pattern of wealth holding revealed in household sample surveys and other sources. Although sample surveys do not formally exclude high net worth (HNW) individuals with net assets above USD 1 million, they are not always captured, and the value of their wealth holdings is likely to be underestimated. The same is true to a much greater extent for ultra high net worth (UHNW) individuals with net assets above USD 50 million. In fact, the US Survey of Consumer Finances  – which otherwise does an excellent job in the upper tail of the wealth distribution– explicitly omits the 400 wealthiest families from its sampling frame. This is not enough to completely  invalidate our general approach: for example, the world’s billionaires reported by Forbes  magazine for the year 2013 were collectively worth about USD 5.3 trillion, which equates to 2%  of our estimate of USD 241 trillion for total world household wealth. However, further analysis  and appropriate adjustments are required in order to paint an accurate picture of the number of  the wealthiest individuals and the size of their holdings.  In order to proceed, we exploit the fact that the top tail of wealth distributions is usually well approximated by the Pareto distribution, which produces a straight line graph when the  logarithm of the number of persons above wealth level w is plotted against the logarithm of w.  Our data yield a close fit to the Pareto distribution in the wealth range from USD 250,000 to USD 5 million.

[...]

The “rich lists” provided by Forbes and other sources have other limitations for our purposes.  The figures are dominated by financial assets, especially equity holdings in public companies  traded in international markets. For practical reasons, less attention is given to non-financial  assets apart from major real estate holdings and trophy assets, such as expensive yachts. Even less is known – and hence recorded – about personal debts. Some people cooperate  enthusiastically with those compiling the lists; others prefer to protect their privacy. There are also different country listings for nationals and residents, which is especially evident for India, for instance. As a consequence, the rich list data should be treated with caution. At the same time, the broad patterns and trends are informative, and they provide the best available source of information at the apex of the global wealth distribution.

[...]

The study of global household wealth is at an embryonic stage.

Lo citado anteriormente explica que el método usado para medir la riqueza global no es capaz de capturar la riqueza de los más ricos, que incluso para obtener estadísticas razonables (en EEUU) hasta se omiten a las 400 familias más ricas, que en las listas de Forbes no recogen las deudas, y que es complicado usar esa lista incluso hasta para obtener estadísticas de decenas de miles de “millonarios”.

Y lo más importante, la frase que puse del final (en la página 9): estos estudios están todavía en fase embrionaría, por lo que no hay que tomar como datos definitivos, ni siquiera como de alta precisión.

Creo que ya está claro que la conclusión de que los 85 más ricos del mundo tienen la misma riqueza que la mitad más pobre es un error muy grave, no se pueden mezclar datos obtenidos de forma y con metodologías diferentes (uno es un macroestudio profesional, el otro una aproximación mucho más burda e incompleta). Cualquiera que sepa lo mínimo de economía y/o estadísticas detectará el error muy rápidamente y le dará la credibilidad que se merece: cero. ¿Es esto lo que pretendían? Supongo que no, pero en la búsqueda del titular espectacular, es lo que consiguieron.

¿Y qué dice el informe sobre millonarios y distribución de riqueza?

Sí, según los estudios citados, el 1% de los más ricos poseen el 46% de la riqueza mundial, el 0,7% posee el 41% y el 68,7 de la población sólo el 3% (de los cuales, sólo el 30% de la población de países desarrollados cae en esta categoría).

Pirámide de riqueza

Por otro lado, en el estudio de la parte superior de la pirámide obtuvieron la siguiente segmentación:

Pirámide de los más ricos

Our estimates suggest that there are 98,700 UHNW individuals worldwide with net assets exceeding USD 50 million. Of these, 33,900 are worth at least USD 100 million and 3,100 have assets above USD 500 million.

Aquí se puede aproximar (aunque no lo dicen en el estudio, porque es muy arriesgado llegar a esta conclusión: no se sabe la media, sólo el umbral > de 500 millones de dólares) que los 3.100 individuos más ricos poseen aproximadamente entre el 0,6 y el 1% de la riqueza mundial. Ojo, insisto, es aproximación para mostrar una dato espectacular y forzado, pero aún así muy lejano de las 85 personas que poseen lo mismo que la mitad más pobre.

También dicen en el informe que según sus propios datos, la desigualdad aumentó desde mediados de 2012 a mediados de 2013: la riqueza global aumentó un 4.9% pero el número de millonarios en un 6.1%.

Nota: El 38% del 10% de la población más rica pertenece a Europa, que ha subido considerablemente con la apreciación del euro. Si me estás leyendo desde Europa, quizás estás en el 10%, y hay una probabilidad del 70% que estés por encima del resto del 68.7% de la población más pobre.

Disclaimer: No pertenezco a ese 1% más rico, ni me pagaron ni pidieron que escriba este apunte.

Categorías:medios Etiquetas: , ,

En Twitter se dijo… arde Twitter…

Arde Twitter por JRMoraYa son habituales los titulares y noticias basadas en “arde Twitter”, como si el cabreo de unos pocos cientos de personas en Twitter (o la red que sea) fuese una noticia. Pero también veo cosas más curiosas, como un artículo de “clases de periodismo” que lista los veinte peores (según el autor) errores del periodismo en 2013.

La selección es quizás bastante adecuada, pero comete otro error: justificar o argumentar la decisión basada en “opiniones en Twitter”. Detecté tres que inmediatamente me generaron preguntas:

Debido a la grave acusación que se hizo, por Twitter varios usuarios criticaron e incluso amenazaron al departamento de investigación y al director del diario, Pedro J. Ramírez.

¿Es relevante para alguien además de Pedro J.? ¿cuántos usuarios? ¿qué dijeron para que haya que mencionar algo tan impreciso desde “criticar” hasta “amenazar”? ¿o lo relevante es que un periodista haya recibido unas pocas de las millones de “amenazas” que se se escriben cada día en Internet? ¿lo  hubiesen comentado si las las “críticas y amenazas” se hubiesen dedicado a un anónimo twittero?

En Twitter, los usuarios afirmaron que la portada se trató de una estrategia amarillista para aumentar las ventas del diario.

¿Cuántos “usuarios”? ¿qué tiene de relevante lo que opinan unos pocos cientos de usuarios en Twitter? ¿cuál es su representatividad? Y lo más importante ¿las opiniones en Twitter son fuente de ética para juzgar si es correcto un artículo o una foto? Si al menos se presentasen los argumentos podría servir para dar pistas.

A través de Twitter, los usuarios comunicaron el error y compartieron varias imágenes del incidente.

¿Es esto un publirreportaje de Twitter?

Cada vez entiendo menos este “flipe” de algunos periodistas con lo que leen en Twitter. Quizás porque piensan que es un método sencillo y barato de medir la tan elusiva y compleja “opinión pública”, pero es un error tan grande como persistente:

Hay suficientes datos que ponen en duda que los usuarios de Twitter sean una muestra válida de la población, y los usuarios más activos no son siquiera una muestra válida de esos usuarios. Ya deberíamos saber que lo fundamental para obtener una idea básica de la “opinión pública” -hasta en temas básicos como encuestas electorales- es muy complicado, tanto en la selección de la muestra adecuada como en la elaboración de las preguntas para evitar múltiples efectos (y trucos) psicológicos conocidos.

A esto se le suma otro problema: el de la cámara de eco. Cuando se publican esas noticias de “Twitter opina” ni siquiera se hace un estudio de una muestra válida de usuarios, se reducen a lo que han visto en su timeline. Como cada uno tiende a seguir a otros con ideas (o profesiones) similares, las lecturas están fuertemente sesgadas, y ese sesgo además amplificado por el grupo. El resultado es que tendemos a sobrevalorar exageradamente la validez y aceptación de nuestras opiniones.

Estos sesgos son muy humanos, están muy estudiados y tendemos a sobresimplificar cualquier problema. Es inevitable, pero el ejercicio del periodismo profesional -tal como se hace en la comunidad científica- es reconocer que todos somos víctimas de esos sesgos, estar alertas para no caer en ellos y seguir los procesos y metodologías desarrollados para minimizarlos (desde las “estadísticas para ciencias sociales”, escepticismo básico y lógica básica como carga de la prueba a procedimientos propios del periodismo como el fact checking, la doble verificación, debates con otros periodistas no involucrados directamente en la noticia, verificación de fuentes, consultas a expertos del tema, etc.).

En el caso de no-noticias basadas en opiniones de Twitter (u otras redes sociales) se hace justamente lo contrario: se ignoran y se amplifican aún más los sesgos. Estaremos de acuerdo en que no es un ejercicio responsable y profesional del periodismo. Como muchas de esas opiniones surgen de noticias y opiniones en los propios medios sólo estamos colaborando  (¿las portadas de la Razón, eh, eh?) para el self licking icecream cone del periodismo de redes sociales.

Apunte rápido de “malaprensa” repetitiva: Andalucía es la que más…

Siempre que aparecen datos sociales de España que incentivan el morbo o sensacionalismo (abortos, accidentes, muertes, suicidios, etc.), no falta el titular “Andalucía es la que más…”. En este caso, con lo de los accidentes mortales: Andalucía, CCAA con más víctimas mortales de tráfico en 2013, con 194, es también la que más reduce respecto a 2012.

¿Cuándo aprenderán que Andalucía siempre estará entre los “más” simplemente por una cuestión estadística? (tiene casi 18.2% de la población española). Analicemos un poco esta noticia para ver que carece de sentido y que transmite lo contrario a la realidad.

En 2013 en España se produjeron 994 accidentes con 1.128 fallecidos, si aplicamos porcentajes simples (multiplicamos por 0.182), estadísticamente a Andalucía le correspondería 181 accidentes y 205 fallecidos. Los datos de Andalucía son que hubo 168 accidentes y 194 fallecidos. Es decir, el titular de la noticia debería haber sido lo contrario: “Andalucía tiene menos accidentes mortales y fallecidos que la media española” (22,8 muertes/millón de habitantes vs 24,2 por millón).

También en la noticia se afirma que es la que más reduce, 27 víctimas menos que el año pasado. Pero si hacemos cálculos similares proporcionales por población vemos que en España los fallecidos se redujeron en 171. Proporcionalmente tocaría 31 fallecidos menos, pero ha sido de 27.

El titular correcto debería haber sido:

Andalucía, CCAA con víctimas mortales de tráfico en 2013 por debajo de la media española, con 194, pero su reducción está también por debajo de la media.

No tiene absolutamente nada que ver con el titular original, pero como no alimenta tópicos quizás nunca habría sido publicada.

Esto pasa por hacer comparaciones incorrectas: no se pueden comparar en números absolutos poblaciones de tamaños diferentes. Es muy simple, a nadie se le ocurría comparar el número de fallecidos por accidente en todo Estados Unidos (más de 30.000 muertos en 2012) con los de España (1.300)  [*], pero se insiste en hacerlo con Andalucía. Cada vez que se publican estadísticas estatales.

Vía @malaprensa.

[*] Tienen más muertes por habitantes que España (108 vs 27.8 en 2012), pero seguramente -en el país del automóvil y los suburbios urbanos- muchos más kilómetros recorridos por persona o coche. Hay varias formas de presentar las estadísticas, la de muertes por habitantes es una más. Quizás no la mejor, pero es mucho mejor que comparar números absolutos.

PS: De nada amigos andaluces por defenderos de las desinformaciones derivadas de estereotipos tan nuestros, incluso de vuestra propia delegada de Gobierno, a la que le parece faltar -también- unas clases de estadísticas básicas ;)

Categorías:medios Etiquetas: , ,

La pose, o ignorancia, de usar “open source” en castellano

diciembre 26, 2013 21 comentarios

facepalmAyer comenté por Twitter (y 2, 3, 4, 5, 6, 7) una tontería que leo muy frecuentemente, incluso en artículos de supuestos expertos en el tema: usar el término open source en vez del más sencillo y claro “software libre”. A raíz de mis tuits pude ver la profunda ignorancia que todavía hay sobe las licencias y hasta de la historia básica del tema.

El término software libre nace con el proyecto GNU, entre los años 1983 y 1984, y se definía así al software que cumple con unas condiciones muy claras: libertad para ejecutarlo como quieras, libertad para estudiarlo y modificarlo, libertad para distribuir copias, y libertad para distribuir copias modificadas.

El término “open source” no surge hasta el 3 de febrero de 1998, cuando unas cuantas personas se reúnen en Palo Alto para buscar un término “más adecuado”. Había varias razones:

  • En inglés “free” significa libre y gratis, por lo que siempre había que estar aclarando free as in free speech, not free as in free beer (en castellano se traduciría como “libre como libertad de expresión, no libre como barra libre”).
  • Buscaban un término más amigable para las empresas y el negocio que se avecinaba.
  • Cuestiones ideológicas y manías personales contra la Free Software Foundation y Richard Stallman. Fundamentalmente no compartían la visión y postura ética de RMS, estaban más interesados en minimizar, y mejor desaparecer, su discurso.

Una de las personas que más divulgó y ayudó a establecer el término open source fue Tim O’Reilly, que en abril de 1998 cambió el nombre de la conferencia Freeware summit” a “Open Source Summit. Fue el mismo O’Reilly, en el interés de sus negocios, que se aprovechó de la popularidad del término para empezar a llamar y divulgar con la apostilla “open” a todo lo que se meneaba (así tenemos hasta “open government”). No le ha ido nada mal, se posicionó como el líder espiritual-ideológico-negocios de todo lo relacionado con la palabra.

Como resultado de esa reunión de 1998 se Bruce Perens y Eric Raymond fundaron la Open Software Initiative, que definió las condiciones para que un programa de ordenador sea open source: The Open Source Definition. Estas condiciones fueron inspiradas -casi copiadas literalmente, no en vano Bruce Perens fue uno de sus autores- de las condiciones que debían cumplir los programas para ser considerados libres (Debian Free Software Guidelines) y por lo tanto aptos para ser incluidos en su distribución.

Es decir, dejando de lado las diferencias sobre todo ideológicas y lingüísticas, las licencias de software que cumplen con las condiciones de open source o Debian Free Software son licencias de software libre. Aunque en castellano nunca tuvimos problemas con comprender qué significa “libre” en el contexto de software, y que es totalmente compatible con las definiciones de la FSF, OSI o Debian, se empezó a usar mucho el anglicismo open source. En gran parte se debe al éxito del discurso de Tim O’Reilly (que fue muy criticado por Eben Moglen) y sus wannabe en nuestro país.

Nos encanta la levedad y el discurso fácil, aún así es incomprensible que se reemplace un término que todo el mundo entiende por un anglicismo que sólo ha creado confusión. Mucha gente que me contestó o preguntó en Twitter pensaban cosas muy distintas: que libre era sólo para software gratis (¡¿?!), otros que open source también eran los programas donde se puede ver el código, otros que “software libre” eran solo aquellos que tenían la cláusula copyleft, etc. Es decir, ni siquiera el uso y abuso del open source ha servidor para aclarar el tema, sólo agregó -y sigue- más confusión. Lo cuál no es nada novedoso entre nuestros charlatanes del discurso blandengue y de lecturas en diagonal, pasó exactamente lo mismo con el término copyleft.

Algunos, para intentar arreglar la gilipollez el desaguisado de estar usando un anglicismo en vez del más claro y popular “software libre” intentaron arreglarlo, empezado a llamar “código abierto”. Lo que aumentó aún más la confusión, ¿qué carallo significa el “abierto” en software? Como tampoco aclaraba demasiado, cuando se discutió la definición de software libre en la legislación española se usó “código de fuentes abiertas”, o:

¡Está clarísimo! :roll:

Es decir, algunos empezaron a usar open source como un forma de ser más genérica que software libre, que se incluya también a esos programas que te dejan ver el código (y nada más), lo que es erróneo de acuerdo a la definición original y oficial de open source (¡ei! que no es tan antiguo, todavía no tiene ni 16 años). Otros porque pensaban que era mejor alejarse de los postulados éticos de la Free Software Foundation. Otros porque sonaba más cool y dospuntocero que software libre, ¡si hasta O’Reilly lo usaba en sus conferencias y series de libros! Y otros sencillamente por la costumbre, sin tener muy claro qué significa.

Sea como fuese, no hacía falta y sólo agrega confusión. Así que empezad a llamar a las cosas por su nombre, si habláis de software libre no le llaméis open source, que luego ni los que a autodefinen como gurús entienden muy bien de qué están hablando:

Cuánto mal nos ha hecho el buenrollismo dospuntocerista y sus charlatanes de saraos.

Categorías:ética, software libre Etiquetas: ,
Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.

Únete a otros 428 seguidores