Una técnica útil para el programador solitario (o sea, yo)

abril 24, 2014 4 comentarios

No sé si os pasa a todos, yo creo que sí, pero tenía serios problemas de organización y productividad en el desarrollo de Menéame. Quizás sea un caso especial, es un sistema complejo:

  • software relativamente grande y soy básicamente el único programador responsable de todos los módulos,
  • diversidad de lenguajes, PHP para la web, Python para scripts y programas “off line”, Perl por herencia de hace años,
  • base de datos grande e imposible de hacer alteraciones de las tablas por el tamaño de las mismas (ya veremos con el MySQL 5.6),
  • mucha manipulación de datos en la base de datos,
  • interacciones complejas de usuarios,
  • muchos controles de entradas y acciones de usuarios “externos”,
  • los usuarios piden muchas modificaciones, correcciones y detectan bugs que ni se te pasaron por la cabeza que podían ocurrir,
  • cada vez que se implementa una nueva característica (cada vez más complejas), aparecen nuevos bugs y sobre todo, los usuarios demandan muchas modificaciones y ań nuevas características complementarias.

Con todo esto, a veces me ocurría que me bloqueaba porque no sabía por dónde comenzar, o que pasos seguir, o cuál era el trabajo pendiente, cuáles son importantes, cuáles son urgentes, y cuáles secundarios que pueden esperar hasta tener ese momento de inspiración. Soy bastante desorganizado, y odio profundamente usar programas (los tipos “gestión de tickets”) para esto. Ya demasiado tengo con ventanas de editores, consolas de administración y páginas de manuales para encima tener que estar buscando una ventana perdida para ir leyendo y apuntando lo que estoy haciendo.

Leer más…

Periodismo convencional

marzo 14, 2014 Los comentarios están cerrados

Plenty of pundits have really high IQs, but they don’t have any discipline in how they look at the world, and so it leads to a lot of bullshit, basically [...] We think that’s a weakness of conventional journalism, that you have beautiful English language skills and fewer math skills.

They don’t permit a lot of complexity in their thinking. They pull threads together from very weak evidence and draw grand conclusions based on them.

They’re ironically very predictable from week to week. [...] You can kind of auto-script it, basically.

It’s people who have very strong ideological priors, is the fancy way to put it, that are governing their thinking. They’re not really evaluating the data as it comes in, not doing a lot of [original] thinking. They’re just spitting out the same column every week and using a different subject matter to do the same thing over and over.

[T]he first step in using data is that you have to collect data, you have to organize it, and you have to explain the relationships. Only then, in rare cases, do you feel like you have a good enough understanding to generalize it into predictions about the way the world really works.

En la entrevista a Nate Silver, palabras de él. Muy de acuerdo. Si te pica, es que quizás no lavas tan bien ;)

Categorías:malaprensa, medios Etiquetas: ,

Las instancias m3 de EC2 no son lo que prometen

marzo 13, 2014 4 comentarios

Actualización: sigo estudiando el tema porque es muy raro, si pongo un proceso en bucle no consume el 100% de CPU, sino el 50%. Parece que hay un problema de medición (tanto localmente como lo que mide Amazon CloudWatch). Si descubro algo más lo pondré.

En enero de este año Amazon habilitó el uso general de sus nuevas instancias “m3″ (las originales son m1). Además del almacenamiento SSD, estas instancias tienen -según ellos- más CPU (3 ECU vs 2 ECU de las m1). Para los servidores web de Menéame usamos instancias m1.medium, pero las m3.medium parecían más adecuadas, nos podíamos ahorrar alrededor del 50% del coste. No las cambié inmediatamente porque el espacio disponible en /mnt en las m3 es muy pequeño (sólo 4GB) y allí es donde generábamos los logs del NGInx.

Pero estos días Amazon también empezó a ofrecer almacenar los logs del balanceador de carga (ELB) en S3, por lo que habilté estos y deshabilité los generados por NGInx en las instancias. Así, ya no hacían faltan varias decenas de GB por cada 24 horas de funcionamiento de cada instancia y podíamos pasar a usar las instancias m3 sin ningún otro cambio. Lo hice a partir de las 12 de la noche, tal como es visible en el siguiente gráfico.

Leer más…

Categorías:menéame Etiquetas: , ,

Tendencias (“trends”) históricas del uso de palabras con Sphinx

febrero 13, 2014 4 comentarios

Hace unos días quise saber desde cuándo se empezó a hablar de desahucios y suicidios en la prensa en España. Fui a Google Trends y el gráfico mostraba una evolución demasiada plana, que no se correspondía con tantas noticias que leímos en la prensa española. Me pregunté si, y cómo, podía obtener esas estadísticas en Menéame. Se me ocurrió que debería haber un truco relativamente sencillo usando los índices de de búsqueda de Sphinx (lo usamos para el buscador de Menéame). Así fue que en pocas horas pude implementar un sistema similar a Google Trends en Menéame.

Esto es lo que salió con las tendencias de esas dos palabras por su frecuencia de aparición por meses:

Evolución de suicidios y deshaucios

Leer más…

El vídeo del interrogatorio de la infanta, y la [des]protección de las fuentes

febrero 11, 2014 8 comentarios

Ayer me desayuné con el vídeo del interrogatorio de la infanta, me sorprendió. Pero no por lo que dijo, era de esperar, sino por la forma en que se ha divulgado, especialmente por El Mundo, sin tomar medidas previas para asegurar el anonimato de los autores. Es un tema ya debatido, la responsabilidad y la protección cuando se divulga información que puede poner en problemas a las fuentes. Ocurrió con Wikileaks y el soldado Manning, a pesar de todos los recaudos que tomaron, al final la única víctima de la liberación de esa documentación fue el/la pobre soldado.

Con el tema del vídeo de la Infanta pasó algo similar, pero mucho más chapuza e irresponsable. Me explico:

  1. Las imágenes del vídeo permiten localizar con precisión de centímetros a la posición de la cámara grabadora.
  2. No sólo está rodeado de testigos, también hay cámaras grabando (y seguramente fotografías), por lo que conocida la posición de la cámara se puede saber quién era el portador de la misma. Adiós cualquier indicio de anonimato.
  3. Se sube el vídeo “anónimamente” a una web de una empresa española, con sede y servidores en España, la justicia lo tiene muy sencillo para solicitar los datos con que se dio de alta el usuario y desde dónde subió el vídeo. La empresa no se puede negar a entregar esos datos, por lo que los que grabaron y/o subieron el vídeo lo tienen aún más complicado para defenderse.
  4. Parece (dicen, no confirmado) que se subió vía una conexión 3G, por lo que -dependiendo de operador, pero la mayoría lo permiten- se puede ubicar qué dispositivo es el que lo subió. No es lo mismo que ocurre con conexiones hogareñas con routers WiFi, donde no se puede conocer con precisión al dispositivo/ordenador que se conectó a un servidor externo. Actualización: parece que se hizo usando una VPN.

Para proteger el anonimato de las fuentes tendría que haberse eliminado las imágenes, haber subido a un servidor de otro país (preferentemente sin convenios de colaboración con España o Europa) mediante TOR o servidores anonimizadores en otros países. Aún así todavía es posible obtener la dirección IP de origen (por eso es mejor hacerlo desde conexiones “colectivas”), pero requiere mucho más esfuerzo, que quizás no compense por la tontería de información que se divulgó.

En resumen, se divulga un vídeo -que aporta nada de información que no se supiese o esperase- sin tomar los mínimos recaudos para proteger a las fuentes. Los más probable (a menos que encuentren otras relaciones e intereses) es que El Mundo o Wouzee no sufran las consecuencias legales, sólo el “pringao” que grabó ese vídeo, que creyó que ya aseguraba su anonimato subiéndolo con un nombre de usuario falso. Una gran irresponsabilidad de unos, y una ignorancia casi infantil de otros.

Otra prueba de que la tecnología por sí misma no soluciona los problemas políticos ni nos da más libertad automágicamente, ni para los más tecnoutópicos. Los que a esta hora están siendo investigados (y quizás hasta interrogados) lo habrán aprendido por experiencia propia. Por eso cabe más responsabilidad de los que se han lucrado (en dinero o clics) con este vídeo: han dejado a sus fuentes en pelotas y casi sin defensas para informarnos de lo obvio. Un coste enorme para unos, un beneficio casi cero para los demás. Una irresponsabilidad.

No sé qué les hacen los móviles, o mi fallida portabilidad de móviles con ONO

enero 29, 2014 8 comentarios

Se está hablando bastante ahora de la posible compra de ONO por parte de Vodafone, las reacciones suelen ser de que empeorará mucho el servicio. No estoy tan seguro que sea empeorable en móviles. Somos clientes de ONO casi desde sus inicios (1996 o 1997), empezamos con el modem analógico. Cuando ofrecieron Internet a 128 kbps nos pasamos casi inmediatamente. Cuando ofrecieron teléfono fijo, también nos pasamos casi inmediatamente. Luego pasaron a TV digital (los decodificadores Motorola), nos pasamos rápidamente. Cuando empezaron a ofrecer TiVo, nos pasamos rápidamente. Ahora tenemos combinado TV (con todos los canales), teléfono fijo, Internet de 50 mbps, un 3G de datos, y dos TiVos.

Durante todos estos años (más de 15) no tuvimos problemas con la atención de ONO, y técnicamente sólo me quejé de los cortes de Internet de madrugada (hace unos meses que no ocurren, o al menos no lo noté). Es decir, fui siempre un cliente razonablemente satisfecho… hasta que hace 10 días acepté hacer una portabilidad de móvil de Pepehone hacia ONO. Fue una pesadilla, y ni siquiera se pudo hacer, tuve que llamar varias veces para cancelarlas por errores de ellos.

El jueves 16 de enero (como a las 20hs) me llama una operadora para ofrecerme -por cuarta vez- móvil con banda ancha. Le dije que no, que tenemos tres líneas familiares con Pepephone y que estábamos satisfechos. Me dijo que con tres líneas podían hacerme una buena oferta, le pedí que me llame al día siguiente (estaba en la calle).

Me llamó el viernes a la misma, era una chica que apenas podía hablar, era muy difícil entenderse con ella. No era sólo su acento sudamericano, no suelo tener problemas con eso, soy “sudaca”, era algo más, la calidad del sonido era mala. Me hace una oferta de las tres líneas con 1 GB de datos (era lo mínimo que le dije que aceptaría) por poco más de tres euros en total por mes. La oferta era muy buena, le dije que adelante. Tardamos más de hora y media hasta que le pasé todos los datos y los números de las tres líneas (les llamaré A, B y C) e hicimos las verificaciones y correcciones (tuve muchos problemas en hacerle entender que mi apellido era Galli, con G, con Calli, con C).

Al final acabamos y me dice que me pasará al departamente de verificación. Me atiende una chica con acento peninsular, me empieza a repetir los datos pero me da sólo los de la línea B. Les dije que faltaban dos líneas, me responde que sólo le pasaron esa. Le contesto que hacemos las tres o ninguna, que no iba a estar a medias y reclamando. Entonces la chica dice que tiene que cancelar todo y que avisará para que me vuelvan a llamar.

A los pocos minutos me llama la misma chica que antes, me pide disculpas y me dice que ahora lo pasaba de nuevo bien. Me vuelve a pasar al departamento de verificación, exactamente el mismo problema, sólo estaban los datos de la línea B. Vuelta a cancelar y dice que dejará una nota.

No sé si esa misma noche o el sábado me llama una hombre, me pregunta qué había pasado, le explico. Me pregunta si todavía me interesa, le digo que sí, pero sólo si se hacen las tres a la vez. Me dice que no hay problemas, que está cancelado y que me llamará un comercial.

El miércoles de la semana siguiente (21 de enero) recibo los siguientes SMS:

SMS de ONO

Mi sorpresa era mayúscula, no sólo porque entendí que el proceso estaba muerto, además no había venido nadie por casa, y era sospechoso que sólo apareciesen dos SMS y no por las tres líneas (A, B y C), ni uno por la única (B) que me habían intentado verificar antes.

Llamé al teléfono indicado, me atienden bien, dicen que efectivamente se hicieron un lío y me pide que llame al 800 400 005. Llamo a ese número, le explico, me confirma el error y me dice que está todo cancelado. Me dice si sigo interesado en reiniciar el proceso, le digo que si mantienen la oferta sí, Me pide que por favor no cuelgue, suena una música, luego se calla, después de 7 minutos se corta la llamada (todo esto desde el teléfono fijo del propio ONO). Me quedo muy cabreado, pero no vuelvo a insistir.

Al día siguiente por la tarde noche, otra sorpresa, dos sobres de ONO con los microchips para las líneas A y B, y avisando que la portabilidad seguía en curso:

ONO

El viernes 23 llamé muy cabreado al 800 400 005. Les vuelvo a explicar, casi chillando -estaba my cabreado a estas alturas-. Pero las sorpresas no acaban, me dice que la portabilidad estaba en curso, que eran de 300 MB de datos, y que sólo por la primera línea (la B) eran 3 euros y pico. No la dejé continuar, le dije que ni siquiera eso era lo que me ofrecieron -ni en datos ni en tarifa- y que lo corte ya mismo, que estaba todo grabado.

Al final parece que cancelaron todo, al menos todavía no he vuelto a tener noticias. Pero es curioso, tantos años de cliente satisfecho con ONO [*], pero en cuanto intenté ser cliente de móviles se jodió toda la historia.

No sé que les pasa con los móviles, pero ya da miedo hasta coger las llamadas de sus comerciales.

[*] A pesar que nunca te aplican los descuentos automáticamente, tienes que llamar para obtener los precios más bajos que ofrecen por lo mismo.

Categorías:empresas, internet Etiquetas: ,

Malaprensa: ¿sólo el 13,6% de menores de 30 años tiene trabajo?

enero 26, 2014 12 comentarios

Respuesta breve: ¡cielos!

Respuesta un poco más larga: no sé cómo han obtenido ese disparate.

Respuesta aún más larga: aunque no sepas nada de estadísticas básicas -deberías, sobre todo si eres periodista y escribes de economía-, ese número debería hacer saltar todas las alarmas y no puedes publicarlo sin preguntar antes.

Actualización: cambiaron el titular  a Una generación arrasada por el paro: sólo el 13,6% de los ocupados son menores de 30 años, que muy sensacionalista, pero no dice nada si no se explica la distribución demográfica.

Titulares disparatados

Me dí cuenta del titular por @malaprensa, al principio hasta dudé -no recuerdo de memoria los números de EPA-, pero tras pocos segundos pensé que era demasiado, y que además no definían desde qué edad. ¿No se les habrá ocurrido contar hasta los bebés recién nacidos? (todo puede ser).

Recurrí a los datos de la EPA y bajé un par de hojas de cálculo (usé los del cuarto trimestre de 2013): los totales de población activa (EPA-4) y las de población ocupada (EPA-8). La EPA no da los totales a 30 años, precisamente, sino en rango de edad de de 16-19, luego a 24, luego a 55 y más de 55. En otra hoja de cálculo obtuve los totales acumulados para 19, 24, 54 y mayores. Y este es el gráfico resultante:

Paro por edades acumulados

Si estás acostumbrado a mirar gráficos ya te diste cuenta: la ocupación hasta 24 años es del 45%, la de hasta 54 años es el 73%. Por la tanto la ocupación de las personas hasta 30 años debe ser superior a 45% y menor a 73%. Con esto ya es suficiente para ver lo ridículo del titular de la noticia, pero se puede intentar una aproximación mejor con estos datos: una interpolación lineal entre el 45 y 73 da una ocupación aproximada mínima [*] del 50% para personas hasta 30 años.

No tiene relación con ese 13%, ¿cómo llegó a eso? Ni idea, no soy socio y no puedo leer todavía (paradoja que se llame infolibre), pero no creo que haya ningún dato que pueda sostener eso. A menos que se le haya ocurrido comparar con el censo total (es decir, personas “no activas”, como estudiantes de bachillerato o universitarios que no buscan trabajo), lo que no deja de ser una burrada, sobre todo si es para elaborar titulares de artículos que pretenden analizar el paro.

En cualquier caso, ya sois un pelín más conscientes de la calidad de información que consumís.

Addendum

En la entradilla afirma:

Los jóvenes rozaban la cuarta parte de la población ocupada en 2006

No sé de dónde saca esos datos ni su relación con ese presunto 13% de ocupados, pero según la EPA en 2006 los jóvenes de hasta 24 años eran el 10,3% de la población ocupada. En 2013 fue del 4.3%.

PS: Si esto es el periodismo de datos que prometen, prefiero a las tertulias.

[*] Se se hacen los ajustes de curva como tocan, el porcentaje será superior. Fijaros que al final -a la derecha- la tasa de ocupación está mucho más estabilizada, lo que implica que la subida de ocupación de 24 a 55 no es lineal, sino que sube más rápido al principio y luego se hace más horizontal. Es simple hacerlo, pero ya es tarde.

Categorías:malaprensa, medios, prensa Etiquetas: , , ,
Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.

Únete a otros 428 seguidores