Acabo de verlo en un envío al  Menéame, en la opinión de por qué han eliminado El Pequeño País no se limitan a echar la culpa a la crisis o la caída de la publicidad. El culpable es Internet, y por supuestos los Internautas que están mal acostumbrados a lo gratis. En la línea que cogieron varios medios desde el cambio de política del gobierno respecto al P2P y las descargas por Internet. De la “crisis del periodismo” se pasa a la crisis por culpa de los internautas

Más tazas, decenas de tazas. Ya podemos chillar y decir de todo, no cambiará sólo.

Toda esta movida, los cabreos, las manipulaciones y las campañas mediáticas coincidiendo con la “crisis del periodismo”, más la “broma” de sindemocracia.net me inspiró un proyecto que ya tengo bastante avanzado: recopilar la información y enlaces de agregadores (como Menéame, Barrapunto, etc.), blogs, redes sociales (Twitter, etc.) y medios on-line para presentar una página temática con el resumen y las relaciones entre las noticias más destacadas o comentadas por Internet al estilo de Techmeme [ver referencias al final].

Aproveché esta semana sin clases para programar la parte más dura, coñazo y sujeta a errores (casi me cuesta el divorcio –otra vez–, un día estuve casi 20 horas sin parar, mi mujer se levantó a la mañana, me vió en la misma posición que el mediodía anterior… todavía casi no me habla): recopilar la información referida al P2P, cultura digital, compartición de ficheros… (por ahora de unas 100 fuentes incluyendo Twitter –por eso estuvo más activo allí los últimos días, para ver cómo funcionan los envíos de enlaces y RSSs–, Barrapunto, medios y más de 50 blogs “especializados”), filtrarla, encontrar enlaces relacionados, seleccionar las palabras para los futuros análisis de frecuencia, párrafos candidatos para el resumen,  imágenes –reusaremos lo hecho para el Menéame–, estructurar todo eso y almacenarlo en la base de datos. Ahora mismo estoy en las pruebas de distintos algoritmos para verificar que se puede extraer “meta información” útil.

Los resultados son prometedores y confirman que es posible generar información útil (el tercer gráfico es interesante porque además agrega un parámetro temporal a las noticias, por eso se nota en la diferencia de “profundidad” en el árbol).

Lo estoy programando con Python + Django. Toda la interfaz de los scripts a la base de datos es a través del modelo de datos de Django, por ejemplo lo que estoy usando ahora para estructurar la información:

Así que una vez acabada la parte de análisis y clustering –comenzaré estos días, entre clase y clase– pasarlo a web será una tarea casi trivial –perderemos más tiempo con el diseño que con el “núcleo”–, además es todo cacheable por lo que no necesitará muchos recursos. El sistema sólo necesita unas pocas palabras claves (o una expresión regular) para indicar la “temática” para unas pocas fuentes RSS para luego “aprender” automáticamente.

Al final, si sale según lo previsto nos será muy fácil –ser un subproyecto del Menéame– montar sitios temáticos o categorías con recopilación, organización y enlace a las fuentes originales.

¿Crisis de los medios? más “medios” de información. ¿Crisis de la publicidad? Más sitios muy baratos que se sostendrían muy bien sólo con AdSense. ¿Crisis del periodismo? Más integración de muchas fuentes y usar las diversas “redes sociales”, agregadores y  hasta “twits” para seleccionar noticias temáticas

Pues eso, más tazas, también para ellos.

PS: Bueno, la realidad es que me lo paso DPM programando tonterías, todo lo demás son excusas tontas y oportunistas para poder seguir haciendo lo mismo y pagar la hipoteca🙂

Referencias: Muchas ideas de “arquitectura” las saqué de los papers que describen al Newsblaster de la Universidad de Columbia, luego comprado por Google, actualmente Google News. Recomiendo Tracking and Summarizing on a Daily Basis with Columbia’s Newsblaster y An Investigation of Linguistic Features and Clustering Algorithms for Topical Document Clustering.  Para una visión un poco más general y simple, Frequent Term-Based Text Clustering. Para una revisión completa y muy buena  del estado del arte (especialmente capítulo 16 y 17): Recent Developments in Document Clustering. Para algoritmos implementados en Python y explicados para “tontos”, el imprescindible libro Programming Collective Intelligence, el autor tiene en su blog el enlace para bajarse los códigos de ejemplo (muy útiles además).