El fichero de Méritos semanal es sólo parcial: contiene datos acerca de las TXs de méritos de los últimos 120 días. Para tener datos de las TXs anteriores, lo que he hecho desde los inicios es ir acumulando y fusionando estos ficheros (evitando los solapes de las TXs). Como soporte para ello, acumulo todos los datos resultantes en una BD SQL Server, donde además tengo casi todos mis scripts que me permiten manipular y cruzar los datos que uso en mis estadísticas.
Como el foro no proporciona datos más allá de los IDs de los posts ni de los perfiles de usuario, se ha de raspar la información que uno precisa del foro en base a estos Ids. Para ello, los datos de los perfiles de usuario los obtengo usando un proceso Python+Beautiful soup (cada semana raspo nuevamente todos los perfiles meritadores y meritados).
Los datos de los posts los obtengo con una herramienta de raspado llamada Octoparse, pero lo suyo sería moverlo a Python para tener pleno control y no tener limitaciones (no lo he hecho aún por darme algo de pereza y tener un sistema que ya me funciona). Actualmente, sólo me bajo cada semana datos de los nuevos posts meritados (los demás los tengo de semanas anteriores).
Los datos raspados los integro en la BD SQL Server, por lo que las 3 tablas fundamentales son TXs, perfiles de usuario y cabeceras de posts (no bajo los contenidos).
Con lo anterior, tengo una serie de procesos SQL (muchos, aquí soy un crack) para manejar la información. Su explotación puede ser ahora por vía de:
- Generación de ficheros Excel para integrarlos en el Cuadro de Mandos de Méritos. Genero unos 10 cada semana con los datos actualizados.
- Generación de ficheros Excel y/o Google Docs para las estadísticas publicadas en el foro.
El Cuadro de Mandos está sobre Tableau Public, para que sea gratuito para todos (desarrollo y usuario). Las demás versiones van con licencias por usuario y demás. Tiene, eso sí, sus limitaciones (cierre de sesiones tras unos 4 min. de inactividad, add-ons limitados, pocos automatismos, etc.). El Cuadro de Mandos lo tenía cerrado hasta esta semana, pero ya lo he abierto por si alguien quiere instalarse Tableau Public y verlo por dentro, además de acceder a las fuentes de datos que cargo (ver este post).
Hay mucho proceso semi-manual, que lo puedo tolerar al ser la actualización de mis datos semanal o mensual. Si la granularidad del refresco fuese diaria o en tiempo real, habría que replanteárselo todo.