<…>
¿Hay alguna manera de saber dónde publican los nuevos usuarios? Recientemente se ha hablado mucho en las secciones de discusión en inglés, por ejemplo, de los grandes problemas de Scam que el foro está padeciendo. Mi interés radica en saber cuáles son las secciones donde más publicaron los usuarios registrados en el último mes, y así poder hacer un análisis "sociocultural" de las intenciones primordiales de los mismos.
Las estadísticas del foro globales son sencillas, y no permiten juego ni cruzar variables. Lo que hay es lo que hay y no podemos hacer mucho con ello (como filtrar por fechas, etc).
Desafortunadamente, (casi) toda la información que he tratado toma como referente la base de usuarios que ha recibido al menos 1 sMérito (transacción). Esto se debe a varios motivos:
1. La base de la información del fichero merit.txt publicado cada viernes es esa (usuarios meritados). Este fichero tiene entre otros datos el IdUsuario meritor, el IdUsuario meritado y el IdMensaje.
2. Las técnicas de raspado de datos para complementar los datos derivados del punto anterior (rango, nombre de usuario, fecha de alta, etc). abordan relativamente bien conjuntos pequeños de datos (decenas de miles), pero es muy farragoso para cantidades grandes de datos (más o menos puedes bajar datos de un perfil de usuario cada 2 segundos en batches limitados para que no sea de pago).
En el fondo se complica bastante más si se baja también información de los mensajes meritados.
3. El interés principal está en analizar lo meritado (con escaso foco en lo no meritado).
El público objetivo que necesitarías para tu estudio sería esencialmente “todo el que haya registrado en el último mes”, y de ellos derivar información de su perfil y los mensajes publicados.
La dificultad no estriba en saber determinar los usuarios creados en un periodo determinado (ya los he analizado así en alguna ocasión), sino en:
a. ¿Cómo obtener todos los IDs de sus mensaje? (cada mensaje publicado tiene un ID distinto que no se deriva del IdUsuario).
Conceptualmente, podemos ir al perfil del usuario y picar en cada post de su histórico para ver el Id en la barra del navegador, pero estas acciones son complicadas de automatizar (por lo menos no veo cómo hacerlo con las herramientas que uso). Lo ideal lógicamente es disponer de ficheros públicos de carga con estos datos, que no existen (y theymos ya declaró que no exportará contenido de mensajes a ficheros).
b. Aunque se lograse la información anterior, luego se ha de entrar en cada mensaje, bajarlo, y analizarlo. La primera parte tampoco es trivial (hace poco analicé el cuerpo de todos los mensajes meritados, pero me costó horrores bajarlos y quitar los quotes de los mimos – quizás las herramientas que uso no son las mejores).
Pero la segunda componente es ir más allá del “meta” (quotes, imágenes, longitud, número de palabras, etc.) y hacer un análisis del contenido. Esto sí que es una tarea faraónica dado el gran número de posts (más allá de saber cómo hacerlo y buscando qué factores analizar y lidiar con un entorno multilingüe).
Aunque sé que esto es bastante evidente, es decir, la mayoría van directos a las bounties, creo que respaldarlo con números sería de gran interés para el foro. Asimismo, me pregunto si hay manera de analizar cuáles son las bounties, airdrop, o campañas en general con más usuarios nuevos, ya que estoy interesada en tomarme el tiempo de analizar si están relacionadas con timos. Y es que algo me dice que las bounties que aceptan más nuevos probablemente sean aquellas que más spam contienen, por ovbias razones, pero, una vez más, me interesa analizarlas a través de los números.
Por las mismas razones, es una tarea muy complicada atacando la información desde fuera, en base a raspados y con carencia de los IDs de mensaje de una manera sencilla.
Esto quiero entender que internamente lo controlan hasta cierto punto, dado que con todos los datos en una BD accesible hay mucho que se puede hacer sin más que un poco de ingenio y hábito al trabajo con grandes volúmenes de datos.
En resumen, por ahora no se puede abordar tu proyecto (salvo que alguien vea otro camino de acceso a la información).
Se que
Vod tiene un proyecto de información pública, y es quien más información aborda en la actualidad (se baja todos los perfiles de usuario cada mes (varias veces) y las transacciones de mérito las raspa continuamente en la página de recién meritados). No obstante, nunca he visto que entrase en los mensajes en sí y dudo que pueda/quiera bajárselos todos para poder analizarlos en su entorno (por los problemas antes citados).
De hecho, si los méritos circulasen en un volumen mucho mayor, problemas tendríamos para hacer lo que hacemos en base a raspados de la web (theymos hace meses dijo que podría crear más ficheros y pidió qué nos gustaría ver en algún post, pero ahí se quedó la cosa).
Me encantaría poder cruzar el umbral del microcosmos de los usuarios meritados para poder contrastar con los no meritados, pero va a ser que no por ahora …
P.D. Llevan años en un proyecto para traspasar el foro a un nuevo software. Es un misterio como va el proyecto, pero podría suponer que todo lo que hacemos ahora por fuera ya no fuese operativo.