Author

Topic: La página de estadísticas del foro. Un par de dudas (Read 150 times)

full member
Activity: 336
Merit: 203



Sí, algo así me imaginaba, la verdad. El tema de mi interés es absolutamente social, pero efectivamente me faltan datos. Supongo que se pueden establecer otra serie de analogías con los datos existentes y basarme en ellos, pero es una tarea titánica que no merece para nada la pena, ya que el análisis sería puramente por hobby. Pensé en estudiar la idea de una suerte de script que pudiera desentramar las actividades de nuevos usuarios por sección, pero igual, tendría que descargar prácticamente todos los post del foro y no merece la pena.

Lo del nuevo foro lo llevo viendo mucho tiempo y no parece que vaya a existir nunca. Se supone que hay todo un proceso de "modernización" infinito que ha estado parado desde hace años, ¿no?

Bueno, como siempre, muchas gracias. Honestamente mi interés es desde la perspectíva histórico/social, sería realizar un análisis del foro comparativo, es decir, las primeras publicaciones y cómo, con los años, se ha migrado la idea inicial de creación del mismo hacia otra nueva (que no tiene por qué ser ni mejor ni peor) con nuevas características de integración social. Me resulta muy interesante, además, desde la perspectiva histórica, pues, la mera existencia de este foro será un rompecabezas para los arqueólogos cybernéticos que es probable que existan en un futuro.
Ahora bien, desde mi ángulo, la superpoblación crea conflictos de intereses en las sociedades, así como la degeneración paulatina de las creencias grupales, convirtiéndosé algo así como una masa informe de falsas creencias e ideas. Me interesa mucho la mitificación de las personas, como por ejemplo Theymos y algunos usuarios de alto rango, por aquellos otros nuevos; asimismo, me parece de lo más interesante utilizar el ejemplo del foro como precisamente un lugar (aunque virtual, aplicable a lo físico) que, una vez superpoblado, se va deteriorando y convirtiendo en un sitio con robos, engaños, intereses, etc.

Mi análisis básicamente pretendía eso, como ejercicio histórico-social a pequeño nivel que sirva de ejemplo para analizar después otro tipo de problemáticas, como los sistemas de creencias en sociedades masificadas vs en sociedades estables en cuanto a población.

Bueno, ya sabes, las "pajas" mentales de una hisotoriadora-arqueóloga  Cheesy

Pero muchas gracias, trataré de extraer mi información a través de un modelo estratigráfico, que creo que puede ser aplicable en este tipo de sitios, pero obviamente con un manejo de datos muy inferior al que pretendía.

un abrazo, y ¡¡¡gracias!!! (¡¡sirvió la invocación!!)
legendary
Activity: 2338
Merit: 10802
There are lies, damned lies and statistics. MTwain
<…>
¿Hay alguna manera de saber dónde publican los nuevos usuarios? Recientemente se ha hablado mucho en las secciones de discusión en inglés, por ejemplo, de los grandes problemas de Scam que el foro está padeciendo. Mi interés radica en saber cuáles son las secciones donde más publicaron los usuarios registrados en el último mes, y así poder hacer un análisis "sociocultural" de las intenciones primordiales de los mismos.
Las estadísticas del foro globales son sencillas, y no permiten juego ni cruzar variables. Lo que hay es lo que hay y no podemos hacer mucho con ello (como filtrar por fechas, etc).

Desafortunadamente, (casi) toda la información que he tratado toma como referente la base de usuarios que ha recibido al menos 1 sMérito (transacción). Esto se debe a varios motivos:
1.   La base de la información del fichero merit.txt publicado cada viernes es esa (usuarios meritados). Este fichero tiene entre otros datos el IdUsuario meritor, el IdUsuario meritado y el IdMensaje.

2.   Las técnicas de raspado de datos para complementar los datos derivados del punto anterior (rango, nombre de usuario, fecha de alta, etc). abordan relativamente bien conjuntos pequeños de datos (decenas de miles), pero es muy farragoso para cantidades grandes de datos (más o menos puedes bajar datos de un perfil de usuario cada 2 segundos en batches limitados para que no sea de pago).

En el fondo se complica bastante más si se baja también información de los mensajes meritados.

3.   El interés principal está en analizar lo meritado (con escaso foco en lo no meritado).

 
El público objetivo que necesitarías para tu estudio sería esencialmente “todo el que haya registrado en el último mes”, y de ellos derivar información de su perfil y los mensajes publicados.
La dificultad no estriba en saber determinar los usuarios creados en un periodo determinado (ya los he analizado así en alguna ocasión), sino en:

a.   ¿Cómo obtener todos los IDs de sus mensaje? (cada mensaje publicado tiene un ID distinto que no se deriva del IdUsuario).
Conceptualmente, podemos ir al perfil del usuario y picar en cada post de su histórico para ver el Id en la barra del navegador, pero estas acciones son complicadas de automatizar (por lo menos no veo cómo hacerlo con las herramientas que uso). Lo ideal lógicamente es disponer de ficheros públicos de carga con estos datos, que no existen (y theymos ya declaró que no exportará contenido de mensajes a ficheros).

b.   Aunque se lograse la información anterior, luego se ha de entrar en cada mensaje, bajarlo, y analizarlo. La primera parte tampoco es trivial (hace poco analicé el cuerpo de todos los mensajes meritados, pero me costó horrores bajarlos y quitar los quotes de los mimos – quizás las herramientas que uso no son las mejores).  
Pero la segunda componente es ir más allá del “meta” (quotes, imágenes, longitud, número de palabras, etc.)  y hacer un análisis del contenido. Esto sí que es una tarea faraónica dado el gran número de posts (más allá de saber cómo hacerlo y buscando qué factores analizar y lidiar con un entorno multilingüe).

Quote
Aunque sé que esto es bastante evidente, es decir, la mayoría van directos a las bounties, creo que respaldarlo con números sería de gran interés para el foro. Asimismo, me pregunto si hay manera de analizar cuáles son las bounties, airdrop, o campañas en general con más usuarios nuevos, ya que estoy interesada en tomarme el tiempo de analizar si están relacionadas con timos. Y es que algo me dice que las bounties que aceptan más nuevos probablemente sean aquellas que más spam contienen, por ovbias razones, pero, una vez más, me interesa analizarlas a través de los números.
Por las mismas razones, es una tarea muy complicada atacando la información desde fuera, en base a raspados y con carencia de los IDs de mensaje de una manera sencilla.

Esto quiero entender que internamente lo controlan hasta cierto punto, dado que con todos los datos en una BD accesible hay mucho que se puede hacer sin más que un poco de ingenio y hábito al trabajo con grandes volúmenes de datos.

En resumen, por ahora no se puede abordar tu proyecto (salvo que alguien vea otro camino de acceso a la información).

Se que Vod tiene un proyecto de información pública, y es quien más información aborda en la actualidad (se baja todos los perfiles de usuario cada mes (varias veces) y las transacciones de mérito las raspa continuamente en la página de recién meritados). No obstante, nunca he visto que entrase en los mensajes en sí y dudo que pueda/quiera bajárselos todos para poder analizarlos en su entorno (por los problemas antes citados).

De hecho, si los méritos circulasen en un volumen mucho mayor, problemas tendríamos para hacer lo que hacemos en base a raspados de la web (theymos hace meses dijo que podría crear más ficheros y pidió qué nos gustaría ver en algún post, pero ahí se quedó la cosa).
Me encantaría poder cruzar el umbral del microcosmos de los usuarios meritados para poder contrastar con los no meritados, pero va a ser que no por ahora …

P.D. Llevan años en un proyecto para traspasar el foro a un nuevo software. Es un misterio como va el proyecto, pero podría suponer que todo lo que hacemos ahora por fuera ya no fuese operativo.
full member
Activity: 336
Merit: 203
Bueno, supongo que muchos de vosotros conocéis esto:
https://bitcointalk.org/index.php?action=stats

Es la página donde se publican las estadísticas del foro, y en ella podréis encontrar cuántos miembros nuevos llegan, cuándo, quién, etc. Una de las cosas que más me han llamado la atención es que la sección con más posts por día es la de Altcoin Announcements, seguida de Bounties y, en tercer lugar, Altcoin Discussion.


Bueno, mi pregunta va dirigida sobre todo a los genios de las estadísticas que sé que circulan por aquí:
¿Hay alguna manera de saber dónde publican los nuevos usuarios? Recientemente se ha hablado mucho en las secciones de discusión en inglés, por ejemplo, de los grandes problemas de Scam que el foro está padeciendo. Mi interés radica en saber cuáles son las secciones donde más publicaron los usuarios registrados en el último mes, y así poder hacer un análisis "sociocultural" de las intenciones primordiales de los mismos.
Aunque sé que esto es bastante evidente, es decir, la mayoría van directos a las bounties, creo que respaldarlo con números sería de gran interés para el foro. Asimismo, me pregunto si hay manera de analizar cuáles son las bounties, airdrop, o campañas en general con más usuarios nuevos, ya que estoy interesada en tomarme el tiempo de analizar si están relacionadas con timos. Y es que algo me dice que las bounties que aceptan más nuevos probablemente sean aquellas que más spam contienen, por ovbias razones, pero, una vez más, me interesa analizarlas a través de los números.

Soy un desastre en matemáticas, en estadística y en todo eso. He tratado de informarme y aprender cómo hacer análisis de este tipo, pero fracasado en cada intento. Creo que si alguien se anima a hacerlo (@DdmrDdmr, yo te invoco), podría ser de gran utilidad para saber hasta qué punto muchas de las quejas son bien fundamentadas.

Bueno, gracias a todos y saludos!!
Jump to: