Anbei ein paar Weihnachtsspielereien (wie versprochen) und auch ein paar Kurven (leider nicht so schöne wie von bm42
).
Der folgende Plot zeigt die Kommentare-pro-Tag-Verteilung des "Der Aktuelle Kursverlauf"-Fadens über die Zeit (der schwarze horizontale Balken unten ist nur ein Artefakt des "quick und dirty"):
Der nächste Plot unten zeigt die
logarithmierte (!!!) Verteilung der Kommentare-pro-Tag-Verteilung (Histogramm: "wieviele Tage gibt es mit exp(3) = ca. 20 Kommentaren pro Tag => 350-400") und eine über den entsprechenden Mittelwert und Standardabweichung gefittete Normalverteilung in blau (mu = 2.955851 und sigma = 1.158586). Logarithmiert deshalb, weil die Verteilung sonst besonders hässlich ist und ganz und gar nicht normalverteilt aussieht!
Da es keine negativen Kommentare pro Tag gibt (im logarithmierten Fall sind das Kommentare zwischen 0 und 1, auch wenn manch Kommentar diesen Eindruck macht), so hat die Verteilung eine Häufung nahe Null. Soll heissen, es gibt viele Tage mit nur einem oder wenigen Kommentaren und diese sind NICHT mehr (wirklich) mit der Normalverteilung kompatibel (auch wenn das die Kurvenform nicht grossartig verschandelt, aber das sollte man im Hinterkopf behalten). Deswegen ist die blaue Kurve leicht nach links verschoben. Tage ohne Kommentare werden nicht erfasst, da diese nicht auf bitcointalk.org auftauchen und sowieso nicht logarithmiert werden können (log(0) ist nicht definiert).
Dies bedeutet, dass es möglich sein sollte, mit diesen Daten sinnvoll Statistik zu betreiben. Wer selbst spielen möchte, die Datei mit den Datums (=Daten) der Kommentare und weiteren Code gibt es wie immer bzw. seit neustem hier:
https://github.com/trantute/sentiment-hmm