Der HMM für diese Woche:
https://bitcointalksearch.org/topic/m.41380372Den "Bug" habe ich ausfindig machen können. Und zwar handelt es sich dabei um ein technisch-statistisches Problem. Der EM-Algorithmus (Expectation-Maximization Algorithmus) findet garantiert lokale Maxima aber nicht notwendigerweise das globale Maximum (nur nebenbei, ich glaube, dass die Reihenfolge EM-Algorithmus und daraufhin Viterbi-Algorithmus ist). Wenn man nun mit verschiedenen Randomseeds ein Modell fittet so kann man auf verschiedenen lokalen Maxima landen. Für den heutigen Tag gibt es mindestens drei Maxima: der obere Plot und dann die zwei unteren Plots.
ACHTUNG: Bei den zwei unteren Plots entsprechen die Farben NICHT dem (von mir diesem Zeitrum unterstellten) Sentiment!Wie man sehen kann gibt es zwei Modellfits, welche von der Likelihood, vom AIC (Akaike information criterion) und vom BIC (Bayesian information criterion) ziemlich nah beieinander liegen. Z.B. hat das obere Modell ein AIC von -562.36 und das eine von den unteren Modellen einen AIC von -566.19. Strikt mathematisch gesehen müsste man das Modell mit -566.19 wählen. Nun gilt aber auch, dass man erst dann, wenn die absolute Differenz der AICs zweier Modelle grösser 10 ist, die beiden Modelle als statistisch unterschiedlich betrachtet (
https://stats.stackexchange.com/questions/81427/aic-guidelines-in-model-selection). Die Differenz ist bei meinem Fall gleich 3.83 und somit sind die beiden Modelle statistisch gleichwertig. Den dritten Modellfit kann man ignorieren, da dieser signifikant schlechter ist als die anderen beiden.
Ich bin der Meinung, dass ein Modell, welches sich besser interpretieren lässt, im Zweifelsfall zu bevorzugen ist. Desweiteren weisst das Modell, welches ich bevorzuge, weniger Zustandsänderungen über die Zeit auf. Ich weiss nicht ob das im allgemeinen ein gutes Auswahlkriterium (zusätzlich zu den statistischen) ist, aber es ist imho nachvollziehbar, dass sich das Sentiment bei einer eher langfristigen Sichtweise nicht von Woche zu Woche ändert.
Für die Methode selbst heisst das also, dass man mit verschiedenen Randomseeds die lokalen Maxima abscannen muss, damit man den Fit findet mit dem man den Plot weiterführen kann. Ausser natürlich, es taucht ein Modellfit auf, dessen AIC statistisch signifikant besser als der des bevorzugten Fits ist. Dann muss man das bessere Modell nehmen. Dies wäre dann ein "erfolgreicher" Phasenübergang. Mal schaun ob es soweit kommt ...