https://medium.com/swlh/falsifying-the-log-growth-model-of-bitcoin-value-7db6ca3603f2перевод
Фальсификация логарифмической модели роста стоимости биткоина.Эта статья исследует, есть ли временная связь с ценой биткоина. Предложенная логарифмическая модель [1, 2 и 3] проверена на статистическую достоверность по предположениям наименьших квадратов, на стационарность в каждой переменной и на потенциальные ложные связи с использованием подхода Энгла-Грейнджера для коинтеграции. Все эти тесты, кроме одного, способны отвергнуть гипотезу о том, что время является важным предиктором цены биткойна.
ВСТУПЛЕНИЕМодель log price ~ log time (она же log growth) была предложена различными источниками [1, 2 и 3] объясняющая движения цен на биткоины и, следовательно, была выдвинута в качестве механизма для оценки будущих цен биткоина. Научный метод большинству трудно понять. Это противоречит здравому смыслу. Это может привести к выводам, которые не сходятся с личными убеждениями. Чтобы понять эту основополагающую фундаментальную концепцию, в основе метода лежит основа: ошибаться-это нормально.
По мнению известного современного философа Карла Поппера, проверка гипотезы на предмет неверного результата-единственный надежный способ придать вес аргументу, что она верна. Если строгие и многократные тесты не могут показать, что гипотеза неверна, то с каждым тестом гипотеза принимает более высокую вероятность быть правильной. Это понятие называется фальсифицируемостью. Эта статья направлена на фальсификацию логарифмической модели роста стоимости биткойна, как в основном определено в источниках[1, 2 & 3].
ПРИМЕЧАНИЯВесь анализ был выполнен с использованием Stata 14.
https://www.stata.com/stata14/Это не финансовый совет для инвестиций.
ОПРЕДЕЛЕНИЕ ПРОБЛЕМЫЧтобы сфальсифицировать гипотезу, сначала мы должны указать, что это такое:
Нулевые гипотезы (H0): цена Биткойна является функцией количества дней, в течение которых Биткоин существовал
Альтернативные гипотезы (H1): цена биткойна не зависит от количества дней существования биткоина
Авторы [1, 2 и 3] решили проверить H0, подгоняя регрессию обыкновенных наименьших квадратов (OLS) к натуральному логарифму цены биткойна и натуральному логарифму числа дней, в течение которых биткойн существовал. Не было ни сопутствующей диагностики, ни какой-либо определенной причины для логарифмического преобразования обеих переменных. Модель не учитывала возможность ложных отношений из-за нестационарности, а также возможность взаимодействия или другие мешающие факторы.
ПОДХОДВ этой статье мы рассмотрим эту модель, проведем ее через регрессионную диагностику и определим, было ли преобразование логарифма необходимо или целесообразно (или и то, и другое), и исследуем возможные смешанные переменные, взаимодействия и чувствительность к смешиванию.
Еще одна проблема, которая будет исследована, - это проблема нестационарности. Стационарность является предположением большинства статистических моделей. Концепция заключается в том, что во времени нет тенденции ни в какие моменты, например, если нет тенденции в среднем (или дисперсии) относительно времени.
Вслед за анализом стационарности мы рассмотрим возможность коинтеграции.
ОБОЗНАЧЕНИЯСреда относительно ограничена для математической записи. Обычная нотация для оценки статистического параметра заключается в том, чтобы поместить наблюдателя сверху. Вместо этого мы определяем оценку термина как []. например, оценка β = [β]. Если мы представляем матрицу 2x2, мы сделаем это следующим образом [r1c1, r1c2 \ r2c1, r2c2] и т. д. Подписанные элементы заменяются на @ - например, для 10-й позиции в векторе X мы обычно подписываем X с 10. Вместо этого мы напишем X@10.
Обычные наименьшие квадраты
Обычная регрессия наименьших квадратов - это способ оценить линейную зависимость между двумя или более переменными.
Во-первых, давайте определим линейную модель как некоторую функцию X, которая равна Y с некоторой ошибкой.
Y = βX + ε
где Y - зависимая переменная, X - независимая переменная, ε - ошибка, а β - множитель X. Цель OLS - оценить β так, чтобы ε было минимизировано.
Чтобы [β] была надежной оценкой, должны быть выполнены некоторые основные предположения (известные как предположения Гаусса-Маркова [4]):
Существует линейная зависимость между зависимой и независимой переменными
Ошибки гомоскедастичны (то есть имеют постоянную дисперсию)
Ошибка обычно распределяется со средним нулем
В ошибке нет автокорреляции (то есть ошибки не коррелируют с отставанием ошибок)
ЛинейностьНачнем с того, что рассмотрим не преобразованную в точечный график цену v дней (данные из coinmetrics).
На 1 рисунке мы видим график цены биткоина на очень длинном временном диапазоне.Это позволяет построить нам логарифмическую модель (рис. 2)
Строим очередной логарифмический график цена/дни, определенный авторами [1, 2 и 3] на рисунке 3.
Это подтверждает,что логарифмические преобразования показывают хорошие линейные соотношения.
Таким образом, предварительный анализ не может отклонить H0.
Логарифмическая регрессия приведена на рисунке 5 ниже, где [β] = 5,8
Используя модель, мы можем теперь оценить невязки [ε] и значения [Y] и проверить другие предположения.
ГомоскедастичностьЕсли допущение о постоянной дисперсии в значении ошибки (то есть гомоскедастичности) должно быть верным, то это значение будет случайным образом изменяться около 0 для каждого значения в прогнозируемых значениях. Таким образом, график RVF (рисунок 6) представляет собой простой, но эффективный графический способ исследования точности этого предположения. На рисунке 6 мы видим массивную картину, а не случайное рассеяние, указывающее на непостоянную дисперсию в значениях ошибки (т.е. гетероскедастичность).
Подобная гетероскедастичность приводит к тому, что оценки коэффициентов [β] имеют большую дисперсию и, следовательно, являются менее точными и приводят к значениям p, которые являются более значимыми, чем они должны быть, поскольку процедура OLS не обнаруживает увеличенную дисперсию. Поэтому, когда мы затем вычисляем t-значения и значения F, мы используем недооценку дисперсии, что приводит к более высокой значимости. Это также влияет на 95% доверительный интервал около [β], который сам является функцией дисперсии.
Статистика Брейша-Годфри [6 и 7] для автокорреляции также была значительной, что еще раз подтверждает эту проблему.
На этом этапе, как правило, мы остановимся и уточним модель. Однако, учитывая, что мы знаем влияние этих проблем, будет относительно безопасно продолжать регрессионное понимание того, что эти проблемы существуют. Есть способы, с помощью которых мы можем справиться с этими проблемами - например, с помощью машинного обучения или с помощью надежной оценки для дисперсии.
Как видно из рис. 7, несмотря на небольшое увеличение дисперсии (см. расширенный доверительный интервал), по большей части присутствующая гетероскедастичность на самом деле не оказывает слишком большого "вредного" влияния.
ПОГРЕШНОСТЬ В ОШИБКЕ
Предположение о том, что значения ошибки нормально распределены со средним значением, равным нулю, является менее важным предположением, чем линейность или гомоскедастичность. Ненормальность, но неискаженные остатки будут иметь эффект, делающий доверительные интервалы слишком оптимистичными. Если остатки искажены, то вы можете получить небольшое смещение. Как видно из рисунков 8 и 9, остатки сильно искажены. Тест Шапиро-Уилка на нормальность дает нам p-значение 0. Они не вписываются в нормальную кривую настолько, чтобы доверительные интервалы оставались неизменными.
Рисунок 8 - гистограмма значения ошибки с наложением нормального распределения (зеленого цвета). Термин ошибки должен быть нормальным, но это не так.
Рисунок 9-нормальный квантильный график значения ошибки. Чем ближе точки находятся к линии, тем лучше.