Author

Topic: Фальсификация логарифмической модели ро (Read 183 times)

legendary
Activity: 1708
Merit: 1615
#SWGT CERTIK Audited
Рычаг
Leverage - это концепция, согласно которой не все точки данных в регрессии вносят одинаковый вклад в оценку коэффициентов. Некоторые точки с высоким кредитным плечом могут существенно изменить коэффициент в зависимости от того, присутствуют они или нет. На рис. 10 мы ясно видим, что их слишком много для подсчета относительно точек (выше среднего остаточного и выше среднего кредитного плеча).

ИТОГ
Базовая диагностика указывает на нарушение практически всех предположений Гаусса-Маркова, за исключением линейности. Это относительно убедительное доказательство отклонения H0.
Стационарность
Стационарный процесс называется интегрированным Порядком 0 (например, I (0)). Нестационарный процесс - это I (1) или более. Интеграция в этом контексте больше похожа на интеграцию "бедняков" - это сумма отстающих различий. I (1) означает, что если мы вычтем первое отставание из каждого значения в ряду, у нас будет процесс I (0). Относительно хорошо известно, что регрессия на нестационарных временных рядах может привести к выявлению ложных отношений.
На рисунках 12 и 13 ниже мы видим, что мы не можем отвергнуть нулевую гипотезу теста Аугментированного Дики-Фуллера (АДФ). Нулевая гипотеза теста ADF состоит в том, что данные являются нестационарными. Это означает, что мы не можем сказать, что данные являются стационарными.


Рисунки 11 и 12 - расширенные тесты GLS по Дикки Фуллеру для корневого модуля log (дни, цена).
Тест Квятковского-Филлипса-Шмидта-Шина является дополнительным тестом на стационарность к тестам ADF. Этот тест (KPSS) имеет нулевую гипотезу, что данные являются стационарными. Как мы видим на рисунках 13 и 14, мы можем отклонить стационарность для большинства лагов по обеим переменным.


Рисунки 13 и 14 - тест KPSS против нулевой стационарности
Эти испытания доказывают, что эти две серии, вне всякого сомнения, являются нестационарными. Это небольшая проблема. Если ряд, по крайней мере, не является стационарным по тренду, то OLS может быть введен в заблуждение в определении ложной связи. Одна вещь, которую мы могли бы сделать, - это взять дневную разницу каждой переменной и перестроить наши OLS. Тем не менее, благодаря тому, что этот вопрос довольно часто встречается в эконометрических рядах, у нас есть гораздо более надежная структура — нечто, называемое коинтеграцией.
КОИНТЕГРАЦИЯ
Коинтеграция-это способ разобраться с парой(или несколькими) процессов I (1) и определить, существует ли связь и что это за связь. Для понимания коинтеграции приведем упрощенный пример пьяницы и ее собаки [3]. Представьте себе пьяную собаку, идущую домой на поводке. Пьяница ходит повсюду, непредсказуемо. Собака тоже ходит довольно беспорядочно: обнюхивает деревья, лает, гоняется за царапинами — в общем, она просто дворняжка. Однако общее направление движения собаки будет находиться в пределах длины поводка пьяного хозяина. Мы можем рассчитать, что в любой момент, когда пьяный идет домой, собака будет находиться в пределах длины поводка пьяного (конечно, она может быть с одной стороны или с другой, но собака будет в пределах длины поводка). Это плохое упрощение является грубой метафорой коинтеграции - собака и владелец движутся вместе.

Рисунок 15 - Задание порядка отставания. Минимальный AIC используется для определения.
Мы определили здесь наиболее подходящий порядок  для исследования с помощью выбора минимального AIC порядка 6.
Далее нам необходимо определить, существуют ли отношения коинтеграции. Простая структура Энгла-Грейнджера [8, 9, 10] делает это относительно легко. Если статистика теста является более отрицательной, чем критические значения, то существует взаимосвязь.

Рисунок 16 - результаты теста нигде не близки к тому, чтобы быть меньше, чем любое из критических значений
Результаты на рисунке 16 не дают нам никаких доказательств того, что существует коинтегрирующее уравнение между ценой журнала и днями журнала.
ОГРАНИЧЕНИЯ
В этом исследовании мы не учитывали какие-либо смешанные переменные. Принимая во внимание приведенные выше доказательства, очень маловероятно, что какие-либо препятствия окажут существенное влияние на наше заключение - мы можем отклонить H0. Мы можем сказать, что «между днями входа в систему и ценой входа в биткойны нет никакой связи». Если бы это было так, тогда были бы взаимосвязанные отношения.
ВЫВОД
В свете нарушений всех условий одного из предположений Гаусса-Маркова для действительной линейной регрессии и отсутствия детектируемой коинтеграции, а также того, что обе переменные являются нестационарными, имеется достаточно доказательств для отклонения H0, поэтому нет действительной линейной зависимости между ценой биткоина и временем, и она не может использоваться для надежного прогнозирования цены.

Ссылки:
[1] https://medium.com/coinmonks/bitcoins-natural-long-term-power-law-corridor-of-growth-649d0e9b3c94
[2] https://medium.com/@intheloop/when-moon-rational-growth-ranges-for-bitcoin-ffaa94c9d484
[3] https://twitter.com/davthewave/status/1125689778102386690?s=20
[4] https://www.youtube.com/watch?v=NjTpHS5xLP8
[6] Davidson, R., and J. G. MacKinnon. 1993. Estimation and Inference in Econometrics. New York: Oxford University
Press.
[7] Durbin, J., and G. S. Watson. 1950. Testing for serial correlation in least squares regression. I. Biometrika 37:
409–428.
[8] Engle, R.F. and Granger, C.W.J. 1987. Co-integration and Error Correction: Representation, Estimation and Testing. Econometrica, Vol. 55, pp. 251–276.
[9] MacKinnon, James G. 1990, 2010. Critical Values for Cointegration Tests. Queen’s Economics Department Working Paper No. 1227, Queen’s University, Kingston, Ontario, Canada. Available at http://ideas.repec.org/p/qed/wpaper/1227.html.
[10] Schaffer, M.E. 2010. egranger: Engle-Granger (EG) and Augmented Engle-Granger (AEG) cointegration tests and 2-step ECM estimation. http://ideas.repec.org/c/boc/bocode/s457210.html
[11] https://medium.com/burgercrypto-com/debunking-bitcoins-natural-long-term-power-law-corridor-of-growth-c1f336e558f6


https://medium.com/swlh/falsifying-the-log-growth-model-of-bitcoin-value-7db6ca3603f2
перевод
legendary
Activity: 1708
Merit: 1615
#SWGT CERTIK Audited
https://medium.com/swlh/falsifying-the-log-growth-model-of-bitcoin-value-7db6ca3603f2
перевод
Фальсификация логарифмической модели роста стоимости биткоина.
Эта статья исследует, есть ли  временная связь с ценой биткоина. Предложенная логарифмическая модель [1, 2 и 3] проверена на статистическую достоверность по предположениям наименьших квадратов, на стационарность в каждой переменной и на потенциальные ложные связи с использованием подхода Энгла-Грейнджера для коинтеграции. Все эти тесты, кроме одного, способны отвергнуть гипотезу о том, что время является важным предиктором цены биткойна.

ВСТУПЛЕНИЕ
Модель log price ~ log time (она же log growth) была предложена различными источниками [1, 2 и 3] объясняющая движения цен на биткоины и, следовательно, была выдвинута в качестве механизма для оценки будущих цен  биткоина. Научный метод большинству трудно понять. Это противоречит здравому смыслу. Это может привести к выводам, которые не сходятся с личными убеждениями. Чтобы понять эту основополагающую фундаментальную концепцию, в основе метода лежит основа: ошибаться-это нормально.
По мнению известного современного философа  Карла Поппера, проверка гипотезы на предмет неверного результата-единственный надежный способ придать вес аргументу, что она верна. Если строгие и многократные тесты не могут показать, что гипотеза неверна, то с каждым тестом гипотеза принимает более высокую вероятность быть правильной. Это понятие называется фальсифицируемостью. Эта статья направлена на фальсификацию логарифмической модели роста стоимости биткойна, как в основном определено в источниках[1, 2 & 3].

ПРИМЕЧАНИЯ
Весь анализ был выполнен с использованием Stata 14. https://www.stata.com/stata14/
Это не финансовый совет для инвестиций.

ОПРЕДЕЛЕНИЕ ПРОБЛЕМЫ
Чтобы сфальсифицировать гипотезу, сначала мы должны указать, что это такое:
Нулевые гипотезы (H0): цена Биткойна является функцией количества дней, в течение которых Биткоин существовал
Альтернативные гипотезы (H1): цена биткойна не зависит от количества дней существования биткоина
Авторы [1, 2 и 3] решили проверить H0, подгоняя регрессию обыкновенных наименьших квадратов (OLS) к натуральному логарифму цены биткойна и натуральному логарифму числа дней, в течение которых биткойн существовал. Не было ни сопутствующей диагностики, ни какой-либо определенной причины для логарифмического  преобразования обеих переменных. Модель не учитывала возможность ложных отношений из-за нестационарности, а также возможность взаимодействия или другие мешающие факторы.

ПОДХОД
В этой статье мы рассмотрим эту модель, проведем ее через  регрессионную диагностику и определим, было ли преобразование логарифма необходимо или целесообразно (или и то, и другое), и исследуем возможные смешанные переменные, взаимодействия и чувствительность к смешиванию.
Еще одна проблема, которая будет исследована, - это проблема нестационарности. Стационарность является предположением большинства статистических моделей. Концепция заключается в том, что во времени нет тенденции ни в какие моменты, например, если нет тенденции в среднем (или дисперсии) относительно времени.
Вслед за анализом стационарности мы рассмотрим возможность коинтеграции.
ОБОЗНАЧЕНИЯ
Среда относительно ограничена для математической записи. Обычная нотация для оценки статистического параметра заключается в том, чтобы поместить наблюдателя сверху. Вместо этого мы определяем оценку термина как []. например, оценка β = [β]. Если мы представляем матрицу 2x2, мы сделаем это следующим образом [r1c1, r1c2 \ r2c1, r2c2] и т. д. Подписанные элементы заменяются на @ - например, для 10-й позиции в векторе X мы обычно подписываем X с 10. Вместо этого мы напишем X@10.
Обычные наименьшие квадраты
Обычная регрессия наименьших квадратов - это способ оценить линейную зависимость между двумя или более переменными.
Во-первых, давайте определим линейную модель как некоторую функцию X, которая равна Y с некоторой ошибкой.
Y = βX + ε
где Y - зависимая переменная, X - независимая переменная, ε -  ошибка, а β - множитель X. Цель OLS - оценить β так, чтобы ε было минимизировано.
Чтобы [β] была надежной оценкой, должны быть выполнены некоторые основные предположения (известные как предположения Гаусса-Маркова [4]):
Существует линейная зависимость между зависимой и независимой переменными
Ошибки гомоскедастичны (то есть имеют постоянную дисперсию)
Ошибка обычно распределяется со средним нулем
В ошибке нет автокорреляции (то есть ошибки не коррелируют с отставанием ошибок)

Линейность
Начнем с того, что рассмотрим не преобразованную в точечный график цену v дней (данные из coinmetrics).

На 1 рисунке мы видим график цены биткоина на очень длинном  временном диапазоне.Это позволяет построить нам логарифмическую модель (рис. 2)

Строим очередной логарифмический график цена/дни, определенный авторами [1, 2 и 3] на рисунке 3.

Это подтверждает,что логарифмические преобразования показывают хорошие линейные соотношения.

Таким образом, предварительный анализ не может отклонить H0.
Логарифмическая регрессия приведена на рисунке 5 ниже, где [β] = 5,8

Используя модель, мы можем теперь оценить невязки [ε] и значения [Y] и проверить другие предположения.

Гомоскедастичность
Если допущение о постоянной дисперсии в значении ошибки (то есть гомоскедастичности) должно быть верным, то это значение будет случайным образом изменяться около 0 для каждого значения в прогнозируемых значениях. Таким образом, график RVF (рисунок 6) представляет собой простой, но эффективный графический способ исследования точности этого предположения. На рисунке 6 мы видим массивную картину, а не случайное рассеяние, указывающее на непостоянную дисперсию в значениях ошибки (т.е. гетероскедастичность).

Подобная гетероскедастичность приводит к тому, что оценки коэффициентов [β] имеют большую дисперсию и, следовательно, являются менее точными и приводят к значениям p, которые являются более значимыми, чем они должны быть, поскольку процедура OLS не обнаруживает увеличенную дисперсию. Поэтому, когда мы затем вычисляем t-значения и значения F, мы используем недооценку дисперсии, что приводит к более высокой значимости. Это также влияет на 95% доверительный интервал около [β], который сам является функцией дисперсии.
Статистика Брейша-Годфри [6 и 7] для автокорреляции также была значительной, что еще раз подтверждает эту проблему.

На этом этапе, как правило, мы остановимся и уточним модель. Однако, учитывая, что мы знаем влияние этих проблем, будет относительно безопасно продолжать регрессионное понимание того, что эти проблемы существуют. Есть способы, с помощью которых мы можем справиться с  этими проблемами - например, с помощью машинного обучения или с помощью надежной оценки для дисперсии.

Как видно из рис. 7, несмотря на небольшое увеличение дисперсии (см. расширенный доверительный интервал), по большей части присутствующая гетероскедастичность на самом деле не оказывает слишком большого "вредного" влияния.
ПОГРЕШНОСТЬ В ОШИБКЕ
Предположение о том, что значения ошибки нормально распределены со средним значением, равным нулю, является менее важным предположением, чем линейность или гомоскедастичность. Ненормальность, но неискаженные остатки будут иметь эффект, делающий доверительные интервалы слишком оптимистичными. Если остатки искажены, то вы можете получить небольшое смещение. Как видно из рисунков 8 и 9, остатки сильно искажены. Тест Шапиро-Уилка на нормальность дает нам p-значение 0. Они не вписываются в нормальную кривую настолько, чтобы доверительные интервалы оставались неизменными.

Рисунок 8 - гистограмма значения ошибки с наложением нормального распределения (зеленого цвета). Термин ошибки должен быть нормальным, но это не так.


Рисунок 9-нормальный квантильный график значения ошибки. Чем ближе точки находятся к линии, тем лучше.
Jump to: