Многие исследования до этого предполагали, что доходность акций или индексов предсказуема. В этой статье мы тестируем различные эконометрические модели и модели машинного обучения для прогнозирования будущей доходности индексов S&P500 и DJSI. Модели Binary Probit и Logit проверяются перед переходом к SVM и Random Forest. В стиле отчета для инвесторов мы смотрим на точность моделей и предлагаем, с какими моделями следует работать в будущем. Мы также кратко сравниваем прогнозы на будущее S&P500 и DJSI, чтобы определить, куда инвестору следует инвестировать.

Литературный обзор

Поиск моделей, которые могут прогнозировать доходность финансовых рынков, является очень хорошо изученной темой, несмотря на некоторые ключевые связанные с этим проблемы. Доходность финансовых активов динамична, нелинейна и хаотична; следовательно, их можно рассматривать как финансовые временные ряды, которые чрезвычайно трудно предсказать.

Переходя к прогнозированию доходности, есть одна модель, которая широко представлена ​​в ключевой литературе. Наиболее часто используемые модели для прогнозирования включают машины опорных векторов и нейронные сети. Было определено, что тема исследования по-прежнему актуальна и что использование данных с развивающихся рынков представляет собой большую исследовательскую возможность, но для развитых рынков эта область изучена полностью. Среди новейших методов, которые, похоже, выходят на первый план, модели машинного обучения кажутся одними из наиболее изученных, учитывая, что они способны распознавать сложные шаблоны в различных приложениях, таким образом, точно предсказывая будущие результаты. Определенно наблюдается переход к бинарно-зависимой динамической пробит-модели (Nyberg, 2011) при изучении развитых рынков.

Целый ряд литературы в области машинного обучения посвящен широкому спектру различных алгоритмов, входных данных и концепций, но на самом деле очень мало статей, в которых предпринимаются попытки систематического обзора и сравнения существующих моделей (Ryll & Seidans, 2019). Atsalakis & Valvanis (2009) представляют список вычислительных методов, которые используются во многих исследовательских работах, посвященных торговым алгоритмам и способам максимизации прибыли. Их исследование в значительной степени служит пассивным справочником из-за ограниченного объема анализа, однако они приходят к выводу, что вычислительные алгоритмы представляют собой разумный метод прогнозирования.

Широко распространенная и высоко оцененная статья — «Вычислительный интеллект и финансовые рынки: обзор и будущие направления» (Cavalcante, et al., 2016), в которой представлен обзор различных приложений машинного обучения к финансовым данным в исследования 2009–2015 гг. Эта статья устанавливает основу для построения этих алгоритмов, которые оказали большое влияние. Есть много похожих результатов, из которых делается вывод, что алгоритмы машинного обучения обычно обладают более высокой точностью, чем эквивалентные статистические или эконометрические методы. Тем не менее, почти все исследования отрицают доказательства превосходства по абсолютной шкале, вероятно, из-за влияния, которое может оказать подобный результат.

В этом отчете мы в основном фокусируемся на S&P500 и DJSI, оба индекса базируются в США, но имеют разные критерии приемлемости и цели. S&P500 «… измеряет производительность сегмента рынка с большой капитализацией. Этот индекс, который считается показателем фондового рынка США, состоит из 500 компаний, входящих в его состав». (S&P Global, 2020 г.); тогда как DJSI «… был запущен в 1999 году как первый глобальный эталон устойчивого развития и отслеживает динамику акций ведущих мировых компаний с точки зрения экономических, экологических и социальных критериев». (S&P Global, 2019 г.). Существует огромное количество литературы, в которой исследуется доходность индекса по отдельности, например, работают ли семейные фирмы лучше, чем их конкуренты (Anderson & Reeb, 2003); влияние изменения цен на нефть на индекс (Mollick & Assefa, 2013); финансовые показатели, связанные с экологическими показателями (Cohen, et al., 1995). Сравнивая индекс DJSI с другими индексами, Lee and Faff (2009) обнаружили, что доходность индекса DJSI была значительно ниже, чем у эквивалентных портфелей Dow Jones и портфелей без CSR; это подтверждается Консоланди и др. (2009), которые также отмечают, что DSJI не соответствует аналогичным показателям.

Люнг и др. (2000) пришли к выводу, что «модели, основанные на классификации, включая бинарные пробит-модели», превосходят более традиционные прогностические регрессионные модели при попытке предсказать направление рынка с точки зрения статистических тестов на соответствие и с точки зрения прибыльности инвестиций. стратегии, которые они построили, следуя своим прогнозам. Найберг (2011) использует динамические пробит-модели в своих усилиях по прогнозированию ежемесячных доходов и находит доказательства, которые также поддерживают предсказуемость знаков.

Данные

Для этого отчета мы используем данные о ежемесячной доходности как для DJSI, так и для S&P500, охватывающие данные за 20 лет. Данные охватывают период с января 1999 г. по декабрь 2019 г.; это максимальный предел данных, доступных из-за того, что DJSI был запущен в 1999 году. Вместо того, чтобы рассматривать доходность отдельных составляющих акций, мы решили посмотреть на доходность индекса в целом; что дает нам в общей сложности 255 точек данных (у нас есть две точки за октябрь, ноябрь и декабрь 2010 г.).

Таблица 1: Набор данных зависимых и объясняющих переменных, данные WRDS и FRED (DP и EP с сайта Роберта Шиллера)

Используемый нами многомерный набор данных охватывает все эти переменные:

В данных у нас также есть переменная с именем spi, она принимает значение 1, если spex > 0; в данных 105 положительных результатов и 150 отрицательных. Мы делаем это и для DJSI с dji. Однако мы хотим сместить эту переменную, поскольку мы строим прогноз и, следовательно, хотим построить будущие индикаторы. Когда мы строим месячную доходность DJSI по сравнению с S&P500, мы можем видеть на рисунке 1, что, хотя доходность обоих индексов, кажется, следует одной и той же схеме, S&P500 в целом более волатильна. Еще одна очень четкая черта рисунка 1 — существенные всплески, которые мы видим, достигая месячной доходности в 0,22 и убытков в -0,15. В целом, по рисунку 1 очень сложно определить, какой из индексов показал наилучшие результаты за этот 21-летний период.

Рисунок 2 расширяет рисунок 1, демонстрируя более глубокий взгляд на взаимосвязь между DJSI и S&P500. Этот парный график состоит из данных из значений индекса, а не из результатов, и мы видим, что существует очень сильная связь между двумя индексами, причем оба имеют сильную положительную корреляцию. Когда мы смотрим на гистограммы, мы видим слабую положительную асимметрию, очевидную для обоих индексов; показывая среднее значение и медиану выше, чем мода в обеих переменных.

Методология

Основной метод, используемый в этом отчете, будет сосредоточен на модели Probit, поскольку наш основной интерес заключается в изучении направленной вероятности. Зависимой переменной в нашем исследовании является индикатор возврата двоичного знака (или spi); который принимает значение 1, когда spex > 0. Таким образом, spi является стохастическим процессом с бинарными значениями.

Основные преимущества использования бинарной пробит-модели заключаются в том, что она использует направление доходности, а не ряд, поскольку ряд был бы слишком зашумлен для прогнозирования значения, а также эта пробит-модель также позволяет нам совместно оценивать несколько переменных отклика. за раз и применить это к ковариационной матрице.

Для пробит-модели мы определяем Pr(yᵢ = 1|xᵢ) = pᵢ для случаев, когда y равно 0 или 1.

Другая эконометрическая модель, логит-модель, будет использоваться для моделирования условной вероятности Pr(Y = 1|X = x) как функции x, любой неизвестный параметр, который может быть в функции, должен оцениваться по его максимальному правдоподобию; когда Y является двоичным выходом. Логит-модель можно объяснить следующим уравнением (для ясности с опущенными нижними индексами):

Следует использовать машины опорных векторов (SVM), модель линейной классификации, поскольку она предлагает улучшенную подгонку разделяющей гиперполосы. Эта контролируемая модель машинного обучения анализирует данные для классификации и регрессионного анализа. Ориентируясь на классификацию.

Используются две модели нелинейной классификации: нелинейная SV и случайный лес. Нелинейная модель классификации вспомогательных машин отображает точки x в пространстве ядра, используя функцию ядра x -> K(x₁,.) Для этого отчета, в частности, будет использоваться ядро ​​Гаусса:

Наши значения X будут spex, djex, DP, EP, CPI и twex. Мы собирались включить m3 и y10, но после некоторых предварительных тестов это привело к менее точному прогнозу, поэтому мы решили опустить эти переменные.

Результаты

На рис. 3 показаны результаты выполнения регрессии Probit по spex, twex, CPI, DP и EP по отношению к доходности S&P500 с лагом. Хотя у нас нет высокозначимых предикторов; и DP, и spex имеют p-значения ниже 0,05. Все остальные переменные не показаны как значимые.

Это оставляет матрицу путаницы:

Итак, мы видим, что регрессия точно предсказала увеличение на 112 и уменьшение на 51 в доходности индекса. Это означает, что с помощью модели пробит-регрессии мы можем успешно предсказать направление доходности индекса S&P500 в 64% случаев.

Когда мы запускаем модель регрессии Probit для djex, мы обнаруживаем, что DP является очень значимым фактором для прогнозирования будущих доходов, а EP также имеет значение до уровня 0,05. DP оказался важным предиктором для обоих индексов, в то время как spex и EP также значимы для одного индекса. Как на Рисунке 3, так и на 4 видно, что ИПЦ является наименее значимым из показателей со значениями 0,999 и 0,865 соответственно.

Пробит-регрессия матрицы путаницы DJSI выглядит так;

Таким образом, всего 164 верных прогноза, что дает точность 65%, что очень похоже на пробит регрессии для S&P500.

Переходя к логит-модели увеличения доходности, мы видим значительный результат для лага 3 с высоким коэффициентом 7,08. Это означает, что мы можем ожидать, что сегодняшняя доходность будет на 7% больше (выше или ниже), чем 3 месяца назад. Никакой другой результат не является значимым для уровня 5%, в частности, лаги 1 и 2 означают, что эта модель не может точно предсказать будущую доходность, используя данные за 1 или 2 месяца назад. Матрица путаницы для этой модели выглядит так;

В результате точность составляет 58%, что ниже, чем у модели Probit, также анализирующей данные DJSI.

При прогоне данных S&P500 через логит-модель мы обнаруживаем, что значимых результатов нет, а временной лаг 3 фактически является наименее значимым из всех. Матрица путаницы для этой модели:

В результате точность составляет 63%. Интересно, что из этой матрицы видно, что логит-модель намного лучше предсказывает, когда доходность индекса будет уменьшаться: 152 правильных прогноза по сравнению с двумя неверными; но при попытке предсказать, когда он увеличится, модель очень неточна, получая только 9/86 правильных прогнозов. Это дает более точную общую модель, чем Logit для DJSI; но по сравнению с моделями Probit обе модели Logit работают хуже с точки зрения точности (этого следовало ожидать после прочтения литературы).

Затем мы переходим к машинам опорных векторов, используя как регрессию гребня, так и регрессию лассо. Для лассо-регрессии S&P500 мы получили показатель успеха 63% по сравнению с показателем успеха 59% при использовании регрессии гребня. Это сопоставимо с 66% и 37% соответственно при анализе данных для DJSI. Этот низкий уровень успеха при использовании гребневой регрессии составил 160 неудач только по данным DJSI, что является невероятно низким уровнем точности для этой модели линейной классификации. Мы можем использовать ядро ​​​​в Машинной модели опорных векторов, как описано в методологии, и обнаружить, что уровень успеха остается на уровне 63%, но количество неудач немного снижается до 94; это было меньшим улучшением, чем ожидалось, по сравнению с линейным SVM.

Лассо-регрессия на DJSI немного точнее, чем на S&P500, с вероятностью успеха 65% и всего 89 ошибками. Ридж-регрессия значительно выше, с вероятностью успеха 63% (по сравнению с 37%, найденными ранее), что показывает, что обе линейные модели SVM лучше соответствуют данным для DJSI и могут предоставить гораздо более точные данные для этого индекса. При использовании нелинейной регрессии с SVM мы обнаруживаем, что частота ошибок равна 37% при проведении того же теста для S&P500, поэтому вероятность успеха составляет 63%.

Запустив Random Forest с 200 деревьями, мы получаем гораздо более низкие значения ошибок: 0,01 для S&P500 и 0 для DJSI, очень низкий уровень ошибок для обоих индексов.

До сих пор мы только смотрели, насколько хорошо модели вписываются в выборку, которая использовалась для их оценки, теперь мы переходим к перекрестной проверке. Это позволит нам прогнозировать будущее, используя данные, которые модель еще не видела. Для этого мы сегментируем данные на K групп и оставляем одну из групп для тестирования. Остальные группы К-1 используются для подгонки модели. Мы делаем это, так как у нас нет тестовых данных, поэтому проще использовать в качестве теста однократное. Перекрестная проверка может быть объяснена следующей формулой:

В данном отчете использовалось значение K, равное 10 (10% в тестовом образце).

Эти статистические данные показывают, что мы должны использовать SVM с включенным штрафом лассо для наиболее точных прогнозов. В таблице также показано, как переобучается модель случайного леса, особенно в этом примере; и в целом нелинейные модели также могут быть переобученными.

Обсуждение

В идеале инвесторы хотят получить максимальную прибыль при минимальном риске; поскольку это обычно невозможно, им необходимо пойти на компромисс для получения максимальной прибыли по сравнению с риском. Это зависит от того, какой тип инвестора, какую стратегию вы бы предложили, однако для большинства инвесторов хороший уровень предсказуемости хорош, поскольку позволяет минимизировать риск.

В этом отчете рассмотрен предыдущий пробел в литературе, рассмотрены различия и сходства между индексом S&P500 и DJSI, с целью рекомендовать один из индексов инвесторам. Однако литература предполагает, что динамическая модель Probit превзойдет другие методы при попытке предсказать результат индекса, Nyberg (2011) и Leung et al. (2000 г.); мы только обнаружили, что они предсказывают так же, как и другие модели классификации, поскольку большинство моделей в среднем дают около 60–65% успеха в предсказании доходности.

В соответствии с литературными данными мы обнаружили, что S&P500 действительно превосходит DJSI (Cohen, et al., 1995), (Lee and Faff, 2009) и (Consolandi et al., 2009); Одной из причин этого может быть более высокая ликвидность в S&P500 или тот факт, что, хотя устойчивые компании не превосходят своих более неустойчивых конкурентов, индекс DJSI будет по-прежнему хуже работать (Sokolovska & Kešeljevic, 2019).

Рекомендация инвесторам, какую модель использовать. Я бы предложил использовать их всех; поскольку нет одинаковых наборов данных, и большинство из них предоставляют ценную информацию об акциях / индексах, которые они исследуют. Однако, если бы я предложил модель, в которой можно было бы основывать более высокий вес, это была бы SVM с использованием регрессии Лассо и пробит-моделей. Эти две модели, подкрепленные другой литературой, по-видимому, обеспечивают наиболее успешные прогнозы, а также имеют минимальное количество ошибок. Я считаю, что с этими двумя моделями, работающими друг с другом, инвестор сможет точно предсказать направление акции/индекса с большей точностью, чем при использовании других методов.

С точки зрения того, в какой индекс инвестировать, S&P500 является очевидным выбором, он не только превосходит DJSI практически во всех анализах, но и является наименее рискованным из-за престижа, который он имеет не только над DJSI, но и над большинством других индексов. мир. Кроме того, с помощью наших моделей прогнозировать S&P так же точно, как и DJSI, и поэтому я бы рекомендовал S&P500. (Говоря об этом, умный инвестор диверсифицировал бы свой портфель и инвестировал бы в оба индекса, я бы предложил, исходя из данных, найденных в этой статье, комбинацию обоих индексов 75/25 — с регулярной корректировкой по мере появления новостей и событий, таких как covid-19). 19.)

Вывод

В рамках этой статьи мы провели обзор литературы, чтобы найти наиболее популярные способы прогнозирования будущей доходности двух индексов, S&P500 и DJSI. Мы использовали машинное обучение и эконометрические модели, чтобы помочь нам предсказать будущие доходы и проанализировать модели на предмет точности и показателей успеха. После этого анализа данных мы пришли к выводу, что лучшими моделями, которые должен использовать инвестор, являются SVM с использованием регрессии Лассо и моделей Probit, а также инвестировать большую часть средств в S&P500, но обязательно диверсифицировать и инвестировать меньшую часть в DJSI, поскольку оба индекса показывают положительные признаки роста.

Элементы, которые не были затронуты, но имеют отношение к этому исследованию, — это модели глубокого обучения; Модели глубокого обучения могут значительно улучшить соответствие и улучшить понимание. Но они включают больше параметров, потому что каждый вход в каждый персептрон имеет свой собственный набор. Это основная область роста в рамках финансовой практики.