Выявление скрытых факторов, стоящих за ценами на акции

Преодолевая даталенд

Выявление скрытых факторов, стоящих за ценами на акции

Динамическое факторное моделирование американских компаний с большой капитализацией

Многое из того, что движет человеческим поведением, не наблюдается напрямую. Это частый рефрен при анализе данных о социальных явлениях, таких как социокультурные факторы образования и дохода. Или на финансовых рынках, где многие из основных факторов, которые стимулируют покупку или продажу определенных ценных бумаг в определенное время, не наблюдаются. Метафорические «быки» и «медведи» на рынке нематериальны, но в то же время ощутимы, как дуновение сильного запаха.

К счастью, был достигнут большой прогресс в том, чтобы лучше оценить эти ненаблюдаемые или «скрытые» факторы, хотя попытка понять, что мы находим, часто бывает трудной и требует глубоких знаний в предметной области. Мы можем мельком увидеть фигуры, но часто это происходит так, как если бы мы смотрим на них сквозь темное стекло. Но давайте попробуем, несмотря ни на что!

Мы используем моделирование динамических факторов, чтобы выявить некоторые скрытые факторы, влияющие на поведение цен акций крупнейших американских публичных компаний. Мы исследуем, что представляют собой эти факторы и как они могут повлиять на цены отдельных акций.

Динамические факторные модели

Анализ общих факторов (CFA) часто объединяют с анализом главных компонентов (PCA). Их результаты часто схожи, но между ними есть принципиальная концептуальная разница. Главные компоненты представляют собой ортогональные линейные комбинации исходных переменных. Следовательно, PCA широко используется как метод уменьшения размерности, при котором мы стараемся сохранить наибольшую вариативность данных в меньшем наборе составных независимых переменных.

CFA пытается оценить «скрытые» или ненаблюдаемые общие факторы, влияющие на попарные корреляции между исходными (наблюдаемыми) переменными. Скрытые переменные - это факторы, которые не поддаются непосредственному наблюдению или количественной оценке, например, как такие черты личности, как сознательность или упорство, могут влиять как на уровень образования, так и на доход. Неудивительно, что факторные модели впервые были введены в психологический эмпирический анализ. В этом свете CFA - это не столько метод уменьшения размерности, сколько метод оценки скрытых факторов в данных.

Связанное различие между CFA и PCA заключается в том, что последний предполагает, что все отклонения в данных могут быть объяснены общим набором составных переменных (то есть «главными компонентами»). CFA, с другой стороны, предполагает, что только часть дисперсии обусловлена общими скрытыми факторами, а другая часть - идиосинкразическими факторами, возникающими из характеристик, специфичных для отдельных переменных или подмножеств переменные.

Поэтому модели CFA не пытаются учесть все или даже большую часть дисперсии данных. Их также можно использовать для оценки общих факторов для подмножества исходных переменных в дополнение к общим факторам для всех переменных. Однако аналогичный недостаток, присущий как CFA, так и PCA, заключается в том, что полученные в результате скрытые факторы и составные переменные, соответственно, нелегко интерпретировать.

Именно в экономике за последние годы были достигнуты наибольшие успехи в методах расчета временных рядов CFA. Факторные модели, используемые для анализа экономических и финансовых временных рядов, называются динамическими факторными моделями (DFM). В литературе по DFM факторы и ошибки обычно считаются стационарными процессами. Ключевые предположения в этих моделях заключаются в том, что несколько общих тенденций / факторов обеспечивают точное описание состояния экономики.

Предпосылка модели динамических факторов состоит в том, что несколько скрытых динамических факторов управляют совместными движениями многомерного вектора переменных временного ряда, на который также влияет вектор идиосинкразических нарушений со средним нулевым значением. Эти идиосинкразические нарушения возникают из-за ошибки измерения и из-за особенностей, присущих отдельным сериям… Скрытые факторы следуют процессу временного ряда, который обычно считается векторной авторегрессией (VAR). - Сток и Ватсон, 2010 г.

Примером использования DFM в реальном мире является прогнозирование экономического роста перед выпуском данных о фактическом валовом внутреннем продукте (ВВП) и между ними. ВВП играет важную роль в экономике, но его официальные данные обычно доступны только на квартальной основе (то есть четыре раза в год) почти для всех стран, а затем со значительным запаздыванием. Как вы понимаете, это создает трудности для политиков и бизнес-аналитиков, которым может потребоваться более регулярная информация о состоянии экономики.

Поэтому модели DFM используются для оценки ненаблюдаемой еженедельной и / или ежемесячной эволюции фактора роста, который, как считается, отражает ВВП, посредством наблюдаемых еженедельных и ежемесячных экономических временных рядов, таких как данные о занятости и розничных расходах. Пример применения такой модели обсуждается в этой публикации Банка Канады. Читатели, которые ищут более формальное объяснение процесса моделирования DFM, также должны обратиться к нему.

Данные

В этом исследовании мы используем модель DFM для портфеля из 32 акций некоторых крупнейших компаний США. Выбранные акции включают в себя все тридцать текущих участников индекса Dow Jones Industrial Average (DJIA), за исключением Dow Inc. (образованной в 2019 году), а также трех бывших компаний-участниц, которые были исключены в последние годы. Таким образом, это, возможно, самые голубые из «голубых фишек» публичных компаний США. Полный список этих компаний с большой капитализацией и их совокупные промышленные секторы приведены ниже:

Цель состоит в том, чтобы раскрыть общие факторы, влияющие на движение цен этих 32 акций, попытаться понять, что представляют собой эти факторы, и изучить, как такое понимание может помочь в получении преимущества при инвестировании в акции. Данные включают дневные цены закрытия для всех 32 акций с июня 2009 г. по июнь 2021 г., которые в данном случае доступны через Bloomberg по подписке. Всего за 12-летний период выборки проводится 3123 ежедневных наблюдения за ценами для каждой акции.

Первым шагом в анализе, как всегда в эконометрике временных рядов, является проверка на стационарность. Обычный расширенный тест Дики-Фуллера (ADF) проводится для всего портфеля акций. Нулевая гипотеза ADF - это нестационарность, и все 32 акции предсказуемо не пройдут проверку.

Затем применяется преобразование посредством логарифмической разности, чтобы сделать данные стационарными. Это преобразование превращает данные в приблизительные процентные изменения, в данном случае ежедневно. Преобразованные данные о ценах снова проходят тест ADF, и на этот раз все они проходят.

В Интернете можно найти множество статей, в том числе в этой публикации, в которых обсуждается требование использовать стационарные данные для статистических выводов временных рядов. Мы не будем повторять здесь обсуждение, за исключением того, чтобы показать пример трансформации. Ниже приведена диаграмма, на которой сравнивается исходная (нестационарная) цена акций Visa (тикер V) и ее логарифмически разностное (стационарное) преобразование. Как можно заметить, преобразование делает цену без тенденции и колебания около стабильного среднего значения.

Установка гиперпараметров модели

После соответствующей «стационарной обработки» данных мы переходим к настройке гиперпараметров Statsmodel DynamicFactorMQ. Нам необходимо определиться с несколькими характеристиками:

Количество факторов для оценки;
Независимо от того, развиваются ли факторы;
Авторегрессивный (AR) порядок запаздывания оцениваемых факторов; а также
Авторегрессивный (AR) порядок запаздывания условий ошибки отдельных акций.

Мы выбираем три фактора произвольно. Как и в PCA, первый скрытый фактор обычно легко идентифицировать, но другие факторы, как правило, сложнее, поскольку они обычно состоят из комбинаций. различных эффектов. Более того, влияние дополнительных факторов также имеет тенденцию к ослаблению, опять же, как и PCA. Поэтому мы сделаем это упражнение относительно простым и выберем три.

Мы ожидаем, что первым фактором будет общая динамика фондового рынка. Инвесторы фондового рынка придают большое значение «бете» отдельной акции для рынка, которая является мерой ее чувствительности к общим более широким рыночным тенденциям. Таким образом, главным драйвером эффективности портфеля акций, вероятно, будут более широкие колебания фондового рынка. Что касается других факторов, давайте узнаем!

Настройка по умолчанию - позволить факторам развиваться отдельно, и мы сохраняем это, потому что у нас нет более точной информации. Следующий выбор гиперпараметра - это количество предполагаемых лагов авторегрессии для скрытых факторов. Этот процесс оценки аналогичен моделированию ARIMA и VAR. Мы запускаем его от 1 до 10 лагов и получаем следующую статистику теста:

Таким образом, мы выбираем восемь задержек или процесс AR (8), потому что он имеет самый низкий показатель AIC. Наконец, мы сохраняем настройку процесса AR (1) по умолчанию для идиосинкразических условий ошибки отдельных акций. Список команд для Statsmodel DynamicFactorMQ показан ниже. Затем данные стандартизируются перед выполнением модели.

После запуска модели остатки от всех 32 переменных акций проверяются на серийную корреляцию. Тест Льюнга-Бокса с нулевой гипотезой об отсутствии серийной корреляции выполняется на остатках. Нулевая гипотеза не может быть отклонена ни на 5%, ни на 10% альфа порогах во всех случаях. Таким образом, мы заключаем, что идиосинкразические ошибки не обнаруживают последовательной корреляции. Заинтересованные читатели могут обратиться к ссылке на страницу Github внизу, чтобы проверить подробную остаточную диагностику.

Скрытые факторы

Предполагаемые скрытые факторы показаны ниже. Это очень запутанно, но помните, что здесь мы имеем дело со стационарными факторами фондового рынка, поэтому неудивительно, что они будут выглядеть как стационарные ряды цен акций. Одно из непосредственных наблюдений заключается в том, что первый фактор («factor01» синего цвета) имеет наибольшее влияние постоянно в течение 12-летнего периода выборки, хотя два других фактора, по-видимому, в последнее время стали более важными. Мы сделаем эти факторы более интерпретируемыми, но прежде, чем мы это сделаем, давайте проанализируем влияние этих скрытых переменных на отдельные акции в нашем портфеле.

R-квадрат (или коэффициент детерминации) сообщает нам долю дисперсии зависимой (или целевой) переменной, которая объясняется одним или несколькими независимыми переменные (или функции). Учитывая, что это пропорция, R-квадрат ограничен между 0 (т. Е. Нулевой объясненной дисперсией) и 1 (т. Е. Всей объясненной дисперсией).

Мы можем получить R-квадрат, выполнив линейную регрессию цены каждой акции (с логарифмической разницей) на один или несколько скрытых факторов. Таким образом, мы можем понять, насколько каждая акция подвержена влиянию скрытых факторов. В приведенной ниже таблице показан совокупный R-квадрат для каждой акции при переходе от единственного «factor01» ко всем трем факторам слева направо. Это подтверждает визуальное наблюдение сверху, что фактор01 является доминирующим латентным фактором, безусловно.

Большинство акций в наборе данных демонстрируют совокупные оценки R-квадрата выше 0,50, что означает, что три скрытых фактора, действующие в этих различных компаниях, объяснили более половины колебаний цен их соответствующих акций за период выборки. Однако есть несколько акций, где R-квадрат довольно низок, а именно в случае UNH, WBA и WMT, где показания R-квадрат составляют лишь около одной трети или около того. Напротив, HON и JPM имеют значения R-квадрат выше 0,70, что указывает на то, что их колебания цен в значительной степени обусловлены этими более широкими элементами, помимо обстоятельств, специфичных для соответствующих компаний.

Мы также можем подчеркнуть, как скрытые переменные могут затруднить анализ данных, взяв любые две акции и регрессируя одну с другой с учетом факторов и без них. Давайте возьмем две известные компании с названиями, начинающимися с «m», в совершенно разных сферах деятельности, а именно Microsoft (тикер MSFT) и McDonald’s (тикер MCD).

Если бы мы наивно регрессировали MSFT (зависимую переменную) на MCD (независимую переменную), мы получили бы R-квадрат 0,21 и коэффициент +0,61. Помните, что это стационарные (стационарные) единицы цены с логарифмической разницей. Когда мы включаем три оцененных фактора в регрессии, мы обнаруживаем, что коэффициент при MCD падает почти до одной десятой от его предыдущей оценки, на уровне +0,07. В двух таблицах ниже представлены результаты этого упрощенного упражнения. Фактически, именно эти скрытые переменные влияют на цены акций MSFT и MCD вместе и создают иллюзию сильной связи между ними, когда скрытые факторы не принимаются во внимание.

Макрофинансовые переменные

Прежде чем мы попытаемся выяснить, что представляют собой факторы, полезно ввести ряд макрофинансовых переменных, которые могут помочь нам получить необходимое представление. Переменные представляют собой сочетание типичных индексов факторов стиля фондового рынка, цен на основные сырьевые товары и различных индикаторов фиксированного дохода, которые должны обеспечивать широкий охват типичных влияний макроуровня на цены отдельных акций.

Список макропеременных:

Макропеременные также имеют логарифмическую разность, за исключением трех переменных процентной ставки в нижней части списка выше, которые имеют только первую разность. Изменения в переменных процентных ставок обычно указываются в абсолютных базисных пунктах (т. Е. 1 базисный пункт равен 0,01%) рыночными практиками, и поэтому лучше сохранить их в этом формате. Кроме того, переменные процентной ставки имеют отрицательные значения, поэтому ведение журнала будет проблематичным. В любом случае все макропеременные одинаково отображаются стационарными и подтверждаются как таковые тестом ADF, как указано выше.

Факторные корреляции

Давайте теперь попробуем выяснить, какие более широкие элементы могут иметь эти факторы. Мы упоминали ранее, что первый фактор, как и первый главный компонент, обычно легко идентифицировать, и именно в этом случае, как мы увидим. Однако часто требуется глубокий опыт в предметной области, чтобы попытаться понять предполагаемые скрытые факторы, помимо первого, но даже в этом случае часто бывает трудно достичь полного понимания.

Приведенная ниже корреляционная матрица показывает корреляцию между каждым из трех факторов и макрофинансовыми переменными, представленными выше. Три фактора перечислены в последних трех строках матрицы.

Корреляция «factor01» и «spx» или индекса S&P 500 очевидна на уровне +0,96. Корреляция остается относительно высокой и устойчивой выше +0,90 благодаря режимам рынка с высокой и низкой волатильностью в течение рассматриваемого 12-летнего периода (дальнейший анализ, не показанный здесь, доступен по ссылке Github внизу). По сути, «factor01» подтвержден как общий фондовый рынок. Это не что-то новое, но оно подтверждает, что колебания рынка в целом имеют существенное влияние на движение цен отдельных акций.

Однако влияние на «factor02» и «factor03» более разнообразно и слабее. «Factor02» имеет умеренную отрицательную корреляцию с «spx_oil» и слабую отрицательную корреляцию с «spx_value», «oil», «медь», «us_ois», «us_yc» и «us_real10». Если здесь есть тема, кажется, что «фактор02» связан с более широкими макроэкономическими условиями, что отражено комбинацией цен на сырьевые товары и переменных процентных ставок.

«Factor03» демонстрирует умеренную положительную корреляцию с «dj_mom» и «dj_tech». Они отражают некоторые хорошо известные «факторы стиля» фондового рынка, в данном случае импульс и технологические (т. Е. Рост) акции. Стоит отметить, что в корреляционной матрице выше и «dj_mom», и «dj_tech» имеют очень высокую корреляцию +0,80. Таким образом, «factor03» может отражать динамику фондового рынка и факторы стиля роста.

Другой интересный вывод заключается в том, что корреляция между «factor01» и «spx» в период с января 2020 года по июнь 2021 года ослабла до +0,90, что, по общему признанию, все еще остается очень устойчивым. Между тем, различные корреляции, демонстрируемые «factor02» и «factor03», заметно выросли в этот последний период. Поскольку эта статья не предназначена для длительного исследования, мы оставим ее здесь и сосредоточим остальную часть анализа на важнейшем первом скрытом факторе.

Влияние фактора 1

Мы определили «factor01» как представляющий более широкий фондовый рынок. Мы также заметили его значительное влияние на 32 отдельные запасы в наборе данных, причем большинство из них имеют R-квадрат в диапазоне 0,4–0,5. Давайте теперь посмотрим, как изменился R-квадрат фактора 01 за 12-летний период выборки. Это также поможет сделать влияние этого ключевого латентного фактора на период выборки более прозрачным.

Мы запускаем шестимесячную (т. Е. 126-дневную) скользящую регрессию для ежедневных данных с середины 2009 до середины 2021 года, создавая скользящие R-квадраты из каждой регрессии в процессе. Зависимые переменные - это каждая из 32 акций по очереди, а независимой переменной всегда является «factor01». Затем мы суммируем эти оценки R-квадрата в средние и медианные значения каждого периода скользящего окна.

Учитывая шестимесячное окно, первые из 32 индивидуальных оценок R-квадрата из соответствующих двумерных регрессий относятся примерно к новому 2010 году. Из диаграммы ниже видно, что среднее и медианное R-квадрат широко варьировались от максимум от 0,7 до 0,2 за период выборки. Другими словами, влияние рынка на отдельные акции со временем то усиливается, то ослабевает. В прошлом году или около того R-квадрат неуклонно падал до нижней границы диапазона выборочного периода.

Давайте теперь посмотрим, как этот развивающийся R-квадрат может повлиять на производительность отдельных акций. Если задуматься, более низкий R-квадрат означает, что общее движение рынка в среднем меньше влияет на отдельные акции. И наоборот, влияние более широкого рынка становится более сильным в периоды высокого R-квадрата. Логика, в свою очередь, подразумевает, что показатели отдельных акций будут более разбросанными (т. Е. Более высоким стандартным отклонением) в периоды с низким R-квадратом по сравнению с периодами с высоким R-квадратом.

Фондовый рынок очень волатилен, и дневные цены содержат много «белого шума», как мы видим из различных дневных стационарных ценовых графиков выше. Данные о ценах на акции лучше подходят со статистической точки зрения на более длительных временных горизонтах. Ниже приведены qq-графики дневной и квартальной избыточной доходности 32 акций в наборе данных. Обратите внимание, как распределение становится более нормальным по мере увеличения временного горизонта (т. Е. Более плотно прилегает к красной линии). Поэтому мы сосредоточимся на годовой и квартальной статистике биржевых показателей.

Чтобы оценить, действительно ли показатели отдельных акций более рассредоточены по сравнению с рынком в целом, мы рассчитываем информационный коэффициент каждой акции, используя индекс S&P 500 в качестве рыночного ориентира. Ежедневное наблюдение за индексом S&P 500 вычитается из дневной динамики каждой акции (обе цены с логарифмической разницей), чтобы получить ежедневную «избыточную доходность» последней. Чтобы упростить ситуацию, мы игнорируем выплаты дивидендов в доходах.

Средняя избыточная доходность каждой акции и ее стандартное отклонение рассчитываются для каждого периода (например, годового и квартального). Затем средняя избыточная доходность за каждый период делится на ее стандартное отклонение, чтобы получить информационный коэффициент каждой акции. Наконец, каждый IR умножается на квадратный корень из количества рабочих дней в каждом периоде, например, 63 дня в каждом квартале или 252 дня в каждом году, чтобы масштабировать IR до соответствующих временных рамок. Единственное исключение - это IR на 2021 год, который рассчитан только на шестимесячный период, поэтому он умножается на квадратный корень из 126 для годового IR.

Результатом вышеуказанной операции является оценка IR для каждой из 32 акций за каждый период, годовой или квартальный. Затем мы делаем дополнительный шаг, вычисляя вариацию этих тридцати двух IR, вычисляя их стандартное отклонение за каждый период. Стандартное отклонение IR представляет собой разброс в доходности с поправкой на риск этих групп акций за каждый период.

Мы берем среднюю оценку R-квадрата фактора 1 за каждый год и наносим ее на график относительно годового стандартного отклонения IR, рассчитанного выше. Диаграмма рассеяния ниже показывает четкую отрицательную связь между среднегодовым R-квадратом и годовым стандартным отклонением IR. По сути, годы с более низким R-квадратом фактора «01» совпадают с большим разбросом доходности отдельных акций с поправкой на риск.

Если мы проделаем то же самое для квартальных периодов выборки, связь станет менее очевидной, но все же будет. На квартальной диаграмме ниже есть очевидный выброс (выделен красной стрелкой), который может искажать взаимосвязь. Это конкретное показание стандартного отклонения IR действительно более чем на три стандартных отклонения от среднего значения. Если бы мы исключили именно этот выброс из диаграммы рассеяния, отрицательная связь стала бы более очевидной. В любом случае, мы приводим обе диаграммы для полноты картины.

Полученные данные свидетельствуют о том, что периоды R-квадрата с низким коэффициентом 1 действительно приводят к большему разбросу доходности отдельных акций с поправкой на риск. Таким образом, в такие периоды следует отдавать предпочтение опытным активным управляющим фондами акций или «сборщикам акций», предоставляя им возможности для получения более высокой доходности, опережающей рынок. Сборщики акций могут также использовать выводы из приведенной выше кумулятивной таблицы R-квадрата, чтобы сосредоточиться на тех акциях, где скрытые факторы в целом оказывают меньшее влияние.

Что еще можно было делать отсюда? Мы могли бы попытаться провести анализ для всех пятисот составляющих индекса S&P 500 и посмотреть, сильно ли изменятся результаты. Проведите дальнейший анализ, чтобы лучше понять движущие силы «factor02» и «factor03». Мы могли бы попытаться выяснить, как еще эти факторы могут повлиять на доходность акций, будь то отдельные акции, сектора или общий уровень индекса. Более того, мы могли бы попытаться предсказать один или несколько оценочных факторов, используя модели временных рядов.

Заключение

Незаметные или скрытые факторы оказывают сильное влияние на социальные явления, включая финансовые рынки. Мы используем моделирование динамических факторов, чтобы выявить некоторые скрытые факторы, влияющие на цены отдельных акций. Набор данных охватывал ежедневные цены на акции 32 крупнейших публичных компаний США за 12-летний период с середины 2009 до середины 2021 года.

По нашим оценкам, три скрытых фактора объясняют примерно половину дисперсии дневной доходности акций в выборке. Ключевым первым фактором была подтверждена общая тенденция фондового рынка, и он был безусловно доминирующим фактором. Было обнаружено, что этот фактор имеет корреляцию +0,96 с индексом S&P 500 за весь период выборки.

Два других фактора оказали гораздо более слабое влияние на отдельные акции. Второй фактор оказался коррелированным с более широкими макроэкономическими условиями, что отражено комбинацией цен на сырьевые товары и показателей процентных ставок. Третий фактор, напротив, представлял факторы динамики и стиля роста фондового рынка.

Копнув глубже, мы обнаружили, что сила первого скрытого фактора отрицательно коррелировала с разбросом скорректированной на риск доходности 32 акций. более слабое влияние первого фактора, измеряемое средним R-квадратом годовых и квартальных периодов повторяемости, как правило, совпадало с более высоким стандартным отклонением в коэффициенте информации акций. в образце.

(Полный код Python для этого упражнения доступен на моей странице GitHub. Если при рендеринге файлов записной книжки GitHub напрямую возникают проблемы, используйте nbviewer.)

Если вы видели ценность в чтении подобных статей, вы можете подписаться на Medium здесь, чтобы читать другие статьи, написанные мной и бесчисленным множеством других авторов. Спасибо.

Сложение моделей машинного обучения для многомерных временных рядов
Пример набора данных о загрязнении воздуха PM 2.5 на сайтеdatascience.com

Лучшие хитрости Python для финансов
С данными временных рядов биткойнов medium.datadriveninvestor.com

Моделирование доходности фондового рынка и риска краха
Эмпирический анализ с использованием исторических данных S & P500 за 1928–2019 годы в сторонуdatascience.com