Короче

Эта конфигурация стратегий заняла у меня около 2 месяцев, чтобы закончить как часть бакалаврской диссертации. Предлагаемые модели применимы с точки зрения компромисса смещения и дисперсии, хотя текущий набор параметров ни в коем случае не является оптимальным.

Этот документ является полностью информативным и не может рассматриваться как рекомендация для какой-либо конкретной ценной бумаги, портфеля или инвестиционной стратегии. Вы должны всегда торговать деньгами, которые вы можете позволить себе потерять. Помните, что все модели используются на ваш страх и риск.

RL - это не волшебная пуля, которая сделает из вас другого Уоррена Баффета.

Вступление

В общем смысле управление портфелем можно рассматривать как процесс принятия решений на основе имеющихся цен и альтернативных данных, который подразумевает последовательное распределение средств в соответствии с профилем риска инвестора.

Представленная модель является одним из стандартных способов формализации задачи обучения с подкреплением (RL). Обучение интеллектуальных агентов - это насущная научная и техническая проблема, которая имеет широкую область применения , не говоря уже о финансовой науке.

Предположительно, торговые агенты на основе RL используют активное обучение по сравнению с альтернативными методами построения портфеля в том смысле, что агент понимает оптимальное распределение активов при прямом взаимодействии с окружающей средой, как профессионал. трейдер.

Проблемный домен

За последние 3 года исследователи изучали применимость как проприетарных фреймворков, так и ванильных алгоритмов RL.

На практике наиболее важной задачей является управление портфелем на традиционных рынках, включая высокочастотную торговлю, и биржах криптовалют. Точно так же эти методы можно использовать в моделировании микроструктуры рынка и в маркет-мейкинге.

В задачах управления портфелем подавляющее большинство авторов сосредотачиваются на исторических данных о ценах. Применимость всеобъемлющих характеристик финансового рынка, включая настроения потребителей, статистику подразумеваемой волатильности и т. Д., По наблюдениям агента, не была изучена в достаточной степени.

Бэктестинг

Бэктестинг - важный шаг в разработке эффективной торговой стратегии, предшествующий демо и реальной торговле. Он включает в себя моделирование последовательности транзакций с историческими данными, что приводит к получению ряда статистических данных о производительности.

Тем не менее, высокая производительность на исторических данных не гарантирует аналогичные результаты на реальном торговом счете. Помимо низкого качества поставщика данных и структуры тестирования на исторических данных, фундаментальные ошибки могут быть сделаны во время подготовки данных и тестирования самих по себе. Например, систематическая ошибка выживаемости, систематическая ошибка отслеживания данных, утечка данных, переобучение и т. Д.

Для решения и преодоления выявленных проблем мы используем такие методы, как регуляризация, ограничение сложности модели, перекрестная проверка, а также специальные методы, такие как White's Reality Check. Однако наиболее надежным тестом на реальность с практической точки зрения является проверка модели на демо или реальном торговом счете.

Разграничения

Это исследование ограничено точностью, выбранным списком акций (компоненты индекса S&P 500 с учетом исторической структуры индекса), выбранными контрольными показателями и допущения при тестировании на исторических данных, а именно: нулевая задержка при ребалансировке портфеля, ликвидность торгуемых ценных бумаг и т. д.

Оценка модели охватывает комиссионные брокера, включая короткую ставку и проскальзывание при размещении ордеров. Дивиденды не реинвестируются.

Более того, существенным ограничением исследования, а также задач RL в целом является значительная вычислительная сложность моделей и стоимость соответствующих ресурсов для их расчета. Тот факт, что обучение модели может стоить тысячи или миллионы долларов, часто упускается из виду.

Данные

Очевидно, что качество инвестиционных решений агента в основном определяется релевантностью выбранных факторов. Исходный набор данных включает несколько макроэкономических показателей, а также цены и альтернативные данные для каждой компании.

Набор макроэкономических данных состоит из индекса цен на сырьевые товары, отраслевых индексов, котировок фьючерсов на индекс S&P, настроений потребителей, вероятности повышения ставки ФРС, спредов доходности, индекса волатильности и производной статистики.

Набор данных по компаниям охватывает данные о ценах, объеме, статистике подразумеваемой волатильности, открытом интересе опционов, скользящих коэффициентах авторегрессии, вероятностях по умолчанию, спредах между покупателями и покупателями, различных скоринговых моделях, настроениях (новости и Twitter), инсайдерские операции и производные показатели.

Предположительно, объединение двух информационных активов позволяет агенту определить прибыльность, финансовое состояние и инвестиционный потенциал компании в текущем экономическом контексте.

Конфигурация модели

Пространство действий

пространство действий определяется вектором w, где i -й компонент представляет вес i -й актив в портфеле размером N, то есть средства, выделенные данному активу в момент t:

Очевидно, что пространство непрерывного действия позволяет торговому агенту точно настроить подверженность и масштабировать позицию отдельной ценной бумаги более точно в отличие от дискретного случая.

Смотровая площадка

Наблюдение представлено тензором, который содержит начальные данные, описанные выше, где N - общее количество активов, M - количество функции, а T - период ретроспективного анализа:

Функция вознаграждения

Дизайн функции вознаграждения - самый важный и сложный этап развития интеллектуальных агентов. В этой статье мы используем доходность портфеля и дифференциальный коэффициент Шарпа, включая транзакционные издержки.

Архитектура базовых моделей

Применяемые алгоритмы, а именно PPO и TD3, поддерживаются двумя нейронными сетями для сравнения эффективности моделей в зависимости от архитектуры разной структуры и сложности.

Первая сеть - это LSTM, которая принимает функции, извлеченные сверточными слоями. Вторая сеть адаптирована под указанную задачу кодировщика головы DeepLabV3 +, которая показала отличные результаты в семантической сегментации.

Одной из основных характеристик архитектуры DeepLabV3 + является объединение массивных пространственных пирамид, которое кодирует контекстную информацию разных масштабов путем применения сложных сверточных слоев с разными параметрами, то есть полем обзора.

Мотивация для выбора этой архитектуры заключается в извлечении инвестиционного качества ценных бумаг, а также их комбинаций в различных экономических контекстах.

Период тестирования на истории

Период охватывает диапазон 01.01.2017—2020-03-30, характеризующийся устойчивым ростом фондового рынка США в 2017 г., падением на фоне эскалации торговой войны и действиями ФРС. ужесточение денежно-кредитной политики в 2018–2019 годах и глобальный коллапс и последующее количественное смягчение (QE) и снижение процентных ставок в 2020 году.

Методы валидации

Модели проверяются как в рамках всего набора данных, т. Е. in-sample, так и с использованием метода развертывания-out-of-sample, который имитирует реальные торговые условия. Этот метод предполагает, что один раз в период, например, один раз в месяц, веса модели полностью стираются, и процесс обучения начинается с нуля на данных, доступных в то время. Впоследствии агент принимает решения на основе новой наблюдаемой информации.

Контрольный показатель

Базовые стратегии включают UCPR (еженедельная ребалансировка) и UBAH (стратегия покупки и удержания) для SPDR S&P 500 ETF Trust (NYSE: SPY).

Полученные результаты

Чистое время расчета моделей заняло около месяца. Инвестиционные портфели, сформированные торговыми агентами, показали более высокие показатели эффективности по сравнению с альтернативными подходами.

В рамках подхода развертывания из выборки самый высокий коэффициент Шарпа был достигнут торговым агентом на основе PPO (DeepLabV3 +) с функцией вознаграждения дифференциального коэффициента Шарпа. Однако, несмотря на преимущество в эффективности, широкий доверительный интервал ограничивает применимость архитектуры в реальной торговле.

Напротив, сеть CnnLstm имеет приемлемый доверительный интервал и не значительно снижает производительность. Кроме того, портфели PPO (CnnLstm) превосходят альтернативные подходы по другим показателям. Например, максимальная просадка составляет -10 ± 3% по сравнению с -47% для стратегии «покупай и держи». Бета с индексом S&P 500 составляет около 0,06 ± 0,37, т.е. в среднем портфели RL имеют незначительный систематический риск; альфа составляет 4 ± 0,5%. Ожидаемый убыток на уровне 1% составляет 34 ± 2% при нормальном распределении доходности и 35 ± 2% при наблюдаемом распределении. Для стратегии «покупай и держи» эти показатели составляют 58% и 120% соответственно.

Отдельно, согласно результатам в выборке, модели, протестированные таким образом, следует осторожно применять в реальной торговле, потому что алгоритмы легко «обучаются» выборке и экстраполяции результатов. может привести к существенному снижению производительности.

Алгоритм TD3 продемонстрировал более высокие результаты в выборке, но обобщающая способность этого метода уступает PPO.

Процесс обучения

Не менее важным можно считать обучающий процесс предложенных моделей.

Представленный график показывает основной принцип алгоритмов градиента политики, а именно сдвиг распределения в положительную сторону. Любопытно отметить, как сокращаются тяжелые хвосты распределения во время взаимодействия агента с окружающей средой.

Кроме того, торговому агенту не всегда удается достичь оптимальной стратегии, приносящей высокие положительные результаты. В среднем по окончании обучения доходность агента находится в диапазоне 5–10% годовых.

То же самое верно и для дифференциальной функции вознаграждения по коэффициенту Шарпа. Кроме того, можно наблюдать, как стратегия агента ухудшается из-за резко возрастающей экспоненциальной скользящей оценки второго момента доходности.

Заключение

В настоящее время фундаментальные проблемы RL не позволяют полностью делегировать сложные интеллектуальные задачи, такие как управление портфелем, современным алгоритмам RL. В отличие от профессионального трейдера, торговый агент не имеет предварительных знаний в предметной области, не говоря уже о базовом опыте и здравом смысле.

Хотя алгоритмы продемонстрировали достаточно хорошую способность к обобщению, крайне важно проверить их на демо и реальных торговых счетах и ​​соответствующим образом оптимизировать гиперпараметры.

Будущая работа

Одна из основных проблем методов машинного обучения и, в частности, алгоритмов RL - это уверенность в первичных моделях и интерпретируемость результатов.

Таким образом, предлагается провести подробный анализ результатов, полученных в рамках конкретных ценных бумаг и различных рыночных ситуаций, как положительных, так и отрицательных; применять методы интерпретации черного ящика, а именно график частичной зависимости (PDP), добавочное объяснение Шапли (SHAP) и т. д.

Более того, было бы интересно посмотреть, как алгоритмы работают с другими типами ценных бумаг и какие стратегии агенты будут развивать в рамках многоагентной системы.

Кредиты и ссылки

  1. Беляков, Б. (2020). Современные алгоритмы обучения с подкреплением для управления портфелем. (диплом бакалавра, Высшая школа экономики, Москва, Россия). Получено с https://www.hse.ru/en/edu/vkr/364433415
  2. Chen, L. et al. (2018). Кодер-декодер с разделенной сверткой Atrous для семантической сегментации изображений. arXiv: 1802.02611 [cs.CV]. Получено с https://arxiv.org/pdf/1802.02611.pdf
  3. Филос, А. (2017). Обучение с подкреплением для управления портфелем. arXiv: 1909.09571 [q-fin.PM]. Получено с https://arxiv.org/pdf/1909.09571.pdf
  4. Геан, О., Манзюк, Дж. (2019). Глубокое обучение с подкреплением для создания рынка корпоративных облигаций: преодоление проклятия размерности. arXiv: 1910.13205 [q-fin.CP]. Получено с h ttps: //arxiv.org/pdf/1910.13205.pdf
  5. Jiang, Z. et al. (2017). Система обучения с глубоким подкреплением для решения проблемы управления финансовым портфелем. arXiv: 1706.10059 [q-fin.CP]. Получено с https://arxiv.org/pdf/1706.10059.pdf
  6. Li, X. et. al. (2019). Оптимистичный бык или пессимистичный медведь: адаптивное обучение с глубоким подкреплением для распределения портфеля акций. arXiv: 1907.01503 [q-fin.ST]. Получено с https://arxiv.org/pdf/1907.01503.pdf
  7. Liang, Z. et al. (2018). Состязательное обучение с глубоким подкреплением в управлении портфелем. arXiv: 1808.09940 [q-fin.PM]. Получено с https://arxiv.org/pdf/1808.09940.pdf
  8. Lussange, J. et al. (2019). Формирование цены акций: полезные выводы из многоагентной модели обучения с подкреплением. arXiv: 1910.05137 [q-fin.TR]. Источник https://arxiv.org/pdf/1910.05137.pdf
  9. Shin, W. et. al. (2019). Автоматический торговый агент по финансовой торговле для управления портфелем с низким уровнем риска с использованием глубокого обучения с подкреплением. arXiv: 1909.03278 [q-fin.TR]. Получено с https://arxiv.org/pdf/1909.03278.pdf
  10. Ван, Х. (2019). Крупномасштабное распределение портфеля средней дисперсии в непрерывном времени с помощью обучения с подкреплением. arXiv: 1907.11718 [q-fin.PM]. Получено с https://arxiv.org/pdf/1907.11718.pdf
  11. Wei, H. et al. (2019). Модельное обучение с подкреплением для прогнозирования и управления книгами лимитных заказов. arXiv: 1910.03743 [cs.AI]. Источник https://arxiv.org/pdf/1910.03743.pdf
  12. Xiong, Z. et al. (2018). Практический подход к обучению с глубоким подкреплением для торговли акциями. arXiv: 1811.07522 [cs.LG]. Получено с https://arxiv.org/pdf/1811.07522.pdf
  13. Yu, P. et al. (2019). Моделирование глубокого обучения с подкреплением для оптимизации динамического портфеля. arXiv: 1901.08740 [cs.LG]. Получено с https://arxiv.org/pdf/1901.08740.pdf
  14. Yunan, Y. et al. (2020). Управление портфелем на основе обучения с подкреплением с расширенными состояниями прогнозирования движения активов. arXiv: 2002.05780 [q-fin.PM]. Источник https://arxiv.org/pdf/2002.05780.pdf