Короче
Эта конфигурация стратегий заняла у меня около 2 месяцев, чтобы закончить как часть бакалаврской диссертации. Предлагаемые модели применимы с точки зрения компромисса смещения и дисперсии, хотя текущий набор параметров ни в коем случае не является оптимальным.
Этот документ является полностью информативным и не может рассматриваться как рекомендация для какой-либо конкретной ценной бумаги, портфеля или инвестиционной стратегии. Вы должны всегда торговать деньгами, которые вы можете позволить себе потерять. Помните, что все модели используются на ваш страх и риск.
RL - это не волшебная пуля, которая сделает из вас другого Уоррена Баффета.
Вступление
В общем смысле управление портфелем можно рассматривать как процесс принятия решений на основе имеющихся цен и альтернативных данных, который подразумевает последовательное распределение средств в соответствии с профилем риска инвестора.
Представленная модель является одним из стандартных способов формализации задачи обучения с подкреплением (RL). Обучение интеллектуальных агентов - это насущная научная и техническая проблема, которая имеет широкую область применения , не говоря уже о финансовой науке.
Предположительно, торговые агенты на основе RL используют активное обучение по сравнению с альтернативными методами построения портфеля в том смысле, что агент понимает оптимальное распределение активов при прямом взаимодействии с окружающей средой, как профессионал. трейдер.
Проблемный домен
За последние 3 года исследователи изучали применимость как проприетарных фреймворков, так и ванильных алгоритмов RL.
На практике наиболее важной задачей является управление портфелем на традиционных рынках, включая высокочастотную торговлю, и биржах криптовалют. Точно так же эти методы можно использовать в моделировании микроструктуры рынка и в маркет-мейкинге.
В задачах управления портфелем подавляющее большинство авторов сосредотачиваются на исторических данных о ценах. Применимость всеобъемлющих характеристик финансового рынка, включая настроения потребителей, статистику подразумеваемой волатильности и т. Д., По наблюдениям агента, не была изучена в достаточной степени.
Бэктестинг
Бэктестинг - важный шаг в разработке эффективной торговой стратегии, предшествующий демо и реальной торговле. Он включает в себя моделирование последовательности транзакций с историческими данными, что приводит к получению ряда статистических данных о производительности.
Тем не менее, высокая производительность на исторических данных не гарантирует аналогичные результаты на реальном торговом счете. Помимо низкого качества поставщика данных и структуры тестирования на исторических данных, фундаментальные ошибки могут быть сделаны во время подготовки данных и тестирования самих по себе. Например, систематическая ошибка выживаемости, систематическая ошибка отслеживания данных, утечка данных, переобучение и т. Д.
Для решения и преодоления выявленных проблем мы используем такие методы, как регуляризация, ограничение сложности модели, перекрестная проверка, а также специальные методы, такие как White's Reality Check. Однако наиболее надежным тестом на реальность с практической точки зрения является проверка модели на демо или реальном торговом счете.
Разграничения
Это исследование ограничено точностью, выбранным списком акций (компоненты индекса S&P 500 с учетом исторической структуры индекса), выбранными контрольными показателями и допущения при тестировании на исторических данных, а именно: нулевая задержка при ребалансировке портфеля, ликвидность торгуемых ценных бумаг и т. д.
Оценка модели охватывает комиссионные брокера, включая короткую ставку и проскальзывание при размещении ордеров. Дивиденды не реинвестируются.
Более того, существенным ограничением исследования, а также задач RL в целом является значительная вычислительная сложность моделей и стоимость соответствующих ресурсов для их расчета. Тот факт, что обучение модели может стоить тысячи или миллионы долларов, часто упускается из виду.
Данные
Очевидно, что качество инвестиционных решений агента в основном определяется релевантностью выбранных факторов. Исходный набор данных включает несколько макроэкономических показателей, а также цены и альтернативные данные для каждой компании.
Набор макроэкономических данных состоит из индекса цен на сырьевые товары, отраслевых индексов, котировок фьючерсов на индекс S&P, настроений потребителей, вероятности повышения ставки ФРС, спредов доходности, индекса волатильности и производной статистики.
Набор данных по компаниям охватывает данные о ценах, объеме, статистике подразумеваемой волатильности, открытом интересе опционов, скользящих коэффициентах авторегрессии, вероятностях по умолчанию, спредах между покупателями и покупателями, различных скоринговых моделях, настроениях (новости и Twitter), инсайдерские операции и производные показатели.
Предположительно, объединение двух информационных активов позволяет агенту определить прибыльность, финансовое состояние и инвестиционный потенциал компании в текущем экономическом контексте.
Конфигурация модели
Пространство действий
пространство действий определяется вектором w, где i -й компонент представляет вес i -й актив в портфеле размером N, то есть средства, выделенные данному активу в момент t:
Очевидно, что пространство непрерывного действия позволяет торговому агенту точно настроить подверженность и масштабировать позицию отдельной ценной бумаги более точно в отличие от дискретного случая.
Смотровая площадка
Наблюдение представлено тензором, который содержит начальные данные, описанные выше, где N - общее количество активов, M - количество функции, а T - период ретроспективного анализа:
Функция вознаграждения
Дизайн функции вознаграждения - самый важный и сложный этап развития интеллектуальных агентов. В этой статье мы используем доходность портфеля и дифференциальный коэффициент Шарпа, включая транзакционные издержки.
Архитектура базовых моделей
Применяемые алгоритмы, а именно PPO и TD3, поддерживаются двумя нейронными сетями для сравнения эффективности моделей в зависимости от архитектуры разной структуры и сложности.
Первая сеть - это LSTM, которая принимает функции, извлеченные сверточными слоями. Вторая сеть адаптирована под указанную задачу кодировщика головы DeepLabV3 +, которая показала отличные результаты в семантической сегментации.
Одной из основных характеристик архитектуры DeepLabV3 + является объединение массивных пространственных пирамид, которое кодирует контекстную информацию разных масштабов путем применения сложных сверточных слоев с разными параметрами, то есть полем обзора.
Мотивация для выбора этой архитектуры заключается в извлечении инвестиционного качества ценных бумаг, а также их комбинаций в различных экономических контекстах.
Период тестирования на истории
Период охватывает диапазон 01.01.2017—2020-03-30, характеризующийся устойчивым ростом фондового рынка США в 2017 г., падением на фоне эскалации торговой войны и действиями ФРС. ужесточение денежно-кредитной политики в 2018–2019 годах и глобальный коллапс и последующее количественное смягчение (QE) и снижение процентных ставок в 2020 году.
Методы валидации
Модели проверяются как в рамках всего набора данных, т. Е. in-sample, так и с использованием метода развертывания-out-of-sample, который имитирует реальные торговые условия. Этот метод предполагает, что один раз в период, например, один раз в месяц, веса модели полностью стираются, и процесс обучения начинается с нуля на данных, доступных в то время. Впоследствии агент принимает решения на основе новой наблюдаемой информации.
Контрольный показатель
Базовые стратегии включают UCPR (еженедельная ребалансировка) и UBAH (стратегия покупки и удержания) для SPDR S&P 500 ETF Trust (NYSE: SPY).
Полученные результаты
Чистое время расчета моделей заняло около месяца. Инвестиционные портфели, сформированные торговыми агентами, показали более высокие показатели эффективности по сравнению с альтернативными подходами.
В рамках подхода развертывания из выборки самый высокий коэффициент Шарпа был достигнут торговым агентом на основе PPO (DeepLabV3 +) с функцией вознаграждения дифференциального коэффициента Шарпа. Однако, несмотря на преимущество в эффективности, широкий доверительный интервал ограничивает применимость архитектуры в реальной торговле.
Напротив, сеть CnnLstm имеет приемлемый доверительный интервал и не значительно снижает производительность. Кроме того, портфели PPO (CnnLstm) превосходят альтернативные подходы по другим показателям. Например, максимальная просадка составляет -10 ± 3% по сравнению с -47% для стратегии «покупай и держи». Бета с индексом S&P 500 составляет около 0,06 ± 0,37, т.е. в среднем портфели RL имеют незначительный систематический риск; альфа составляет 4 ± 0,5%. Ожидаемый убыток на уровне 1% составляет 34 ± 2% при нормальном распределении доходности и 35 ± 2% при наблюдаемом распределении. Для стратегии «покупай и держи» эти показатели составляют 58% и 120% соответственно.
Отдельно, согласно результатам в выборке, модели, протестированные таким образом, следует осторожно применять в реальной торговле, потому что алгоритмы легко «обучаются» выборке и экстраполяции результатов. может привести к существенному снижению производительности.
Алгоритм TD3 продемонстрировал более высокие результаты в выборке, но обобщающая способность этого метода уступает PPO.
Процесс обучения
Не менее важным можно считать обучающий процесс предложенных моделей.
Представленный график показывает основной принцип алгоритмов градиента политики, а именно сдвиг распределения в положительную сторону. Любопытно отметить, как сокращаются тяжелые хвосты распределения во время взаимодействия агента с окружающей средой.
Кроме того, торговому агенту не всегда удается достичь оптимальной стратегии, приносящей высокие положительные результаты. В среднем по окончании обучения доходность агента находится в диапазоне 5–10% годовых.
То же самое верно и для дифференциальной функции вознаграждения по коэффициенту Шарпа. Кроме того, можно наблюдать, как стратегия агента ухудшается из-за резко возрастающей экспоненциальной скользящей оценки второго момента доходности.
Заключение
В настоящее время фундаментальные проблемы RL не позволяют полностью делегировать сложные интеллектуальные задачи, такие как управление портфелем, современным алгоритмам RL. В отличие от профессионального трейдера, торговый агент не имеет предварительных знаний в предметной области, не говоря уже о базовом опыте и здравом смысле.
Хотя алгоритмы продемонстрировали достаточно хорошую способность к обобщению, крайне важно проверить их на демо и реальных торговых счетах и соответствующим образом оптимизировать гиперпараметры.
Будущая работа
Одна из основных проблем методов машинного обучения и, в частности, алгоритмов RL - это уверенность в первичных моделях и интерпретируемость результатов.
Таким образом, предлагается провести подробный анализ результатов, полученных в рамках конкретных ценных бумаг и различных рыночных ситуаций, как положительных, так и отрицательных; применять методы интерпретации черного ящика, а именно график частичной зависимости (PDP), добавочное объяснение Шапли (SHAP) и т. д.
Более того, было бы интересно посмотреть, как алгоритмы работают с другими типами ценных бумаг и какие стратегии агенты будут развивать в рамках многоагентной системы.
Кредиты и ссылки
- Беляков, Б. (2020). Современные алгоритмы обучения с подкреплением для управления портфелем. (диплом бакалавра, Высшая школа экономики, Москва, Россия). Получено с https://www.hse.ru/en/edu/vkr/364433415
- Chen, L. et al. (2018). Кодер-декодер с разделенной сверткой Atrous для семантической сегментации изображений. arXiv: 1802.02611 [cs.CV]. Получено с https://arxiv.org/pdf/1802.02611.pdf
- Филос, А. (2017). Обучение с подкреплением для управления портфелем. arXiv: 1909.09571 [q-fin.PM]. Получено с https://arxiv.org/pdf/1909.09571.pdf
- Геан, О., Манзюк, Дж. (2019). Глубокое обучение с подкреплением для создания рынка корпоративных облигаций: преодоление проклятия размерности. arXiv: 1910.13205 [q-fin.CP]. Получено с h ttps: //arxiv.org/pdf/1910.13205.pdf
- Jiang, Z. et al. (2017). Система обучения с глубоким подкреплением для решения проблемы управления финансовым портфелем. arXiv: 1706.10059 [q-fin.CP]. Получено с https://arxiv.org/pdf/1706.10059.pdf
- Li, X. et. al. (2019). Оптимистичный бык или пессимистичный медведь: адаптивное обучение с глубоким подкреплением для распределения портфеля акций. arXiv: 1907.01503 [q-fin.ST]. Получено с https://arxiv.org/pdf/1907.01503.pdf
- Liang, Z. et al. (2018). Состязательное обучение с глубоким подкреплением в управлении портфелем. arXiv: 1808.09940 [q-fin.PM]. Получено с https://arxiv.org/pdf/1808.09940.pdf
- Lussange, J. et al. (2019). Формирование цены акций: полезные выводы из многоагентной модели обучения с подкреплением. arXiv: 1910.05137 [q-fin.TR]. Источник https://arxiv.org/pdf/1910.05137.pdf
- Shin, W. et. al. (2019). Автоматический торговый агент по финансовой торговле для управления портфелем с низким уровнем риска с использованием глубокого обучения с подкреплением. arXiv: 1909.03278 [q-fin.TR]. Получено с https://arxiv.org/pdf/1909.03278.pdf
- Ван, Х. (2019). Крупномасштабное распределение портфеля средней дисперсии в непрерывном времени с помощью обучения с подкреплением. arXiv: 1907.11718 [q-fin.PM]. Получено с https://arxiv.org/pdf/1907.11718.pdf
- Wei, H. et al. (2019). Модельное обучение с подкреплением для прогнозирования и управления книгами лимитных заказов. arXiv: 1910.03743 [cs.AI]. Источник https://arxiv.org/pdf/1910.03743.pdf
- Xiong, Z. et al. (2018). Практический подход к обучению с глубоким подкреплением для торговли акциями. arXiv: 1811.07522 [cs.LG]. Получено с https://arxiv.org/pdf/1811.07522.pdf
- Yu, P. et al. (2019). Моделирование глубокого обучения с подкреплением для оптимизации динамического портфеля. arXiv: 1901.08740 [cs.LG]. Получено с https://arxiv.org/pdf/1901.08740.pdf
- Yunan, Y. et al. (2020). Управление портфелем на основе обучения с подкреплением с расширенными состояниями прогнозирования движения активов. arXiv: 2002.05780 [q-fin.PM]. Источник https://arxiv.org/pdf/2002.05780.pdf