Некоторые утверждают, что финансовые рынки — плохой выбор для применения машинного обучения (ML). Эти статьи были сосредоточены на предсказании доходности рынка или акций и ссылались на гауссовские свойства этих доходностей или «зашумленность» таких данных в качестве причины своих выводов. Часто их пишут специалисты по обработке и анализу данных, которые, несомненно, хорошо разбираются в своем ремесле, но им не хватает знаний в предметной области проблемы, которую они пытаются решить; однако эти подходы имеют недостатки в том, как они изначально формулируют проблему.

В управлении активами у нас уже есть значительная и растущая часть активов, управляемых с использованием «количественных» инвестиционных стратегий, основанных на данных. Это должно стать отправной точкой для обсуждения машинного обучения в инвестиционных исследованиях. Машинное обучение должно использоваться в качестве инструмента людьми, ориентированными на количественные показатели, которые являются финансовыми экспертами, чтобы сделать свои стратегии более эффективными и прибыльными. Ориентиром для сравнения успешного внедрения ОД должны быть их текущие стратегии без поддержки ОД.

Внедрение машинного обучения в количественные исследования

Существует несколько этапов построения инвестиционных стратегий, основанных на данных, независимо от используемого программного обеспечения или системы. Во-первых, нам нужно собрать разрозненные наборы данных, такие как финансовые отчеты компаний, оценки брокеров, ценообразование и корпоративные действия, данные о классификации групп компаний и множество различных типов эзотерических или альтернативных данных, чтобы найти скрытые сигналы. Затем эти наборы данных необходимо объединить, стандартизировать, очистить от выбросов и превратить в факторы с экономически интуитивным значением. Затем можно использовать аналитические инструменты для анализа того, насколько хорошо эти факторы объясняют движение цен на акции и имеют ли они постоянную ценность с течением времени. Наконец, эти сигналы могут быть преобразованы в портфели с использованием методов, основанных на правилах, или более сложных методов, таких как оптимизация на основе рисков.

Где вписывается ML? ML превосходно находит закономерности в данных. Один из способов его использования — улучшить наши традиционные инвестиционные стратегии, основанные на данных, чтобы найти и использовать закономерности в наших факторах. Это позволяет нам строить модели, объясняющие поведение акций с точки зрения различных факторов. Этот рабочий процесс показан на схеме ниже.

Автоматизированное машинное обучение

Трудность заключается в том, как выбрать и реализовать правильные типы алгоритмов машинного обучения. Используя бесплатные инструменты, подобные тем, которые доступны в Python или R, начинающий специалист по данным быстро выходит из своей глубины и скорее потерпит неудачу, чем преуспеет. У них не будет опыта, чтобы знать, какие типы алгоритмов применять к определенной проблеме или как их эффективно обучать. Они могут легко попасть в бесконечный цикл, когда пробуют разные алгоритмы с множеством разных параметров и перестановок данных.

С другой стороны, наем опытного специалиста по обработке данных может обойтись дорого. Очень немногие обладают всеми необходимыми навыками для решения проблем финансового рынка. Скорее всего, вам потребуются три человека: специалист по данным для тестирования и проверки алгоритмов, инженер/программист для их реализации в различных средах и эксперт в предметной области, который понимает данные и может разумно определить проблему.

Чтобы добиться успеха в машинном обучении, требуется автоматизация более приземленных компонентов программирования и статистики. Эксперты в предметной области должны быть наделены сложными инструментами, которые позволят им решать эти проблемы с минимальной помощью профессиональных специалистов по данным в виде поддержки продукта.

Для нашего анализа мы использовали DataRobot через FactSet, что позволило нам исследовать, создавать и автоматизировать различные модели, прежде чем интегрировать их в реальные портфели. Чтобы узнать больше, смотрите полную веб-трансляцию.

Создание и тестирование нашей модели

Чтобы показать, что машинное обучение можно использовать для улучшения традиционных количественных факторов, мы построили модель прогнозирования акций для акций China A. Мы собрали ежемесячные снимки динамики акций и данные о различных факторах для индекса CSI 800 с декабря 2012 года по август 2019 года. Мы установили целевую переменную как будущую доходность акций за один месяц и использовали факторы из нашей исходной модели портфеля.

Мы систематически тестировали десятки различных алгоритмов и перестановок предварительной обработки проблемы с помощью процесса «выживания наиболее приспособленных». Сначала мы обучили каждую модель, используя подмножество исторических данных, а затем протестировали модель на данных, которых она раньше не видела, чтобы определить ее эффективность. Затем все модели были ранжированы с помощью различных методов или показателей оптимизации, чтобы определить лучшие модели для данной проблемы.

После того, как наши модели были оценены, мы взяли прогнозы из трех лучших моделей и вернули их обратно в нашу аналитическую модель. Мы построили портфели с равным весом, в которых мы купили верхние 20% прогнозов и продали нижние 20% прогнозов. Затем мы проанализировали эти портфели наряду с более традиционными факторными портфелями. На приведенной ниже диаграмме показана доходность этих различных портфелей.

Урок 1 — Не путайте внутривыборочный и вневыборочный

На первый взгляд кажется, что наши стратегии, основанные на машинном обучении, значительно превосходят более традиционные стратегии. Однако это потому, что мы сосредоточились на всем периоде; вместо этого нам нужно анализировать эти модели, используя только новые данные, алгоритм не был обучен или проверен, чтобы гарантировать, что стратегия будет успешной в будущем.

Если мы сравним результаты в выборке с результатами за пределами выборки, к сожалению, модели, основанные на машинном обучении, едва ли превзойдут своих более традиционных аналогов. В одном случае он действительно работает довольно плохо. Таким образом, машинное обучение проделало большую работу по моделированию поведения факторов в период обучения и проверки, но эта производительность не сохранилась бы, если бы за ней стояли реальные деньги. Это возвращает нас к первоначальной критике применения машинного обучения к инвестициям. Мы можем решить их, тщательно построив нашу проблему, следуя приведенным ниже пунктам.

Примечание. Информационный коэффициент (IC) – это показатель того, насколько хорошо каждый фактор предсказывает ранг доходности ценных бумаг. Большие положительные значения означают лучшую предсказательную силу.

Урок 2 — Блокируйте шум и моделируйте одну вещь за раз

В отличие от типичных случаев использования машинного обучения, таких как прогнозирование продаж в одном и том же магазине или вероятность того, что физическое лицо не выплатит свой банковский кредит, данные о доходности акций зашумлены. Хорошо известно, что финансовые данные временных рядов страдают сложным поведением, включая гетероскедастичность, черных лебедей и зависимость от хвоста. В нашем случае мы не стремимся предсказать рыночную доходность, а только акции, в которые нужно инвестировать. Чтобы свести к минимуму влияние этих явлений, мы можем сосредоточиться исключительно на сравнительной производительности или относительной производительности аналогов, чтобы свести к минимуму шум.

Урок 3. Упростите формулировку задачи для создания лучших моделей

Даже после сведения к минимуму шума в доходности наших акций нет необходимости прогнозировать континуум доходности акций. Для типичного управляющего фондом, владеющего только длинными позициями, знание фактической доходности акций не изменит его поведения до тех пор, пока не изменится ранговый порядок акций. Если доходность акции в следующем месяце составит 10% против 11%, вы все равно ее купите. Переход к простому подходу, основанному на классификации, позволяет нам избежать переобучения при попытке предсказать фактическую доходность акций.

Мы попытались переформулировать проблему: войдет ли акция в топ-30% акций индекса? Чтобы выяснить это, мы повторно запустили тот же процесс с теми же данными с этой новой целью.

Как показано ниже, все три лучшие модели на основе классификации превзошли модели на основе регрессии в период внутри выборки. Важно отметить, что их производительность вне выборки стабильна: лучшая по сравнению со всеми другими факторами и была чрезвычайно стабильной из месяца в месяц. Похоже, мы нашли выигрышный рецепт.

Урок 4 — Объяснение вашей модели так же важно, как и ее создание

Чтобы представить свой фонд в своей организации и в конечном итоге объяснить клиентам достоинства и результаты инвестиционной стратегии, вам придется объяснить, как работает модель. Сложность здесь в том, что эти модели машинного обучения сложны для понимания как концептуально, так и на практике.

DataRobot дает нам инструменты, чтобы рассказать нам, как работает наша модель машинного обучения. На приведенной ниже диаграмме показано влияние функции, которое, по сути, представляет собой чувствительность изменения прогноза к изменению значения функции (или независимой переменной). В этом случае наша модель наиболее чувствительна к изменениям факторов стоимости, ликвидности, импульса и роста прибыли, а также к тому, является ли компания государственным предприятием (ГП). Масштаб диаграммы зависит от самой важной характеристики, поэтому все остальные факторы оцениваются по отношению к влиянию Ценности.

Эта диаграмма объясняет связь признаков с прогнозом. Они могут быть и часто являются нелинейными. В случае со стоимостью, чем выше подверженность компании, тем выше прогноз в нашей модели.

Затем мы можем перейти от теоретического к практическому пониманию и изучить, что торговала стратегия. На приведенном ниже графике показаны отрасли SWS компаний, рекомендованных моделью. Ось Y показывает относительную важность отрасли по шкале от 1 до 5, где 1 указывает на наивысшую, а размер кружка представляет частоту наблюдений. Наша модель избегает финансовых и коммунальных услуг при покупке компаний в электронной промышленности.

Затем мы сгруппировали наши прогнозы в две группы на основе флага SOE, который мы выделили ранее. Анализируя корреляции доходности акций в каждой группе, мы обнаружили, что модель дает совершенно разные рекомендации в зависимости от того, принадлежит ли компания государству. Для государственных предприятий наша модель больше ориентирована на ценные акции, в то время как для частных компаний наша модель имеет тенденцию инвестировать больше в растущие компании.

Урок 5 — Попробуйте множество подходов и быстро потерпите неудачу

Относительно уроков 3 и 4: весьма вероятно, что вам придется перебирать множество разных подходов, чтобы найти что-то, что работает и хорошо обобщает; мы увидели, что первоначальная постановка задачи не дала нам того, что нам нужно вне выборки, поэтому мы смогли быстро переформулировать проблему для достижения лучших результатов. По мере повторения мы использовали комбинированные функции интерпретируемости DataRobot и FactSet для дальнейшего обоснования наших решений по моделированию. Например, мы потенциально могли бы отточить эту модель еще больше, используя то, что мы узнали о различных способах, которыми модель рассматривает ГП и не-ГП; мы могли бы, скажем, включить дополнительную информацию о форме государственной собственности в качестве переменной или даже построить отдельные модели для акций государственных и негосударственных предприятий, используя разные поля данных для каждой из них. Точно так же мы можем захотеть попробовать разные периоды обучения, охватывающие более длинные или более короткие промежутки времени, или преобразовать некоторые наши данные, сравнив их с историческими диапазонами различной длины.

Именно здесь способность эффективно моделировать несколько условий задачи, наборы входных данных и целевые переменные становится действительно ценной. Автоматизированное машинное обучение облегчает это, не только пробуя множество различных алгоритмов машинного обучения для данной задачи моделирования, но также увеличивая скорость, с которой пользователь может выполнять итерации; быстро создавая и оценивая несколько моделей машинного обучения, пользователи могут сосредоточиться на применении своих знаний в предметной области, проверяя гипотезы о том, как еще улучшить свои модели и стратегии.

Просто запомните урок 1 — выберите постановку задачи о производительности проверки в выборке и убедитесь, что она хорошо обобщается, используя производительность удержания вне выборки перед развертыванием.

Заключение

В представленном здесь примере показан один из вариантов использования машинного обучения для улучшения факторов, традиционно используемых для управления портфелями. Обучение и применение алгоритмов были лишь одним из нескольких шагов в этом процессе. Модели, которые мы построили и в конечном итоге выбрали, оказались очень прибыльными при тестировании вне выборки и значительно превзошли более традиционные модели. Нет никаких сомнений в том, что в руках опытного специалиста машинное обучение является мощным инструментом. Однако при постановке задачи необходимо тщательное рассмотрение, чтобы свести к минимуму влияние зашумленных данных и опасность переобучения. Понимание того, как модели машинного обучения и стратегии, построенные на их основе, также является ключевым моментом при применении машинного обучения для управления портфелем.

Отказ от ответственности. Информация, содержащаяся в этой статье, не является инвестиционным советом. FactSet не одобряет и не рекомендует какие-либо инвестиции и не несет ответственности за любые последствия, прямо или косвенно связанные с любым действием или бездействием, предпринятым на основании информации, содержащейся в этой статье.