Следующая статья основана на исследовательской статье доктора Маркоса Лопеса де Прадо, которую можно найти здесь.

Цель состоит в том, чтобы выделить все, что может пойти не так при использовании алгоритмов машинного обучения в финансах. Доктор де Прадо перечисляет 7 основных причин, по которым большинство фондов машинного обучения терпят неудачу.

  1. Сизифова парадигма
  2. Целочисленное дифференцирование
  3. Неэффективная выборка
  4. Неправильная маркировка
  5. Взвешивание образцов, не относящихся к IID
  6. Утечка перекрестной проверки
  7. Переоснащение при тестировании на исторических данных

Главное предупреждение, которое он дает, заключается в том, что алгоритмы машинного обучения всегда найдут шаблон, даже если его нет.

1. Сизифова парадигма.

Здесь мы можем проводить различие между дискреционными менеджерами портфеля и систематическими или количественными менеджерами портфеля.

Разрозненный подход к личным менеджерам по усмотрению

Управляющие по собственному усмотрению принимают инвестиционные решения, которые не следуют определенной теории или строгому обоснованию, поскольку их решения в основном систематичны, а основаны на интуиции, некоторых предметных знаниях (10–20 + лет работы в той же отрасли) и интуиция.

Следовательно, для дискреционных хедж-фондов имеет смысл иметь разрозненную организационную структуру, которая не позволяет одному PM влиять на процесс принятия решений остальными PM, тем самым защищая диверсификацию.

Это потому, что если у вас есть команда из 100 менеджеров, работающих вместе, в конечном итоге все они последуют примеру самого упрямого и сильного лидера, что приведет к сжатию 100 отдельных решений в одно.

Разрозненный подход к квантам

Эта стратегия терпит неудачу, поскольку рабочий процесс квантов намного сложнее, чем у дискреционного PM, поэтому, выделив 100 квантов PhD, они будут лихорадочно искать возможности для инвестиций, учитывая высокое давление. и в конечном итоге соглашаются на:

  • Ложное срабатывание, которое отлично подходит для бэктестинга с избыточной подгонкой, когда алгоритмы прогнозируют шум или
  • стандартная факторная модель, которая является одной из наиболее часто используемых стратегий, которая обеспечивает низкий коэффициент Шарпа , но по крайней мере подтверждена академическими кругами.

Это потому, что весь смысл использования научного метода состоит в том, чтобы делиться моделями, иметь возможность критиковать их посредством диалога и сотрудничества, делиться ими с другими и воспроизводить их в широком масштабе. Разобщенность не позволяет обсуждать такого рода.

Выявление новых стратегий требует совместной работы специализированных команд, а не самостоятельной разработки сложных стратегий.

Парадигма мета-стратегии

Это лучшая альтернатива изолированному подходу, при котором средства могут развить своего рода фабрику, где каждый уровень сложности распределяется между несколькими основными членами команды, такими как:

  • Сбор, обработка, обработка и структурирование данных
  • Инфраструктура высокопроизводительных вычислений
  • Разработка программного обеспечения
  • Анализ функций
  • Симуляторы казни
  • Бэктестинг

Этот метод позволяет использовать эффект масштаба, чтобы избежать проблемы переоборудования.

2. Целочисленное дифференцирование.

Большинство методов выполнения логического анализа финансовых данных требуют инвариантных процессов, то есть стационарных процессов, поэтому часто наблюдается тенденция к преобразованию нестационарных процессов, таких как цены, в стационарные процессы с помощью метода, известного как целочисленное дифференцирование

  • Возврат цен, изменение доходности, изменение волатильности - вот некоторые примеры.

Эти операции, целочисленные дифференцирования, делают серию стационарной за счет удаления всей памяти из исходной серии.

Основная проблема, с которой мы сталкиваемся, заключается в том, что необходима какая-то память в качестве основы для предсказательной силы модели. Память в этом контексте - это накопление всех отклонений до текущего наблюдения.

Это означает, что для стационарной модели в состоянии равновесия самой модели требуется определенная память, чтобы оценить, насколько далеко отошел ценовой процесс от долгосрочного ожидаемого значения, чтобы создать прогноз.

Дилемма

а. Возвраты являются постоянными, но без памяти.

б. Цена на память, однако, является нестационарной

Оптимальный компромисс между стационарностью и памятью

Ищет минимальную дифференциацию, которая делает ценовой ряд стационарным, сохраняя при этом как можно больше памяти.

Решение состоит в том, чтобы использовать дробное дифференцирование, при котором на коротком промежутке времени ряд напоминает доходность, а на более длинном кадре - уровни цен.

Выводы, о которых де Прадо говорит в своих исследованиях, заключаются в том, что на протяжении десятилетий большинство финансовых исследований основывалось на чрезмерно дифференцированных рядах без памяти, которые в конечном итоге приводили к ложным прогнозам и переобучению. .

3. Неэффективный отбор проб

Основная идея здесь в том, что информация на рынок не приходит в постоянные фиксированные промежутки времени. Это приведет к избыточной выборке в тихие периоды и заниженной выборке в загруженные периоды.

Данные выборки в хронологических интервалах (минута в минуту, день в день и т. Д.) Означает, что информативность отдельного наблюдения далеко не постоянна.

Решением этой проблемы является выборка наблюдений как подчиненный процесс объема передаваемой информации.

Это означает использование механизма выборки, который извлекает наблюдения с той же скоростью, с которой информация поступает на рынок.

Мы можем использовать такие прокси, как:

  • Тиковые полосы (для выборки после того, как заранее определенное количество транзакций было выполнено, действует как прокси для того, когда информация поступает на рынок - идея состоит в том, что умные деньги размещают ордер, когда становится доступной новая информация - имеют тенденцию демонстрировать широкий диапазон частот дискретизации)
  • Столбики объема (для выборки после выполнения заранее определенного объема или единиц акций - частота выборки часто обратно пропорциональна уровням цен)
  • Долларовые слитки (для выборки после достижения заранее определенной рыночной стоимости - их преимущество заключается в том, что они не подвержены корпоративным действиям - как правило, демонстрируют более стабильную частоту выборки)
  • Волатильность или индикаторы бега
  • Полосы дисбаланса потока ордеров (когда на рынок выходит информированный трейдер)
  • Полосы энтропии

4. Неправильная маркировка

Большинство приложений машинного обучения для финансирования в альфа-дизайне будут, как правило, сосредоточены на использовании методов классификации, а не методов регрессии, т. Е. Попытки спрогнозировать изменение направления в следующем периоде как вверх или вниз.

Этот аргумент не имеет большого смысла, учитывая подводные камни, которые мы обсуждали ранее.

Традиционная маркировка

Прогнозирование положительной или отрицательной доходности акции на следующий день, поэтому присваивается метка 0, если она отрицательная, и 1, если она положительная, {0,1}.

Есть несколько причин, по которым следует избегать таких подходов к маркировке:

  • Полосы времени не обладают хорошими статистическими характеристиками
  • Один и тот же порог t применяется независимо от наблюдаемой волатильности.

Мы также можем добавить в смесь 90-дневное скользящее стандартное отклонение, и при этой настройке движение выше порогового значения будет обозначено как 1, ниже будет обозначено как -1, а если ничего не произойдет, оно будет обозначено как 0, {- 1, 0, 1}.

Лучшие альтернативы

  • Этикетка на основе изменяющегося порога стандартного отклонения, оцененного с использованием скользящего экспоненциально взвешенного стандартного отклонения доходности
  • Используйте объемные или долларовые бары, поскольку их волатильность намного ближе к постоянной и, следовательно, демонстрирует гомоскедастичность.

Ключевой недостаток методов фиксированного временного горизонта заключается в том, что они игнорируют путь, за которым следуют цены. Это решается с помощью:

Метод тройного барьера

Просто нереально построить стратегию, которая извлекала бы прибыль из позиций, которые были бы закрыты фондом, биржей (посредством требования маржи) или инвестором.

Метод тройного барьера маркирует наблюдение в соответствии с первым затронутым барьером из трех барьеров.

  • Два горизонтальных барьера определяются лимитами фиксации прибыли и стоп-лосс (которые являются динамической функцией предполагаемой волатильности).
  • Третий барьер, вертикальный барьер, определяется с точки зрения количества баров, прошедших с момента открытия позиции (поэтому устанавливается предел срока действия).

Барьер, который первым затрагивает ценовой путь, определяет метку

  • Верхний горизонтальный барьер: этикетка 1
  • Нижний горизонтальный барьер: Метка -1
  • Вертикальный барьер: этикетка 0

Здесь мы маркируем как функцию прикосновения к преграде, мы включаем информацию о пути.

Например, если мы маркируем информацию как функцию от того, какой результат будет после времени T, мы игнорируем весь переход, то есть весь путь между моментом, когда было произведено наблюдение, и временем T позже.

  • Это приводит к пониманию того, насколько важную роль играет траектория цены. Учитывая позицию в момент времени t и глядя на позицию только в будущее время T, игнорирует возможность того, что в течение выбранного нами периода времени, возможно, произошел сбой вспышки, который обычно заставлял бы нас не держись за позицию.

Мета-маркировка

является альтернативным методом маркировки и очень полезен, если цель состоит в том, чтобы получить более высокий балл F1:

  • Во-первых, мы создаем модель, которая обеспечивает высокую степень запоминаемости, даже если точность не очень высокая.
  • Во-вторых, мы исправляем низкую точность, применяя мета-метки к положительным результатам, определенным основной моделью.

Этот метод позволяет нам построить систему машинного обучения на основе белого ящика, а не классического подхода черного ящика.

При применении этого метода эффекты переобучения ограничены, поскольку модель не будет определять сторону ставки, а только размер - первостепенное значение имеет разработка алгоритма машинного обучения, ориентированного исключительно на принятие критического решения о правильном выборе размера (как имеющем высокую точность на малых ставках и низкая точность на больших ставках обанкротят нас).

5. Взвешивание образцов, не относящихся к IID.

Для большинства задач машинного обучения предполагается, что наши данные генерируются с использованием процесса IID. Однако в финансах дело обстоит иначе, поскольку:

  • Ярлыки определяются результатами
  • Результаты определяются на основе нескольких наблюдений.
  • Учитывая, что ярлыки перекрываются во времени, мы не можем быть уверены в том, какие наблюдаемые особенности вызвали эффект.

6. Утечка перекрестной проверки

В приложениях машинного обучения в финансах очень часто применяется перекрестная проверка, наиболее типичным примером является перекрестная проверка в k-кратном размере.

Однако этот тип перекрестной проверки не работает в финансах из-за того, что мы не можем предположить, что наблюдения будут извлечены из процесса IID.

Утечка имеет место, когда обучающий набор содержит информацию, которая также появляется в тестовом наборе.

Кроме того, при наличии нерелевантных характеристик утечка приводит к ложным открытиям.

Возможные решения: Перекрестная проверка K-Fold запрещена и запрещена.

Очищенный K-Fold CV

- это способ уменьшить утечку путем удаления из обучающего набора всех наблюдений, метки которых перекрываются по времени с метками, включенными в набор тестирования - это процесс, известный как очистка.

Запрещенное K-Fold CV

Поскольку финансовые характеристики часто включают ряды, которые демонстрируют последовательную корреляцию (например, процессы ARMA), мы должны исключить из обучающей выборки наблюдения, которые непосредственно следуют, и наблюдения в тестовой выборке - это процесс, известный как эмбарго .

7. Переоснащение при тестировании

Большинство случаев переобучения при тестировании на исторических данных можно отнести к:

  • Смещение выбора (выбор лучшего результата)
  • Множественное тестирование (запуск множества альтернативных конфигураций)

Это приводит к более высокой вероятности того, что тест на исторических данных окажется ложным открытием - как следствие, большинство компаний, занимающихся количественным анализом, вкладывают средства в ложные открытия.

Эмпирически, если вы проведете наблюдения и примените некоторое тестирование на истории, распределение результатов будет выглядеть следующим образом (где это распределение 10⁶ числа испытаний с использованием моделирования случайных блужданий методом Монте-Карло, что показывает, что выполнение такого количества тестов на полностью случайных фактически дает коэффициент Шарпа, равный 5, что связано с аргументом переобучения при тестировании на исторических данных)

Следствие этого называется теоремой о ложной стратегии: если максимальный коэффициент Шарпа, который вы получаете, не будет значительно выше, чем вы ожидаете, стратегия обнаружения, скорее всего, будет ложноположительной. .

Дефлированный коэффициент Шарпа

Это способ справиться с этой проблемой, принимая во внимание количество, K, испытаний, которые имели место, дисперсию испытаний и вставляли их в уравнение DSR.

Теперь, когда расчетный коэффициент Шарпа выбранной стратегии должен превзойти этот эталонный показатель, который увеличивается с количеством испытаний, эффективно налагая штрафные санкции, чтобы избежать попадания в любую ложную стратегию.

DSR вычисляет вероятность того, что коэффициент Шарпа является статистически значимым, после учета инфляционного эффекта нескольких следов, углубления данных, ненормальных результатов и более коротких выборок.

DSR уменьшил коэффициент Шарпа, приняв во внимание пять дополнительных переменных:

  • Ненормальность доходности (gamma_3, gamma_4)
  • Длина обратного ряда (Т)
  • Объем выемки данных (V [{SR_k}])
  • Количество независимых испытаний, задействованных в стратегии открытия (K)

Эта статья опубликована в рамках инициативы Путешествие количественного анализа, которая начала увлекать читателей по пути к изучению вопросов количественного финансирования.

Посетите нашу страницу в Instagram: Путешествие по количеству