💡Что такое анализ настроений?

Очень распространенный инструмент классификации текста, он относится к контекстуальному анализу текста, который направлен на выявление и извлечение субъективной информации из текстовых данных. Вручную просматривать такие огромные данные действительно сложно. С помощью сложных методов машинного обучения можно уловить эмоции, заложенные в новостных статьях.

Было проведено несколько исследований, в том числе гипотеза эффективного рынка Фамы в 1970 году, а также модель последовательного поступления и динамика скачков новостей. Быстрый рост всемирной паутины вместе с социальными сетями привел к экспоненциальному увеличению доступных данных.

Целью исследования, проведенного Методом Язбеком, Барной Пастор, Феликсом Фалтингсом, Нини Антуловым Фантулиным и Петтером Н. Колмом, является «количественная оценка распространения и поглощения крупномасштабных общедоступных новостных статей из всемирной паутины на финансовых рынках».

Методология

Новостные статьи из Common Crawl News использовались для оценки влияния поступления новой информации об акциях, входящих в S&P 500, на момент публикации. С помощью НЛП извлекается настроение для каждой новостной статьи в репозитории, которое оценивается в диапазоне от 0 до 1, где 0 — самый негативный, а 1 — самый положительный. Чтобы количественно оценить настроение и понять влияние передачи информации, используются определенные инструменты теории информации сложных систем. Ежедневная доходность портфеля затем моделируется с использованием простой торговой стратегии, основанной на этих оценках настроений. Эти результаты сравниваются с другими широко используемыми стратегиями, в которых не используются оценки настроений.

💡 Что такое сложные системы?

Сложную систему формально следует понимать как набор множества взаимозависимых частей, которые взаимодействуют друг с другом посредством конкурентного нелинейного сотрудничества, что приводит к возникающему самоорганизующемуся поведению.

Финансовые рынки представляют собой сложные системы, которые постоянно развиваются и генерируют огромные объемы данных. Его эволюция диктуется решениями толп трейдеров, постоянно пытающихся выиграть в обширной глобальной игре.

Предварительная обработка данных

Возникшие проблемы:

  • Огромный размер данных
  • Необработанный формат контента
  • Различные языки и широкий охват используемых тем
  • Извлечение основного текста и дополнительной метаинформации, включая метки времени
  • Сопоставление данных с компаниями
  • Выявление статей, касающихся финансовых показателей компании
  • Удаление дубликатов статей

Конвейер, развернутый для обработки и преобразования набора данных Common Crawl News в набор данных, используемый моделью тональности.

Передача энтропии

Согласно Википедии, «Энтропия переноса — это непараметрическая статистика, измеряющая количество информации между двумя случайными процессами. Переносная энтропия процесса X в Y — это величина неопределенности, уменьшенная в будущих значениях Y за счет знания прошлых значений X при заданных прошлых значениях Y.

Чтобы избежать предположений о взаимосвязи между настроениями и доходностью акций, используется трансфертная энтропия, которая является мерой, свободной от модели, из теории информации и не ограничивается линейной динамикой гауссовских предположений.

где H(X) — энтропия Шеннона для X (измеряет ожидаемый уровень «неопределенности», связанный с его результатами). Здесь,

— условная энтропия Шеннона. Энтропия переноса может быть выражена как дивергенция KL

Отсюда становится ясно, что переносная энтропия измеряет логарифмическое отклонение от обобщенного марковского свойства.

Модель настроений новостей

Стандартная предварительная обработка данных — создание векторов документов, токенизация, лемматизация выполняется перед обучением нашей модели.

💡 SESTM — извлечение настроений с помощью скрининга и тематического моделирования

SESTM — это контролируемая модель, которая упрощает интерпретацию и не зависит от корпуса текстов. Для этого требуются только стандартные эконометрические методы, это белый ящик по сравнению с большинством других методов, которые являются черным ящиком и требуют минимальной вычислительной мощности.

Основное предположение состоит в том, что позитивное настроение приводит к положительному доходу и наоборот. Здесь P обозначает вероятность, g(.) — монотонно возрастающая функция, а ri — соответствующий финансовый доход компании, связанный с новостной статьей i.

Слова с эмоциональным зарядом идентифицируются моделью и связываются с вектором документа di.

где 𝑠𝑖=∑𝑗∈𝑆𝑑𝑖,𝑗 и piO+ + (1 − pi)O− представляет собой смесь двух тем, которые определяют распределение вероятностей по этим эмоциональным словам.

💡 O+ → вероятность слов в максимально позитивной статье. O- → вероятность слов в максимально негативной статье

Настроение, связанное с i-й новостной статьей, окончательно определяется оценкой максимального правдоподобия, примененной к вектору документа.

Полученные результаты

Данные за период с 26 августа 2017 года по 27 февраля 2020 года обрабатываются и извлекаются.

a) Наиболее часто упоминаемые компании по количеству отдельных статей. (b) Наиболее частые источники новостей, измеряемые количеством отдельных статей, связанных с каждым источником. © Среднее количество статей, опубликованных на компанию в месяц. Компании делятся на верхнюю и нижнюю половины по общему количеству опубликованных о них статей. Заштрихованные области представляют процентили 25 % и 75 % каждой половины.

Теперь у нас есть неоднородный временной ряд показателей тональности статей, происходящих с нерегулярными временными метками, которые соответствуют публикации n статей. Это преобразуется во временной ряд через регулярные промежутки времени путем почасового группирования оценок тональности. Вычисляется трансфертная энтропия, которая количественно определяет степень снижения неопределенности в будущем доходе с учетом лаговых настроений и ценовых возвратов. Расширенный тест Дики-Фуллера выполняется для устранения нестационарности временных рядов оценок настроений. Распределение значений p для изображенных запасов ниже уровня значимости 0,05.

В то время как общественные новости оказывают статистически значимое влияние на снижение неопределенности будущей доходности акций, они также важны для их экономической значимости. Именно здесь была использована торговая стратегия.

Компании S&P 500 ранжируются ежедневно на основе оценки настроений в новостях из статей, опубликованных между 9:30 утра предыдущего торгового дня и 9:00 утра текущего дня. Длинные позиции создаются ежедневно, чтобы сформировать равновзвешенный портфель из 20 компаний с наивысшим положительным показателем настроений, в то время как короткие позиции открываются в 20 компаниях с самым высоким отрицательным показателем настроений. Этот ежедневно ребалансируемый портфель называется портфелем настроений 1-го дня (день 1 относится к однодневному лагу оценок настроений). Точно так же портфели настроений на день 0 и день -1 создаются только для целей сравнения, поскольку они представляют собой прогнозные портфели.

Эта торговая стратегия на основе настроений сравнивается с эффективностью траста SPDR S&P 500 (SPY) и набора случайных портфелей в качестве эталона нулевой модели. Случайный портфель ребалансируется ежедневно одновременно с портфелем настроений и состоит из 20 длинных и 20 коротких позиций на равные суммы по 20 случайно выбранным акциям из индекса S&P 500. Моделируются 500 случайных историй портфеля, и их результирующая доходность используется для начальной загрузки показателей производительности.

Статистика производительности

Совершенно очевидно, что стратегия «Доходы первого дня» превосходит SPY ​​и созданные случайные портфели. Стратегия «заглянуть вперед» обеспечивает дополнительную поддержку значительной корреляции между доходностью акций и настроениями в новостных статьях.

Доступ к коду, используемому в этой исследовательской статье, можно получить, используя эту ссылку Github: https://github.com/ffaltings/news_and_markets/tree/v0.1.

Рекомендации