Изучение небольшого подмножества множества различных методов, которые можно использовать для понимания человеческого текста.

вступление

Вчера Apteo объявил о запуске Умного списка наблюдения Милтона, который включает избранные AI новостные отчеты, расширенный набор прогнозов динамики акций и основную информацию о компании для акций, которые пользователи добавляют в свои списки наблюдения (в дополнение к ожидаемой цене). обновления и изменения, которые они ожидают от всех списков наблюдения).

Внедрение этой функции демонстрирует некоторые из наших возможностей обработки естественного языка (НЛП), поэтому я подумал, что сейчас самое время написать немного больше о некоторых возможностях НЛП, которые мы привносим в мир инвестирования. В предыдущих сообщениях я упоминал о том, что мы используем НЛП в нашей основной технологии, но я никогда не давал более глубокого взгляда на то, как мы его используем. Этот пост призван изменить это.

Ароматизаторы НЛП и как мы их внедряем

LSTM и глубокое обучение

Самая увлекательная работа, которую я проделал в мире науки о данных, была проделана за последние пару лет при создании программного обеспечения для анализа основных запасов Apteo. Как я уже упоминал ранее, наша команда в Apteo потратила много времени на агрегирование, преобразование и моделирование финансовых данных, большая часть которых основана на тексте.

На сегодняшний день большая часть работы, которую мы проделали с NLP, заключалась в создании глубоких сетей, которые используют LSTM и CNN для понимания наиболее важных функций финансовых документов, которые позволяют прогнозировать будущую динамику акций. Эта работа в значительной степени опирается на достижения в области внедрения слов и рекуррентных сетей, которые могут эффективно обрабатывать последовательности данных (например, слова и предложения). И сколь бы увлекательной ни была эта работа, это не единственный способ работы с текстовыми данными в мире финансов.

С развертыванием новостной ленты Милтона на базе искусственного интеллекта в Smart Watchlist мы используем два дополнительных приложения методов НЛП.

Анализ настроений

Первый, который вы увидите в виде шкалы красного / желтого / зеленого цвета, основан на анализе тональности, который, в свою очередь, основан на лексическом анализе или анализе употребления слов и их упорядочения. По сути, анализируя использование слов в ключевых областях статьи, можно оценить, насколько положительной или отрицательной может быть статья. Получив эту оценку, мы можем визуализировать ее, например, используя индикатор настроения, подобный тому, который вы видите, когда Милтон анализирует новостную статью.

Вдобавок к этому, мы можем фактически получить числовые оценки, которые показывают, насколько положительным, нейтральным или отрицательным является конкретный документ, и затем мы можем использовать эти оценки в наших основных нейронных сетях. Мы заметили, что предоставление нашим сетям оценки настроений повышает их точность прогнозов.

Обобщение

Второй метод НЛП, который мы используем, заключается в использовании анализа предложений для создания содержательных резюме наших статей. По сути, определяя важность каждого предложения по отношению к статье в целом, мы можем ранжировать и упорядочивать предложения по мере их появления в тексте, чтобы создать резюме, которое достаточно полно описывает основное содержание наших статей.

Будущая работа

Я обрисовал лишь небольшую часть техник, доступных сегодня инженерам НЛП. Есть еще несколько методов, которые мы хотим реализовать. К счастью, область НЛП быстро растет, особенно по мере того, как глубокие сети становятся более эффективными при анализе человеческого языка. Я с нетерпением жду возможности поэкспериментировать с несколькими техниками, которые есть в нашем наборе инструментов, чтобы увидеть, как мы можем продолжать совершенствоваться в обработке человеческого языка.

Благодарности

Всем, что я знаю о НЛП, я обязан соучредителю и техническому директору Apteo, Camron. Огромное спасибо ему за то, что он так много меня научил.