Чувство в мире финансовой и корпоративной речи — уникальное явление; в то время как простые правила языка часто могут привести к разумному результату, нюансы отрасли могут разочаровать.

Простой, но наглядный пример:

We laid off 15% of retail personnel in Q1, which is less than expected, but with another round of layoffs set to come this month.

Интуиция может утверждать, что эскалация увольнений — это негатив; а прогон приведенного выше текста через более традиционную модель тональности дает слегка отрицательную оценку тональности (-0,173).

И все же с точки зрения принципов учета корпоративных доходов это все же может быть положительным моментом, сокращая расходы в период снижения потребительского спроса после сезона отпусков. Таким образом, любое хорошее финансовое настроение требует, чтобы мы использовали специализированное обучение и настройку, чтобы соответствовать отраслевому варианту использования.

Мы использовали двусторонний подход к построению нашей внутренней модели настроений в Aiera. Первый и самый важный шаг — это сбор и очистка данных обучения; Чтобы ускорить этот обычно трудоемкий процесс, мы создали контекстно-зависимую структуру правил, чтобы быстро идентифицировать текстовые сегменты, которые могут быть положительными или отрицательными в нашем корпусе расшифровок событий.

Например, рассмотрим этот отрывок:

Продажи на рынке химической переработки составили 21% нашей выручки в размере 27,8 млн долларов США в четвертом квартале. Это представляет собой значительное увеличение на 19,2% по сравнению с 23,3 млн долларов за тот же период прошлого года из-за увеличения объема на 14,3% в сочетании с увеличением средней цены реализации на 4,2%.

Используя вышеупомянутую структуру правил, мы можем определить, что приведенное выше вероятно положительно, поскольку мы находим доход в пределах приемлемого контекстуального расстояния от твердого увеличить:

Используя эту структуру, мы можем быстро идентифицировать многие тысячи вероятных положительных и отрицательных образцов, которые затем можно вручную просмотреть для подтверждения (или исключения) перед обучением нашей модели классификации.

Выполняя описанное выше, мы смогли идентифицировать и проверить более 140 000 положительных текстовых сегментов и более 90 000 отрицательных текстовых сегментов в сочетании с важными метаданными, такими как спикер, компания, темы/KPI и любые числовые ассоциации. Оттуда мы можем построить нашу пользовательскую модель классификации, используя вложения слов, чтобы получить более точную оценку.

Используя нашу скорректированную модель, текст, относящийся к увольнениям, показанный в начале этой статьи, даст следующую более точную оценку:

положительно: 0,4019

Эта модель может применяться на всех уровнях детализации, включая отдельные предложения. Предоставляя модели доступ к контекстуальным функциям, мы можем идентифицировать положительные или отрицательные предложения, даже если для этого необходимы предыдущие или последующие предложения.

Мы продолжаем совершенствовать наши обучающие данные и ужесточать нашу модель, поскольку мы работаем, чтобы помочь инвесторам быстро определить направления деятельности в течение сезона отчетности.

Кроме того, мы намерены сочетать этот текстовый анализ с тональным анализом на основе аудио, чтобы инвесторы могли найти интересные/информативные различия между сказанными словами и произнесенным тоном (т. е. позитивный текст с огорченным голосом).