На рынке много ажиотажа вокруг искусственного интеллекта (ИИ), машинного обучения (МО) и обработки естественного языка (НЛП). Хотя многие из этих технологий были доступны в течение десятилетий, новые достижения в вычислительной мощности наряду с новыми разработками в области алгоритмов делают эти технологии более привлекательными для компаний-первопроходцев. Эти организации используют передовые технологии аналитики по ряду причин, включая повышение операционной эффективности, лучшее понимание поведения и получение конкурентного преимущества.

Сегодня организации имеют дело с огромными объемами и самыми разнообразными данными — звонки от клиентов, их электронные письма, твиты, данные из мобильных приложений и так далее. Требуется много усилий и времени, чтобы сделать эти данные полезными. Одним из основных навыков извлечения информации из текстовых данных является обработка естественного языка (NLP).

Еще одна важная тенденция заключается в том, что все больше подходов к технологиям искусственного интеллекта ориентированы на пользователей, помимо специалистов по данным (например, на широкий круг бизнес-пользователей и «гражданских» специалистов по данным). Аналитические приложения чаще включают встроенные алгоритмы искусственного интеллекта и машинного обучения, предназначенные для облегчения поиска информации бизнес-аналитиками и пользователями. К ним относятся поисковые интерфейсы на естественном языке, автоматические предложения и автоматическое построение моделей.

Машинное обучение для НЛП и текстовой аналитики включает в себя набор статистических методов для определения частей речи, сущностей, тональности и других аспектов текста. Методы могут быть выражены в виде модели, которая затем применяется к другому тексту, что также известно как контролируемое машинное обучение. Это также может быть набор алгоритмов, которые работают с большими наборами данных для извлечения смысла, что известно как неконтролируемое машинное обучение. Важно понимать разницу между контролируемым и неконтролируемым обучением и то, как вы можете получить лучшее от обоих в одной системе.

Текстовые данные требуют особого подхода к машинному обучению. Это связано с тем, что текстовые данные могут иметь сотни тысяч измерений (слов и фраз), но имеют тенденцию быть очень разреженными. Например, в английском языке около 100 000 общеупотребительных слов. Но любой твит содержит всего несколько десятков из них. Это отличается от чего-то вроде видеоконтента, где у вас очень высокая размерность, но у вас есть куча и куча данных для работы, поэтому он не такой разреженный.

В контролируемом машинном обучении пакет текстовых документов помечается или аннотируется примерами того, что машина должна искать и как она должна интерпретировать этот аспект. Эти документы используются для «обучения» статистической модели, которой затем предоставляется текст без тегов для анализа.