В этом кратком обзоре описывается задача использования интеллектуального анализа данных для классификации настроений в Twitter:

Целью этого эксперимента было исследование твиттера для анализа выборов. Сбор данных Twitter с помощью API Twitter довольно прост: сначала создайте учетную запись разработчика в twitter и получите токен oAuth, собирайте данные либо через REST, либо через потоковую передачу API (в зависимости от вашей пропускной способности будет собирать больше / меньше данных), наконец, анализируя возвращенные объекты Twitter JSON для получения желаемой информации. Предварительная обработка текстовых данных может быть очень сложной, потому что существует много нерелевантной информации, а многие популярные стратегии, такие как набор слов из н-граммов, могут стать очень разреженными. Разрабатывается множество стратегий обработки естественного языка для преобразования текста в числа для алгоритмов, таких как n-граммы, часть тегов речи , семантическое моделирование и построение лексиконов. Для эксперимента подход Word2Vec (двоичный n-граммовый вектор) в сочетании с алгоритмом нейронной сети глубокого обучения работал хорошо. Этот алгоритм невероятно точен, но на его обучение уходит много времени, в отличие от таких методов интеллектуального анализа данных, как Multinomial Naive Bayes, которые очень быстрые (или, может быть, даже kNN, который является ленивым учеником, поэтому скорость модели будет зависеть только от сложности запроса). Еще одна проблема при предварительной обработке данных и оценке качества данных - это высокая размерность, шум классов и несбалансированность классов.

Важно использовать методы выбора функций, чтобы избежать бесконечного времени выполнения, а уменьшение размерности может стать серьезной проблемой при обработке естественного языка, поскольку много информации о тексте теряется в таком подходе, как n-граммы. . Классовый шум может быть проблемой с контролируемыми методами обучения, где требуется метка класса. Существует 3 популярных подхода к маркировке: ручная маркировка, маркировка с полу-контролируемым алгоритмом и маркировка краудсорсингом с использованием такой платформы, как MechanicalTurk. Классовый дисбаланс также может быть проблематичным. Некоторые методы борьбы с дисбалансом классов включают удаление экземпляров большинства или дублирование экземпляров меньшинства, хотя последний подход может привести к переобучению.

Спасибо за чтение. Подпишитесь, если вы хотите получить больше кратких обзоров по машинному обучению. Прокомментируйте, если у вас есть какие-либо запросы.