Экономия времени — это то, что машины делают лучше всего. Представьте, что у вас есть суперсила, позволяющая за считанные секунды найти интересующий вас материал среди множества случайных постов.

Это именно то, к чему стремился мой проект, используя передовые инструменты обработки естественного языка для правильного определения тем, к которым относится сообщение Reddit.

Для этого проекта были выбраны две очень похожие темы («Кредиты» и «Кредитные карты»). Это должно было создать модель, которая могла бы сильно различать даже похожие темы. Методы НЛП сначала определили наиболее часто встречающиеся слова в сообщениях и их количество в каждом отдельном сообщении. После этого модель машинного обучения с логистической регрессией, наивная байесовская модель и модель нейронной сети были обучены на случайном подмножестве очищенных данных.

Модель логистической регрессии правильно различала сообщения, достигая точности 95%. Наивный Байес и нейронные сети не отставали с точностью классификации, близкой к 93%. В целом проект оказался очень успешным и послужил отличной отправной точкой для классификации текстов.

Полученную модель машинного обучения можно дополнительно адаптировать для пост-фильтрации, пост-идентификации и т. д. Также можно провести дальнейший анализ для определения ассоциативных ключевых слов для различных тем.

Ссылки на проекты:

Пожалуйста, просмотрите их последовательно, чтобы понять проект в целом.

  1. Презентация для получения общего представления
  2. Извлечение данных из Reddit
  3. Исследовательский анализ данных
  4. Применение и оценка модели машинного обучения