Экономия времени — это то, что машины делают лучше всего. Представьте, что у вас есть суперсила, позволяющая за считанные секунды найти интересующий вас материал среди множества случайных постов.
Это именно то, к чему стремился мой проект, используя передовые инструменты обработки естественного языка для правильного определения тем, к которым относится сообщение Reddit.
Для этого проекта были выбраны две очень похожие темы («Кредиты» и «Кредитные карты»). Это должно было создать модель, которая могла бы сильно различать даже похожие темы. Методы НЛП сначала определили наиболее часто встречающиеся слова в сообщениях и их количество в каждом отдельном сообщении. После этого модель машинного обучения с логистической регрессией, наивная байесовская модель и модель нейронной сети были обучены на случайном подмножестве очищенных данных.
Модель логистической регрессии правильно различала сообщения, достигая точности 95%. Наивный Байес и нейронные сети не отставали с точностью классификации, близкой к 93%. В целом проект оказался очень успешным и послужил отличной отправной точкой для классификации текстов.
Полученную модель машинного обучения можно дополнительно адаптировать для пост-фильтрации, пост-идентификации и т. д. Также можно провести дальнейший анализ для определения ассоциативных ключевых слов для различных тем.
Ссылки на проекты:
Пожалуйста, просмотрите их последовательно, чтобы понять проект в целом.