Тема: классификация текста с несколькими ярлыками

Члены команды: Хакан АКЮРЕК, Сефа ЮРЦЕВЕН

Изучив наши экспериментальные результаты, полученные на наших моделях, мы заметили, что делаем некоторые вещи неправильно, и нам нужно подойти к нашей проблеме по-другому.

Когда мы проверяем четыре самых верхних класса, мы можем заметить, что что-то серьезно не так. Половина из них классифицирована неверно. Но почему? Причина на самом деле довольно проста. Наша модель не ошибочно классифицирует их всех, некоторые из этих книг фактически принадлежат обоим классам.

После более тщательного изучения нашего набора данных мы поняли, что большинство книг являются частью нескольких классов, и делать вид, что каждая книга является частью только одного класса, неверно.

Так что делать?

Мы можем кое-что сделать, чтобы изменить то, как мы оцениваем наши модели. В отличие от того, как работает обычная оценка точности, мы пришли к другому выводу после обсуждения этого с нашим техническим консультантом.

Вместо проверки того, что прогнозируемый класс равен целевому классу, мы проверяем, является ли прогнозируемый класс одним из классов, частью которых является книга. Таким образом, мы думаем, что можем лучше оценивать наши модели.

Но есть еще кое-что…

После некоторого исследования в Интернете мы узнали, что на самом деле в последние годы проводятся некоторые исследования по этой теме. Это называется классификация по нескольким меткам.

Многоканальная классификация

В классификации с несколькими метками обучающий набор состоит из экземпляров, каждый из которых связан с набором меток, и задача состоит в том, чтобы предсказать наборы меток невидимых экземпляров посредством анализа обучающих экземпляров с известными наборами меток.

Другими словами, каждый документ принадлежит к одному или нескольким классам. Итак, в нашем случае это может быть книга, одновременно являющаяся «фэнтези» и «художественной литературой». Таким образом, вместо того, чтобы предсказывать только класс, наша модель также должна предсказывать 2 или более классов.

Основное различие между классификацией с несколькими классами и классификацией с несколькими метками состоит в том, что в задачах с несколькими классами классы являются взаимоисключающими, тогда как для задач с несколькими метками каждая метка представляет собой отдельную задачу классификации, но задачи являются как-то связано.

Попробовав другой подход к оценке наших моделей, мы получили максимум 63% точности с искусственными нейронными сетями, в то время как наивный Байес последовал за ними. Итак, с этого момента мы стремимся работать над многокомпонентной классификацией. Прокляните нашу нехватку знаний, но ведь речь идет об обучении… не так ли?

Ссылки:

Https://towardsdatascience.com/journey-to-the-center-of-multi-label-classification-384c40229bff