Есть ли способ выполнить пользовательский TFIDF для отрицания предложения?

я использовал TFIDF для вычисления сходства между статьями, но у меня есть проблема, что он считает, что эти два предложения похожи:

I am against this project
I am for this project

как я могу улучшить свой подход, чтобы учесть отрицание этого предложения, пожалуйста?


person Arvea    schedule 10.02.2021    source источник


Ответы (2)


Однажды мне пришлось столкнуться с этой проблемой. Обычно эту проблему трудно решить с помощью tf-idf, скорее вам нужна более сложная модель NLP, то есть BERT, чтобы определить, являются ли предложения семантически похожими или противоположными. Но если ваш вариант использования похож на ваши примеры, вы можете сделать следующее.

Я предполагаю, что ваши статьи/документы/предложения так же просты. Поэтому обычно вы можете встретить два типа предложений с противоположным значением. Один с токенами n't/not, а другой тип просто использует противоположное слово. Используя библиотеку nltk, вы можете найти, есть ли в двух предложениях слова с противоположным значением (антонимы). Тогда вы легко решите.

person msayef    schedule 10.02.2021
comment
спасибо за этот ответ, но я не нашел в nltk? - person Arvea; 10.02.2021
comment
Я надеюсь, что этот учебник поможет вам понять, как использовать nltk для поиска синонимов/антонимов. - person msayef; 11.02.2021

Я добавляю комментарий msayef. Вы также можете использовать минус-наречия.

person user_1177868    schedule 10.02.2021