Я хотел бы создать список конкретных отрицательных слов для трех разных ярлыков в моих данных обучения. слово должно появляться только для определенного ярлыка, а не для трех. У меня есть фреймворк с 3 столбцами: идентификатор, предложения, метки
У меня также есть 2 разных файла лексики для позитивного (все в лемматизированной форме)
Я хочу создать список слов для каждой метки
до сих пор мне удалось создать столбцы, в которых отображались отрицательные слова для каждого предложения. но я не знаю, как это сделать после, чтобы выбрать и извлечь слово, уникальное для каждой метки. Это означает слова, которые встречаются только в предложении, обозначенном как один из трех классов.
Подводя итог: я хотел бы создать список слов из моего лексикона отрицательных слов, которые появляются в предложении, помеченном как A, B или C. Эти слова должны быть уникальными для каждого класса, как показано в ожидаемом файле данных списка вывода ниже.
Часть сценария мой сценарий (я просто привел пример с отрицательными словами
lexiconneg = lexiconneg_feel['Word'].values # a list of negative word
print(lexiconneg)
def extract_word_neg(text, word_list):
text_list = tokenize_lemmatize_spacy(text) # call tokenize and lemmatisation function using spacy
intersection = [w for w in text_list if w in word_list]
return intersection
datafile['list_mots_négatifs'] = datafile['phrases'].apply(extract_word_neg, args= (lexiconneg, ))
datafile.to_excel('négatif_mots.xlsx')
Файл данных после применения скрипта ниже
Итак, для моего примера у меня будет следующий список в качестве ожидаемого результата:
A= problème, polluer, corrosif, pouvoir, sujet
B= contrer, extrémité, bouillir
C= vider pression