Вопросы по теме 'tfidfvectorizer'
Сохраненная ошибка значения Tfidf-Vectorizer при повторной загрузке
Я обучил Tfidf-Vectorizer для пассивно-прогрессивного классификатора и протестировал его, все работает нормально. Затем я сохранил подогнанный векторизатор и обученный классификатор для дальнейшего использования. Когда я снова загрузил векторизатор,...
106 просмотров
schedule
02.05.2023
Sklearn Tfidf Vectorizer norm=None norm-l2
Привет, я пытаюсь понять, как scikit-learn вычисляет оценку TFIDF в матрице: документ 1, функция 6, «вино»:
test_doc = ['The wine was lovely', 'The red was delightful',
'Terrible choice of wine', 'We had a bottle of red']
# Create...
2714 просмотров
schedule
28.08.2022
TfidfVectorizer на большом корпусе с генераторами
У меня есть большой корпус, разбитый на файлы 5K, я пытаюсь создать словарь на основе IDF, используя преобразование TF-IDF.
Вот код: в основном у меня есть итератор, который перебирает каталог для файлов .tsv, читает каждый файл и дает результат....
776 просмотров
schedule
03.05.2023
Как я могу сгруппировать текстовые данные с несколькими столбцами?
Я хотел бы сделать k означает кластеризацию с текстовыми данными книги, которые имеют столбцы «название», «жанр», «обзор» и «синопсис».
Я хочу использовать «заголовок» в качестве индикатора или первичного ключа для кластеризации, но я не уверен,...
745 просмотров
schedule
14.06.2022
ValueError: количество функций модели должно соответствовать входным данным (sklearn)
Я пытаюсь запустить классификатор для некоторых данных обзора фильмов. Данные уже были разделены на reviews_train.txt и reviews_test.txt . Затем я загрузил данные и разделил их на просмотр и метку (либо положительную (0), либо отрицательную (1)),...
3297 просмотров
schedule
22.09.2022
Создание TfidfVectorizer над текстовым столбцом огромного фрейма данных pandas
Мне нужно получить матрицу функций TF-IDF из текста, хранящегося в столбцах огромного dataframe , загруженный из файла CSV (который не помещается в памяти). Я пытаюсь перебрать фрейм данных, используя куски, но он возвращает объекты генератора,...
1934 просмотров
schedule
12.08.2022
Почему значение TF-IDF отличается от IDF_?
Почему значение векторизованного корпуса отличается от значения, полученного с помощью атрибута idf_ ? Разве атрибут idf_ не должен просто возвращать обратную частоту документа (IDF) таким же образом, как он отображается в векторизованном корпусе?...
247 просмотров
schedule
25.07.2022
НЛП Объединение нескольких матриц TF-IDF
У меня есть большой корпус (~ 100 миллионов документов, 59 ГБ) в формате CSV. Я хочу создать вектор TF-IDF и выполнить некоторые функции для данных, но они слишком велики, чтобы загрузить их в память сразу (я работаю над Google Colab, GPU с 12 ГБ...
103 просмотров
schedule
08.07.2022
Каким образом `TfidfVectorizer` работает с однозначными числами?
Я немного смущен тем, что именно TfidfVectorizer из skelearn делает под капотом без моего ведома.
У меня есть такие фразы:
sentence_1 = 'Sum: 1 Mean: 1 Min:1'
Но когда я вижу vocabulary_ после обучения, я не могу найти ни одного...
51 просмотров
schedule
06.08.2022
Использование TfidfVectorizer с Punkt в облачной функции
Мое текущее понимание TfidfVectorizer требует запуска nltk.download("punkt") перед преобразованием входных данных, поскольку все токенизаторы по умолчанию доступны в punkt . В настоящее время, поскольку я использую TfidfVectorizer в своей...
48 просмотров
schedule
25.12.2022
TFIDF отдельно для каждой этикетки
Используя TFIDFvectorizor (SKlearn), как получить рейтинг слов на основе оценки tfidf для каждой метки отдельно. Мне нужна частота слов для каждой метки (положительной и отрицательной).
соответствующий код:
vectorizer =...
785 просмотров
schedule
19.07.2022
Как получить лучшие функции для классификаторов tf-idf?
У меня есть список комментариев (текст), которые я должен классифицировать с помощью некоторых классификаторов (ввод). Для этого я использую pipeline и KFold , потому что набор данных очень маленький. Я хотел бы знать имена лучших функций для...
713 просмотров
schedule
19.05.2022
косинусное подобие = 1.0, даже если в исходной / входной строке есть дополнительные токены, которых нет в корпусе?
Я использую TfidfVectorizer и cosine_similarity из scikit-learn. Когда у меня есть новая строка и я пытаюсь найти косинусное сходство со строками в исходном обучающем корпусе, я замечаю, что косинусное сходство составляет 1.0, даже если строка...
178 просмотров
schedule
30.04.2024
Как правильно использовать векторизатор inverse_transform TFIDF
я пытаюсь передискретизировать данные, используя imblearn, используя приведенный ниже код
def oversample(df):
description = df['DESCRIPTION']
labels = df['LABEL']
vec = TfidfVectorizer(
norm='l2',
lowercase=True,...
33 просмотров
schedule
26.08.2022
Есть ли способ выполнить пользовательский TFIDF для отрицания предложения?
я использовал TFIDF для вычисления сходства между статьями, но у меня есть проблема, что он считает, что эти два предложения похожи:
I am against this project
I am for this project
как я могу улучшить свой подход, чтобы учесть отрицание этого...
28 просмотров
schedule
18.07.2023
Расчет показателя TF-IDF для отдельной строки
Я выполняю сопоставление строк с использованием TF-IDF и Cosine Similarity, и он хорошо работает для поиска сходства между строками в списке строк.
Теперь я хочу сопоставить новую строку с ранее рассчитанной матрицей. Я рассчитываю рейтинг TF-IDF,...
70 просмотров
schedule
15.01.2024
TfIdfVectorizer работает медленнее на графическом процессоре (реализация cuml vs sklearn)
Я запускаю TfIdfVectorizer для больших данных (в идеале я хочу запускать его для всех моих данных, которые представляют собой 30000 текстов примерно по 20000 слов в каждом). Изначально я использовал sklearn.feature_extraction.text.TfidfVectorizer...
31 просмотров
schedule
24.04.2022