Вопросы по теме 'tfidfvectorizer'

Сохраненная ошибка значения Tfidf-Vectorizer при повторной загрузке
Я обучил Tfidf-Vectorizer для пассивно-прогрессивного классификатора и протестировал его, все работает нормально. Затем я сохранил подогнанный векторизатор и обученный классификатор для дальнейшего использования. Когда я снова загрузил векторизатор,...
106 просмотров

Sklearn Tfidf Vectorizer norm=None norm-l2
Привет, я пытаюсь понять, как scikit-learn вычисляет оценку TFIDF в матрице: документ 1, функция 6, «вино»: test_doc = ['The wine was lovely', 'The red was delightful', 'Terrible choice of wine', 'We had a bottle of red'] # Create...
2714 просмотров

TfidfVectorizer на большом корпусе с генераторами
У меня есть большой корпус, разбитый на файлы 5K, я пытаюсь создать словарь на основе IDF, используя преобразование TF-IDF. Вот код: в основном у меня есть итератор, который перебирает каталог для файлов .tsv, читает каждый файл и дает результат....
776 просмотров

Как я могу сгруппировать текстовые данные с несколькими столбцами?
Я хотел бы сделать k означает кластеризацию с текстовыми данными книги, которые имеют столбцы «название», «жанр», «обзор» и «синопсис». Я хочу использовать «заголовок» в качестве индикатора или первичного ключа для кластеризации, но я не уверен,...
745 просмотров

ValueError: количество функций модели должно соответствовать входным данным (sklearn)
Я пытаюсь запустить классификатор для некоторых данных обзора фильмов. Данные уже были разделены на reviews_train.txt и reviews_test.txt . Затем я загрузил данные и разделил их на просмотр и метку (либо положительную (0), либо отрицательную (1)),...
3297 просмотров

Создание TfidfVectorizer над текстовым столбцом огромного фрейма данных pandas
Мне нужно получить матрицу функций TF-IDF из текста, хранящегося в столбцах огромного dataframe , загруженный из файла CSV (который не помещается в памяти). Я пытаюсь перебрать фрейм данных, используя куски, но он возвращает объекты генератора,...
1934 просмотров

Почему значение TF-IDF отличается от IDF_?
Почему значение векторизованного корпуса отличается от значения, полученного с помощью атрибута idf_ ? Разве атрибут idf_ не должен просто возвращать обратную частоту документа (IDF) таким же образом, как он отображается в векторизованном корпусе?...
247 просмотров

НЛП Объединение нескольких матриц TF-IDF
У меня есть большой корпус (~ 100 миллионов документов, 59 ГБ) в формате CSV. Я хочу создать вектор TF-IDF и выполнить некоторые функции для данных, но они слишком велики, чтобы загрузить их в память сразу (я работаю над Google Colab, GPU с 12 ГБ...
103 просмотров

Каким образом `TfidfVectorizer` работает с однозначными числами?
Я немного смущен тем, что именно TfidfVectorizer из skelearn делает под капотом без моего ведома. У меня есть такие фразы: sentence_1 = 'Sum: 1 Mean: 1 Min:1' Но когда я вижу vocabulary_ после обучения, я не могу найти ни одного...
51 просмотров
schedule 06.08.2022

Использование TfidfVectorizer с Punkt в облачной функции
Мое текущее понимание TfidfVectorizer требует запуска nltk.download("punkt") перед преобразованием входных данных, поскольку все токенизаторы по умолчанию доступны в punkt . В настоящее время, поскольку я использую TfidfVectorizer в своей...
48 просмотров

TFIDF отдельно для каждой этикетки
Используя TFIDFvectorizor (SKlearn), как получить рейтинг слов на основе оценки tfidf для каждой метки отдельно. Мне нужна частота слов для каждой метки (положительной и отрицательной). соответствующий код: vectorizer =...
785 просмотров

Как получить лучшие функции для классификаторов tf-idf?
У меня есть список комментариев (текст), которые я должен классифицировать с помощью некоторых классификаторов (ввод). Для этого я использую pipeline и KFold , потому что набор данных очень маленький. Я хотел бы знать имена лучших функций для...
713 просмотров

косинусное подобие = 1.0, даже если в исходной / входной строке есть дополнительные токены, которых нет в корпусе?
Я использую TfidfVectorizer и cosine_similarity из scikit-learn. Когда у меня есть новая строка и я пытаюсь найти косинусное сходство со строками в исходном обучающем корпусе, я замечаю, что косинусное сходство составляет 1.0, даже если строка...
178 просмотров

Как правильно использовать векторизатор inverse_transform TFIDF
я пытаюсь передискретизировать данные, используя imblearn, используя приведенный ниже код def oversample(df): description = df['DESCRIPTION'] labels = df['LABEL'] vec = TfidfVectorizer( norm='l2', lowercase=True,...
33 просмотров
schedule 26.08.2022

Есть ли способ выполнить пользовательский TFIDF для отрицания предложения?
я использовал TFIDF для вычисления сходства между статьями, но у меня есть проблема, что он считает, что эти два предложения похожи: I am against this project I am for this project как я могу улучшить свой подход, чтобы учесть отрицание этого...
28 просмотров

Расчет показателя TF-IDF для отдельной строки
Я выполняю сопоставление строк с использованием TF-IDF и Cosine Similarity, и он хорошо работает для поиска сходства между строками в списке строк. Теперь я хочу сопоставить новую строку с ранее рассчитанной матрицей. Я рассчитываю рейтинг TF-IDF,...
70 просмотров

TfIdfVectorizer работает медленнее на графическом процессоре (реализация cuml vs sklearn)
Я запускаю TfIdfVectorizer для больших данных (в идеале я хочу запускать его для всех моих данных, которые представляют собой 30000 текстов примерно по 20000 слов в каждом). Изначально я использовал sklearn.feature_extraction.text.TfidfVectorizer...
31 просмотров
schedule 24.04.2022