Публикации по теме tfidfvectorizer

Вопросы по теме 'tfidfvectorizer'

Сохраненная ошибка значения Tfidf-Vectorizer при повторной загрузке

Я обучил Tfidf-Vectorizer для пассивно-прогрессивного классификатора и протестировал его, все работает нормально. Затем я сохранил подогнанный векторизатор и обученный классификатор для дальнейшего использования. Когда я снова загрузил векторизатор,...

106 просмотров

02.05.2023

Sklearn Tfidf Vectorizer norm=None norm-l2

Привет, я пытаюсь понять, как scikit-learn вычисляет оценку TFIDF в матрице: документ 1, функция 6, «вино»: test_doc = ['The wine was lovely', 'The red was delightful', 'Terrible choice of wine', 'We had a bottle of red'] # Create...

2714 просмотров

python scikit-learn tf-idf normalization tfidfvectorizer

28.08.2022

TfidfVectorizer на большом корпусе с генераторами

У меня есть большой корпус, разбитый на файлы 5K, я пытаюсь создать словарь на основе IDF, используя преобразование TF-IDF. Вот код: в основном у меня есть итератор, который перебирает каталог для файлов .tsv, читает каждый файл и дает результат....

776 просмотров

python scikit-learn generator corpus tfidfvectorizer

03.05.2023

Как я могу сгруппировать текстовые данные с несколькими столбцами?

Я хотел бы сделать k означает кластеризацию с текстовыми данными книги, которые имеют столбцы «название», «жанр», «обзор» и «синопсис». Я хочу использовать «заголовок» в качестве индикатора или первичного ключа для кластеризации, но я не уверен,...

745 просмотров

cluster-analysis data-science k-means tfidfvectorizer

14.06.2022

ValueError: количество функций модели должно соответствовать входным данным (sklearn)

Я пытаюсь запустить классификатор для некоторых данных обзора фильмов. Данные уже были разделены на reviews_train.txt и reviews_test.txt . Затем я загрузил данные и разделил их на просмотр и метку (либо положительную (0), либо отрицательную (1)),...

3297 просмотров

python machine-learning scikit-learn sklearn-pandas tfidfvectorizer

22.09.2022

Создание TfidfVectorizer над текстовым столбцом огромного фрейма данных pandas

Мне нужно получить матрицу функций TF-IDF из текста, хранящегося в столбцах огромного dataframe , загруженный из файла CSV (который не помещается в памяти). Я пытаюсь перебрать фрейм данных, используя куски, но он возвращает объекты генератора,...

1934 просмотров

python pandas dataframe scikit-learn tfidfvectorizer

12.08.2022

Почему значение TF-IDF отличается от IDF_?

Почему значение векторизованного корпуса отличается от значения, полученного с помощью атрибута idf_ ? Разве атрибут idf_ не должен просто возвращать обратную частоту документа (IDF) таким же образом, как он отображается в векторизованном корпусе?...

247 просмотров

python scikit-learn tf-idf tfidfvectorizer

25.07.2022

НЛП Объединение нескольких матриц TF-IDF

У меня есть большой корпус (~ 100 миллионов документов, 59 ГБ) в формате CSV. Я хочу создать вектор TF-IDF и выполнить некоторые функции для данных, но они слишком велики, чтобы загрузить их в память сразу (я работаю над Google Colab, GPU с 12 ГБ...

103 просмотров

python gensim scikit-learn tf-idf tfidfvectorizer

08.07.2022

Каким образом `TfidfVectorizer` работает с однозначными числами?

Я немного смущен тем, что именно TfidfVectorizer из skelearn делает под капотом без моего ведома. У меня есть такие фразы: sentence_1 = 'Sum: 1 Mean: 1 Min:1' Но когда я вижу vocabulary_ после обучения, я не могу найти ни одного...

51 просмотров

python scikit-learn tfidfvectorizer

06.08.2022

Использование TfidfVectorizer с Punkt в облачной функции

Мое текущее понимание TfidfVectorizer требует запуска nltk.download("punkt") перед преобразованием входных данных, поскольку все токенизаторы по умолчанию доступны в punkt . В настоящее время, поскольку я использую TfidfVectorizer в своей...

48 просмотров

python google-cloud-functions nltk tfidfvectorizer tmp

25.12.2022

TFIDF отдельно для каждой этикетки

Используя TFIDFvectorizor (SKlearn), как получить рейтинг слов на основе оценки tfidf для каждой метки отдельно. Мне нужна частота слов для каждой метки (положительной и отрицательной). соответствующий код: vectorizer =...

785 просмотров

python nlp scikit-learn tf-idf tfidfvectorizer

19.07.2022

Как получить лучшие функции для классификаторов tf-idf?

У меня есть список комментариев (текст), которые я должен классифицировать с помощью некоторых классификаторов (ввод). Для этого я использую pipeline и KFold , потому что набор данных очень маленький. Я хотел бы знать имена лучших функций для...

713 просмотров

python scikit-learn tf-idf feature-selection tfidfvectorizer

19.05.2022

косинусное подобие = 1.0, даже если в исходной / входной строке есть дополнительные токены, которых нет в корпусе?

Я использую TfidfVectorizer и cosine_similarity из scikit-learn. Когда у меня есть новая строка и я пытаюсь найти косинусное сходство со строками в исходном обучающем корпусе, я замечаю, что косинусное сходство составляет 1.0, даже если строка...

178 просмотров

scikit-learn cosine-similarity tfidfvectorizer

30.04.2024

Как правильно использовать векторизатор inverse_transform TFIDF

я пытаюсь передискретизировать данные, используя imblearn, используя приведенный ниже код def oversample(df): description = df['DESCRIPTION'] labels = df['LABEL'] vec = TfidfVectorizer( norm='l2', lowercase=True,...

33 просмотров

scikit-learn imblearn tfidfvectorizer

26.08.2022

Есть ли способ выполнить пользовательский TFIDF для отрицания предложения?

я использовал TFIDF для вычисления сходства между статьями, но у меня есть проблема, что он считает, что эти два предложения похожи: I am against this project I am for this project как я могу улучшить свой подход, чтобы учесть отрицание этого...

28 просмотров

python-3.x python nlp tf-idf tfidfvectorizer

18.07.2023

Расчет показателя TF-IDF для отдельной строки

Я выполняю сопоставление строк с использованием TF-IDF и Cosine Similarity, и он хорошо работает для поиска сходства между строками в списке строк. Теперь я хочу сопоставить новую строку с ранее рассчитанной матрицей. Я рассчитываю рейтинг TF-IDF,...

70 просмотров

python scikit-learn tf-idf text-processing tfidfvectorizer

15.01.2024

TfIdfVectorizer работает медленнее на графическом процессоре (реализация cuml vs sklearn)

Я запускаю TfIdfVectorizer для больших данных (в идеале я хочу запускать его для всех моих данных, которые представляют собой 30000 текстов примерно по 20000 слов в каждом). Изначально я использовал sklearn.feature_extraction.text.TfidfVectorizer...

31 просмотров

python tensorflow nlp gpu tfidfvectorizer

24.04.2022