Публикации по теме sklearn

Публикации по теме 'sklearn'

Обнаружены PCA, LDA и PLS - часть 2: линейный дискриминантный анализ

Часть 2: LDA и PLS Мы видели в предыдущей части , что PCA помогает нам уменьшить размерность нашего набора данных. Это также легко позволяет нам разделять классы, чтобы работать как алгоритм кластеризации или как этап обучения без учителя в нашем проекте. Теперь нас интересует другой пакет, LDA. Импортируем стандартные библиотеки для задачи: Наш датафрейм такой же, как предыдущий : Чтобы применить LDA, нам нужно отличать наши переменные от нашей цели. Да, правильно, это..

Наивный байесовский классификатор

Математическое объяснение метода наивного Байеса Начнем с введения теоремы Байеса. Математически это можно записать так: P(A|B)=P(B|A)P(A)P(B) Термин P(A|B) представляет собой условную вероятность, то есть вероятность того, что событие A произойдет, если B истинно. Доказательство прямолинейно, если отметить, что P(A|B)P(B) и P(B|A)P(A) представляют одну и ту же совместную вероятность наблюдения событий A и B, т. е. P(AB) . Важность теоремы Байеса заключается в том, что она позволяет..

Распознаватель цифр с использованием SVM

Одна из проблем, с которой мы столкнулись в рукописном тексте, заключается в способности идентифицировать символы, написанные в документах. Распознавание цифр может привести к неправильной информации. Поэтому необходимо правильно распознавать. Начнем с идеи по преодолению этой проблемы. Эта статья покажет вам способ идентификации цифр с помощью SVM. Вся работа была сделана в гугл колаб. Набор данных В нашем случае нам понадобятся изображения цифр, которые легко доступны с помощью..

Загрузка наборов данных scikit-learn

Импортировать уже существующий образец набора данных. Ниже приведены некоторые примеры общих наборов данных, которые включены в scikit-learn для вашего использования: sklearn.datasets.load_digits() : Загрузите и верните набор данных цифр. Каждая точка данных представляет собой изображение цифры 8x8. Бывают случаи, когда мы не хотим выполнять трудоемкий процесс загрузки, обработки и очистки реального набора данных, прежде чем мы сможем исследовать..

Оптимизация гиперпараметров с помощью поиска по сетке: практическое руководство

Узнайте, как использовать поиск по сетке для оптимизации гиперпараметров Поздравляем! Ваша статья в прямом эфире в нашем издании. Подумайте о том, чтобы представить больше статей. Не забудьте подписаться на нас в https://blog.devops.dev/ и в Twitter ( https://twitter.com/devops_blog ). Гиперпараметры в моделях машинного обучения — это параметры, которые не извлекаются из обучения. данные, но устанавливаются перед тренировкой. Эти параметры влияют на поведение модели во время..

Управление большими данными для оптимизации времени

Недавно я начал проект по разработке модели обнаружения мошенничества на основе набора данных Kaggle, доступного по адресу: https://www.kaggle.com/c/fraud-detection-analysis . Когда я начал импортировать данные, Я понял, что время на выполнение простого read_csv было слишком большим. Это привело меня к поиску более практичных способов работы с большими данными. Двумя основными вопросами были: как сократить время обработки при использовании Pandas? Как сохранить представление явления,..

Создание смоделированного набора данных из Scikit-learn

Вам нужно будет создать синтетический набор данных. В scikit-learn доступно множество стратегий для создания смоделированных данных. Среди них есть три очень полезных подхода. 1. make_regression() : make_regression() — хороший выбор, когда мы хотим, чтобы созданный набор данных использовался с линейной регрессией. Parameters : n_samples : int, default=100 The total amount of samples taken. n_features : int, default=100 The number of features. noise : float,..