Публикации по теме 'sklearn'
Обнаружены PCA, LDA и PLS - часть 2: линейный дискриминантный анализ
Часть 2: LDA и PLS
Мы видели в предыдущей части , что PCA помогает нам уменьшить размерность нашего набора данных. Это также легко позволяет нам разделять классы, чтобы работать как алгоритм кластеризации или как этап обучения без учителя в нашем проекте. Теперь нас интересует другой пакет, LDA.
Импортируем стандартные библиотеки для задачи:
Наш датафрейм такой же, как предыдущий :
Чтобы применить LDA, нам нужно отличать наши переменные от нашей цели. Да, правильно, это..
Наивный байесовский классификатор
Математическое объяснение метода наивного Байеса
Начнем с введения теоремы Байеса. Математически это можно записать так:
P(A|B)=P(B|A)P(A)P(B)
Термин P(A|B) представляет собой условную вероятность, то есть вероятность того, что событие A произойдет, если B истинно. Доказательство прямолинейно, если отметить, что P(A|B)P(B) и P(B|A)P(A) представляют одну и ту же совместную вероятность наблюдения событий A и B, т. е. P(AB) . Важность теоремы Байеса заключается в том, что она позволяет..
Распознаватель цифр с использованием SVM
Одна из проблем, с которой мы столкнулись в рукописном тексте, заключается в способности идентифицировать символы, написанные в документах. Распознавание цифр может привести к неправильной информации. Поэтому необходимо правильно распознавать.
Начнем с идеи по преодолению этой проблемы. Эта статья покажет вам способ идентификации цифр с помощью SVM. Вся работа была сделана в гугл колаб.
Набор данных
В нашем случае нам понадобятся изображения цифр, которые легко доступны с помощью..
Загрузка наборов данных scikit-learn
Импортировать уже существующий образец набора данных.
Ниже приведены некоторые примеры общих наборов данных, которые включены в scikit-learn для вашего использования:
sklearn.datasets.load_digits() :
Загрузите и верните набор данных цифр.
Каждая точка данных представляет собой изображение цифры 8x8.
Бывают случаи, когда мы не хотим выполнять трудоемкий процесс загрузки, обработки и очистки реального набора данных, прежде чем мы сможем исследовать..
Оптимизация гиперпараметров с помощью поиска по сетке: практическое руководство
Узнайте, как использовать поиск по сетке для оптимизации гиперпараметров
Поздравляем! Ваша статья в прямом эфире в нашем издании. Подумайте о том, чтобы представить больше статей. Не забудьте подписаться на нас в https://blog.devops.dev/ и в Twitter ( https://twitter.com/devops_blog ). Гиперпараметры в моделях машинного обучения — это параметры, которые не извлекаются из обучения. данные, но устанавливаются перед тренировкой. Эти параметры влияют на поведение модели во время..
Управление большими данными для оптимизации времени
Недавно я начал проект по разработке модели обнаружения мошенничества на основе набора данных Kaggle, доступного по адресу: https://www.kaggle.com/c/fraud-detection-analysis . Когда я начал импортировать данные, Я понял, что время на выполнение простого read_csv было слишком большим. Это привело меня к поиску более практичных способов работы с большими данными. Двумя основными вопросами были: как сократить время обработки при использовании Pandas? Как сохранить представление явления,..
Создание смоделированного набора данных из Scikit-learn
Вам нужно будет создать синтетический набор данных.
В scikit-learn доступно множество стратегий для создания смоделированных данных. Среди них есть три очень полезных подхода.
1. make_regression() :
make_regression() — хороший выбор, когда мы хотим, чтобы созданный набор данных использовался с линейной регрессией.
Parameters :
n_samples : int, default=100
The total amount of samples taken.
n_features : int, default=100
The number of features.
noise : float,..