Публикации по теме 'sklearn'


Обработка отсутствующих данных с помощью Sklearn Imputer
Первоначально опубликовано здесь: http://blog.contactsunny.com/data-science/handle-missing-data-in-your-training-dataset-with-scikit-imputer Чаще всего в проектах по науке о данных вы встретите набор данных, в котором данные отсутствуют хотя бы в одном столбце. В некоторых случаях вы можете просто проигнорировать эту строку, вынув ее из набора данных. Но так будет не всегда. Иногда эта строка может иметь решающее значение для обучения, возможно, потому, что сам набор данных очень..

Линейная регрессия, биннинг и полиномиальная линейная регрессия
Может ли линейная регрессия соответствовать нелинейным данным? Как мы узнали с самого начала, линейная регрессия — это такая регрессия, которая соответствует прямой линии в форме y = wx + b для каждой пары (x, y) наилучшим образом. Но что, если я покажу вам нелинейную кривую, соответствующую приведенным ниже точкам данных? Давайте разберемся. Я не буду объяснять линейную регрессию, так как об этом уже есть много ресурсов. Я запущу код и быстро перейду к биннингу и..

Одномерная линейная регрессия в Python — Различные подходы
Цель этой статьи — продемонстрировать различные подходы, которые мы можем использовать для построения одномерной линейной регрессии в python . Мы увидим формулы, используемые для каждого подхода, и сравним их предсказания. Введение Линейная регрессия — это алгоритмический метод поиска линейной зависимости между предиктором (независимым) и целевыми (зависимыми) переменными (т. е. x и y). Модель LR пытается соответствовать линии, которая определяет отношение между x и y. Линейная..

Классификация электронной почты с использованием обработки естественного языка (NLP)
Программа Udacity Data Scientist НЛП - это область искусственного интеллекта, которая позволяет машинам манипулировать естественными языками человека. НЛП использовалось во многих сферах. В этом блоге мы рассмотрим этапы классификации электронной почты, является ли это спамом или без использования методов НЛП. Но сначала давайте начнем с определения проблемы, которую мы собираемся попытаться решить в этом блоге. Постановка задачи Большинство из нас должно быть знакомо со спамом...

Ускорение конвейера модели sklearn для обслуживания отдельных прогнозов с очень низкой задержкой
Написание собственных функций sklearn, (пока последняя) часть 3 Если вы работали со sklearn до того, как наверняка столкнулись с трудностями между использованием фреймов данных или массивов в качестве входных данных для ваших преобразователей и оценщиков. Оба имеют свои преимущества и недостатки. Но как только вы развернете свою модель, например, как услугу, во многих случаях она будет обслуживать отдельные прогнозы. Макс Халфорд показал несколько отличных примеров того, как улучшить..

Набор данных Sklearn make_friedman1 — сложный набор данных для прогнозирования.
Поскольку я близок к завершению изучения средства создания набора данных sklearn, я приступил к набору данных make_friedman1, который был описан в работе Дж. Фридмана под названием «Многомерные адаптивные регрессионные сплайны», The Annals of Statistics 19 (1), страницы 1–67, 1991. Входные данные представляют собой независимые признаки этого набора данных, равномерно распределенные на интервале [0,1]. Зависимая метка y рассчитывается по следующей формуле: y(X) = 10 * sin(pi * X[:,..

Создайте классификатор для прогнозирования неизвестных случаев с учетом помеченных данных.
Подход машинного обучения с использованием Python (sklearn-KNeighborsClassifier) Классификация — это контролируемая модель обучения. Используя классификацию, мы можем разделить неизвестные элементы на дискретный набор категорий и «классов». Наиболее распространенные варианты использования алгоритмов классификации: классификация невозврата кредита ( У каких клиентов возникнут проблемы с погашением кредита ) Чтобы предсказать категорию, к которой принадлежит клиент Обнаружение..