Наука о данных — Основные методы обучения Scikit

Scikit-learn — это библиотека Python с открытым исходным кодом, используемая для алгоритмов машинного обучения, предварительной обработки, перекрестной проверки и визуализации. Он предоставляет ряд контролируемых и неконтролируемых алгоритмов обучения в Python.

Основной пример

Давайте создадим базовый пример, используя библиотеку scikit-learn, которая будет использоваться для

Загрузите данные
Разделите данные на обучение и тестирование,
Обучите свои данные с помощью алгоритма KNN и,
Предсказать результат

Загрузка данных

Вам необходимо иметь числовые данные, хранящиеся в массивах NumPy или разреженных матрицах SciPy. Вы также можете использовать другие числовые массивы, такие как Pandas DataFrame.

Определение обучающих и тестовых наборов

Как только данные будут загружены, ваша следующая задача будет разделить набор данных на данные обучения и данные тестирования.

Предварительная обработка данных — стандартизация

Стандартизация данных — это один из этапов предварительной обработки данных, который используется для изменения масштаба одного или нескольких атрибутов таким образом, чтобы атрибуты имели среднее значение 0 и стандартное отклонение 1. Стандартизация предполагается, что ваши данные имеют распределение Гаусса (гауссовая кривая), обозначаемое как N(0,1).

Нормализация

Нормализация — это метод, обычно используемый для подготовки данных для машинного обучения. Основная цель нормализации — изменить значения числовых столбцов в наборе данных, чтобы мы могли иметь общую шкалу, не теряя информации и не искажая различия в диапазонах значений.

Бинаризация

Бинаризация — это обычная операция, выполняемая с данными подсчета текста. Используя бинаризацию, аналитик может решить рассмотреть наличие или отсутствие признака, а не иметь, например, количественное количество вхождений.

Кодирование категориальных признаков

LabelEncoder — это еще один класс, используемый в предварительной обработке данных для уровней классов кодирования. Его также можно использовать для преобразования нечисловых меток в числовые метки.

Вменение отсутствующего значения

Класс Imputer в Python предоставит вам основные стратегии для вменения/заполнения пропущенных значений. Для этого используются средние значения, медианные значения или наиболее часто встречающиеся значения строки или столбца, в которых находятся отсутствующие значения. Этот класс также позволяет кодировать различные отсутствующие значения.

Генерация полиномиальных признаков

Полиномиальный признак генерирует новую матрицу признаков, которая состоит из всех полиномиальных комбинаций признаков со степенью меньше или равной указанной степени. Например, если входная выборка является двумерной и имеет форму [a, b], то полиномиальные признаки 2-й степени будут [1, a, b, a², ab, b²].

Определения модели

Оценщики контролируемого обучения

Обучение с учителем – это тип машинного обучения, который позволяет модели прогнозировать будущие результаты после обучения на помеченных данных.

Оценщики неконтролируемого обучения

Обучение без учителя – это тип машинного обучения, который позволяет модели прогнозировать будущие результатыбез обучения на помеченных данных.