Хммм .. Как мы классифицируем "обучение" в машинном обучении слов?

Прежде чем углубиться в темы, хочу поделиться некоторыми терминами машинного обучения.

Атрибут. Проще говоря, характеристики, относящиеся к отдельным лицам.

Например: одним из атрибутов велосипеда является пробег. Многие люди используют слова Характеристика и Атрибуты как синонимы.

Точность: дробный результат прогноза, который верна в модели классификации.

В бинарной классификации:

Истинно-положительный: модель, которая правильно предсказала класс положительных примеров.

Например: модель предсказывала, что сообщение электронной почты было спамом, и это сообщение электронной почты действительно было спамом.

Истинно-отрицательный: модель, которая правильно предсказала отрицательный класс примера.

Например: модель предсказала, что сообщение электронной почты не было спамом, и это сообщение электронной почты действительно не было спамом.

Типы систем машинного обучения:

Независимо от того, будет ли модель обучаться под наблюдением человека

  1. Система контролируемого обучения
  2. Система неконтролируемого обучения
  3. Полу-контролируемая система обучения
  4. Система обучения с подкреплением

Будет ли модель учиться постепенно на лету

  1. Онлайн против пакетного обучения

Когда модель предсказывает закономерность с известными данными против неизвестных данных и строит прогнозную модель так же, как это делают ученые.

  1. Основанное на экземплярах против обучения на основе модели

В этом посте я расскажу о контролируемом обучении, остальное я расскажу в моих следующих постах.

Контролируемое обучение

Термин, который важен в системе контролируемого обучения, - это ЭТИКЕТКА. Потому что набор данных, который используется для обучения самой модели, имеет желаемые решения, называемые метками.

Здесь аннотации - это не что иное, как метки, которые будут обнаружены моделью как прогноз. Итак, теперь вы все понимаете, почему я сказал это как важный термин в контролируемом обучении.

Типы контролируемых учебных задач

  1. Классификация
  2. Регресс

Классификация. Сам термин объясняет, что это такое. Чтобы быстрее понять это

Предположим, мы создали модель, которая обнаруживает почту, которую мы передали в качестве входных, будь то спам или любительская почта. Здесь модель классифицирует новые письма на основе того, как они были обучены, с множеством примеров писем с их ярлыками или классом (спам или ветчина).

Регрессия. Типичная задача регрессии - найти числовое значение.

Лучшим примером является предсказатель цен на велосипед.

Важный термин в регрессии - предикторы. Модель, созданная с набором данных, имеющим соответствующие предикторы и метки.

В примере с велосипедом: пробег, год, марка - такие факторы являются предикторами, которые необходимо предоставить модели с примерами велосипедов и их этикетками (ценой).

Еще одно замечание: ПРОБЕГ, который является предиктором, также известным как атрибут или функция, как я уже говорил ранее в этом сообщении в блоге.

Важные алгоритмы контролируемого обучения

  1. k-Ближайшие соседи
  2. Линейная регрессия
  3. Логистическая регрессия
  4. опорные векторные машины (SVM)
  5. Деревья решений и случайные леса
  6. Нейронные сети

Обратите внимание, что некоторые алгоритмы регрессии могут использоваться для задач классификации и наоборот.

Чтобы понять это на практике, давайте возьмем классификацию цветков ириса, которая похожа на «Hello World Program» в Задаче классификации.

1.Загрузите данные следующим образом или вы можете загрузить данные из наборов данных, доступных в sklearn.

Здесь я прочитал данные из URL-адреса с помощью pandas. И использовал test_train_split, который является встроенным методом в scikit learn, который используется для разделения массивов или матриц на случайные обучающие и тестовые подмножества. Чтобы узнать больше об этом test_train_split. Остальные используются, чтобы узнать больше об основной информации о данных.

2. Следующим шагом является выполнение однофакторного анализа. Строки ниже будут отображать значения на графике.

3. Следующим шагом является выполнение двумерного анализа. Проведите сравнение класса (независимая переменная) с каждой зависимой переменной (ширина чашелистика, высота чашелистника… ..)

4. Моделирование - это следующий шаг, который мы должны сделать. Чтобы узнать больше о методе iloc для панд, обратитесь сюда

5. Последний шаг - применить алгоритмы.

Здесь я использовал LogisticRegression, DecisionTreeClassifier, LinearDiscriminantAnalysis, KNeighborsClassifier, GaussianNB, SVC. Каждый дает свою точность (прогнозируемое значение).

И наконец я рассчитал производительность

Заключение

Это очень простой обмен знаниями, и существует множество алгоритмов и методов для работы с наборами данных. Я надеюсь, что вы все почерпнете основные заметки из этого сообщения в блоге. О другой системе обучения я расскажу в следующем посте.