Классификация систем машинного обучения

Хммм .. Как мы классифицируем "обучение" в машинном обучении слов?

Прежде чем углубиться в темы, хочу поделиться некоторыми терминами машинного обучения.

Атрибут. Проще говоря, характеристики, относящиеся к отдельным лицам.

Например: одним из атрибутов велосипеда является пробег. Многие люди используют слова Характеристика и Атрибуты как синонимы.

Точность: дробный результат прогноза, который верна в модели классификации.

В бинарной классификации:

Истинно-положительный: модель, которая правильно предсказала класс положительных примеров.

Например: модель предсказывала, что сообщение электронной почты было спамом, и это сообщение электронной почты действительно было спамом.

Истинно-отрицательный: модель, которая правильно предсказала отрицательный класс примера.

Например: модель предсказала, что сообщение электронной почты не было спамом, и это сообщение электронной почты действительно не было спамом.

Типы систем машинного обучения:

Независимо от того, будет ли модель обучаться под наблюдением человека

Система контролируемого обучения
Система неконтролируемого обучения
Полу-контролируемая система обучения
Система обучения с подкреплением

Будет ли модель учиться постепенно на лету

Онлайн против пакетного обучения

Когда модель предсказывает закономерность с известными данными против неизвестных данных и строит прогнозную модель так же, как это делают ученые.

Основанное на экземплярах против обучения на основе модели

В этом посте я расскажу о контролируемом обучении, остальное я расскажу в моих следующих постах.

Контролируемое обучение

Термин, который важен в системе контролируемого обучения, - это ЭТИКЕТКА. Потому что набор данных, который используется для обучения самой модели, имеет желаемые решения, называемые метками.

Здесь аннотации - это не что иное, как метки, которые будут обнаружены моделью как прогноз. Итак, теперь вы все понимаете, почему я сказал это как важный термин в контролируемом обучении.

Типы контролируемых учебных задач

Классификация
Регресс

Классификация. Сам термин объясняет, что это такое. Чтобы быстрее понять это

Предположим, мы создали модель, которая обнаруживает почту, которую мы передали в качестве входных, будь то спам или любительская почта. Здесь модель классифицирует новые письма на основе того, как они были обучены, с множеством примеров писем с их ярлыками или классом (спам или ветчина).

Регрессия. Типичная задача регрессии - найти числовое значение.

Лучшим примером является предсказатель цен на велосипед.

Важный термин в регрессии - предикторы. Модель, созданная с набором данных, имеющим соответствующие предикторы и метки.

В примере с велосипедом: пробег, год, марка - такие факторы являются предикторами, которые необходимо предоставить модели с примерами велосипедов и их этикетками (ценой).

Еще одно замечание: ПРОБЕГ, который является предиктором, также известным как атрибут или функция, как я уже говорил ранее в этом сообщении в блоге.

Важные алгоритмы контролируемого обучения

k-Ближайшие соседи
Линейная регрессия
Логистическая регрессия
опорные векторные машины (SVM)
Деревья решений и случайные леса
Нейронные сети

Обратите внимание, что некоторые алгоритмы регрессии могут использоваться для задач классификации и наоборот.

Чтобы понять это на практике, давайте возьмем классификацию цветков ириса, которая похожа на «Hello World Program» в Задаче классификации.

1.Загрузите данные следующим образом или вы можете загрузить данные из наборов данных, доступных в sklearn.

Здесь я прочитал данные из URL-адреса с помощью pandas. И использовал test_train_split, который является встроенным методом в scikit learn, который используется для разделения массивов или матриц на случайные обучающие и тестовые подмножества. Чтобы узнать больше об этом test_train_split. Остальные используются, чтобы узнать больше об основной информации о данных.

2. Следующим шагом является выполнение однофакторного анализа. Строки ниже будут отображать значения на графике.

3. Следующим шагом является выполнение двумерного анализа. Проведите сравнение класса (независимая переменная) с каждой зависимой переменной (ширина чашелистика, высота чашелистника… ..)

4. Моделирование - это следующий шаг, который мы должны сделать. Чтобы узнать больше о методе iloc для панд, обратитесь сюда

5. Последний шаг - применить алгоритмы.

Здесь я использовал LogisticRegression, DecisionTreeClassifier, LinearDiscriminantAnalysis, KNeighborsClassifier, GaussianNB, SVC. Каждый дает свою точность (прогнозируемое значение).

И наконец я рассчитал производительность

Заключение

Это очень простой обмен знаниями, и существует множество алгоритмов и методов для работы с наборами данных. Я надеюсь, что вы все почерпнете основные заметки из этого сообщения в блоге. О другой системе обучения я расскажу в следующем посте.

Классификация систем машинного обучения

Типы систем машинного обучения:

Контролируемое обучение

Типы контролируемых учебных задач

Важные алгоритмы контролируемого обучения

Вопросы по теме