Хммм .. Как мы классифицируем "обучение" в машинном обучении слов?
Прежде чем углубиться в темы, хочу поделиться некоторыми терминами машинного обучения.
Атрибут. Проще говоря, характеристики, относящиеся к отдельным лицам.
Например: одним из атрибутов велосипеда является пробег. Многие люди используют слова Характеристика и Атрибуты как синонимы.
Точность: дробный результат прогноза, который верна в модели классификации.
В бинарной классификации:
Истинно-положительный: модель, которая правильно предсказала класс положительных примеров.
Например: модель предсказывала, что сообщение электронной почты было спамом, и это сообщение электронной почты действительно было спамом.
Истинно-отрицательный: модель, которая правильно предсказала отрицательный класс примера.
Например: модель предсказала, что сообщение электронной почты не было спамом, и это сообщение электронной почты действительно не было спамом.
Типы систем машинного обучения:
Независимо от того, будет ли модель обучаться под наблюдением человека
- Система контролируемого обучения
- Система неконтролируемого обучения
- Полу-контролируемая система обучения
- Система обучения с подкреплением
Будет ли модель учиться постепенно на лету
- Онлайн против пакетного обучения
Когда модель предсказывает закономерность с известными данными против неизвестных данных и строит прогнозную модель так же, как это делают ученые.
- Основанное на экземплярах против обучения на основе модели
В этом посте я расскажу о контролируемом обучении, остальное я расскажу в моих следующих постах.
Контролируемое обучение
Термин, который важен в системе контролируемого обучения, - это ЭТИКЕТКА. Потому что набор данных, который используется для обучения самой модели, имеет желаемые решения, называемые метками.
Здесь аннотации - это не что иное, как метки, которые будут обнаружены моделью как прогноз. Итак, теперь вы все понимаете, почему я сказал это как важный термин в контролируемом обучении.
Типы контролируемых учебных задач
- Классификация
- Регресс
Классификация. Сам термин объясняет, что это такое. Чтобы быстрее понять это
Предположим, мы создали модель, которая обнаруживает почту, которую мы передали в качестве входных, будь то спам или любительская почта. Здесь модель классифицирует новые письма на основе того, как они были обучены, с множеством примеров писем с их ярлыками или классом (спам или ветчина).
Регрессия. Типичная задача регрессии - найти числовое значение.
Лучшим примером является предсказатель цен на велосипед.
Важный термин в регрессии - предикторы. Модель, созданная с набором данных, имеющим соответствующие предикторы и метки.
В примере с велосипедом: пробег, год, марка - такие факторы являются предикторами, которые необходимо предоставить модели с примерами велосипедов и их этикетками (ценой).
Еще одно замечание: ПРОБЕГ, который является предиктором, также известным как атрибут или функция, как я уже говорил ранее в этом сообщении в блоге.
Важные алгоритмы контролируемого обучения
- k-Ближайшие соседи
- Линейная регрессия
- Логистическая регрессия
- опорные векторные машины (SVM)
- Деревья решений и случайные леса
- Нейронные сети
Обратите внимание, что некоторые алгоритмы регрессии могут использоваться для задач классификации и наоборот.
Чтобы понять это на практике, давайте возьмем классификацию цветков ириса, которая похожа на «Hello World Program» в Задаче классификации.
1.Загрузите данные следующим образом или вы можете загрузить данные из наборов данных, доступных в sklearn.
Здесь я прочитал данные из URL-адреса с помощью pandas. И использовал test_train_split, который является встроенным методом в scikit learn, который используется для разделения массивов или матриц на случайные обучающие и тестовые подмножества. Чтобы узнать больше об этом test_train_split. Остальные используются, чтобы узнать больше об основной информации о данных.
2. Следующим шагом является выполнение однофакторного анализа. Строки ниже будут отображать значения на графике.
3. Следующим шагом является выполнение двумерного анализа. Проведите сравнение класса (независимая переменная) с каждой зависимой переменной (ширина чашелистика, высота чашелистника… ..)
4. Моделирование - это следующий шаг, который мы должны сделать. Чтобы узнать больше о методе iloc для панд, обратитесь сюда
5. Последний шаг - применить алгоритмы.
Здесь я использовал LogisticRegression, DecisionTreeClassifier, LinearDiscriminantAnalysis, KNeighborsClassifier, GaussianNB, SVC. Каждый дает свою точность (прогнозируемое значение).
И наконец я рассчитал производительность
Заключение
Это очень простой обмен знаниями, и существует множество алгоритмов и методов для работы с наборами данных. Я надеюсь, что вы все почерпнете основные заметки из этого сообщения в блоге. О другой системе обучения я расскажу в следующем посте.