Знайте ключевые слова машинного обучения, прежде чем начать

В этой статье вы узнаете о терминологии машинного обучения, его парадигмах, а также о следующем учебном пособии, которое поможет вам настроить компьютер, чтобы вы могли кодировать то, что вы изучаете. Прежде чем мы начнем с нашей настройки среды ML, прочитайте эту статью, чтобы получить обзор машинного обучения.

Терминология машинного обучения

Когда вы начинаете изучать любую новую технологию, первым делом необходимо ознакомиться с терминологией.

Набор данных. Набор данных является ядром любой модели машинного обучения. Это просто сбор данных, необходимых для построения системы машинного обучения.
Экземпляры — обозначает строки набора данных, что означает количество записей, содержащихся в нашем наборе данных.
Функции или атрибуты — это входные данные для нашей модели. Например, в вступительной статье мы использовали область для прогнозирования цены в этой области в качестве нашего признака.
Цели или ярлыки — это то, что наша модель учит прогнозировать. Например, в вступительной статье мы использовали нашу модель для прогнозирования цены, поэтому цена была нашей целью.
Помеченные данные. Обозначает данные, для которых предусмотрены ярлыки для функций.
Немаркированные данные — данные, для которых не указаны метки для функций.
Числовые характеристики — это функции, состоящие из числовых данных, например int, float и т. д.
Категорические характеристики – это функции, состоящие из категорийных данных. Категориальные данные — это тип данных, которые можно разделить на группы. Например: тип погоды, группа крови и т. д.
Проблема регрессии — когда модель предсказывает числовые данные. Например: прогноз цен на жилье, прогноз цен на акции и т. д.
Проблема классификации — когда модель классифицирует данные по определенному классу. Например: классификация изображений, анализ настроений и т. д.

Парадигмы машинного обучения

Три основные парадигмы машинного обучения:

Контролируемое обучение

Тип проблемы, когда модель обучается отображать входные данные в выходные данные на основе помеченного набора данных, на котором она обучалась.

Проблема регрессии. Тип проблемы, в которой целевая переменная имеет непрерывное значение.
Проблема классификации. Тип проблемы, в которой целевая переменная представляет конкретную сорт.

Неконтролируемое обучение

Тип проблемы, когда модель обучается находить необнаруженные закономерности в немаркированном наборе данных.

Кластеризация: задача группировки набора точек данных таким образом, чтобы точки данных, принадлежащие одному и тому же кластеру, были более похожи, чем точки в другом кластере.
Уменьшение размерности: Задача сокращения признаков в наборе данных.

Обучение с подкреплением

Тип проблемы связан с обучением агента действовать в окружающей среде таким образом, чтобы максимизировать совокупное вознаграждение.