В этой статье вы узнаете о терминологии машинного обучения, его парадигмах, а также о следующем учебном пособии, которое поможет вам настроить компьютер, чтобы вы могли кодировать то, что вы изучаете. Прежде чем мы начнем с нашей настройки среды ML, прочитайте эту статью, чтобы получить обзор машинного обучения.
Терминология машинного обучения
Когда вы начинаете изучать любую новую технологию, первым делом необходимо ознакомиться с терминологией.
- Набор данных. Набор данных является ядром любой модели машинного обучения. Это просто сбор данных, необходимых для построения системы машинного обучения.
- Экземпляры — обозначает строки набора данных, что означает количество записей, содержащихся в нашем наборе данных.
- Функции или атрибуты — это входные данные для нашей модели. Например, в вступительной статье мы использовали область для прогнозирования цены в этой области в качестве нашего признака.
- Цели или ярлыки — это то, что наша модель учит прогнозировать. Например, в вступительной статье мы использовали нашу модель для прогнозирования цены, поэтому цена была нашей целью.
- Помеченные данные. Обозначает данные, для которых предусмотрены ярлыки для функций.
- Немаркированные данные — данные, для которых не указаны метки для функций.
- Числовые характеристики — это функции, состоящие из числовых данных, например int, float и т. д.
- Категорические характеристики – это функции, состоящие из категорийных данных. Категориальные данные — это тип данных, которые можно разделить на группы. Например: тип погоды, группа крови и т. д.
- Проблема регрессии — когда модель предсказывает числовые данные. Например: прогноз цен на жилье, прогноз цен на акции и т. д.
- Проблема классификации — когда модель классифицирует данные по определенному классу. Например: классификация изображений, анализ настроений и т. д.
Парадигмы машинного обучения
Три основные парадигмы машинного обучения:
Контролируемое обучение
Тип проблемы, когда модель обучается отображать входные данные в выходные данные на основе помеченного набора данных, на котором она обучалась.
Проблема регрессии. Тип проблемы, в которой целевая переменная имеет непрерывное значение.
Проблема классификации. Тип проблемы, в которой целевая переменная представляет конкретную сорт.
Неконтролируемое обучение
Тип проблемы, когда модель обучается находить необнаруженные закономерности в немаркированном наборе данных.
Кластеризация: задача группировки набора точек данных таким образом, чтобы точки данных, принадлежащие одному и тому же кластеру, были более похожи, чем точки в другом кластере.
Уменьшение размерности: Задача сокращения признаков в наборе данных.
Обучение с подкреплением
Тип проблемы связан с обучением агента действовать в окружающей среде таким образом, чтобы максимизировать совокупное вознаграждение.