Обучение, проверка и набор тестов - три основных жаргона машинного обучения и искусственного интеллекта. Похоже, многие это неправильно понимают. Когда я спрашиваю своих друзей о различиях между тренировкой, проверкой и тестовым набором, они не могут ответить. Сегодня я объясню вам все три приведенных выше терминологии.

Тренировочный набор

Вы можете представить себе алгоритм машинного обучения, будучи учеником в классе, а данные - это знания, данные учителем. Учитель использует знания, чтобы научить ученика решать проблему. В машинном обучении обучающий набор известен от учителя для обучения ученика. Студент (модель машинного обучения) пытается запомнить и получить информацию из обучающего набора, а затем сохранить эту информацию в его параметрах (или весе) с помощью алгоритмов оптимизации. Способности ученика отражаются через ошибку обучения. У студента более низкая ошибка обучения лучше, чем у студента более высокая ошибка обучения. Однако помните, что наша конечная цель - найти ученика, который хорошо работает с невидимыми данными, я имею в виду данные в будущем.

Набор проверки

Набор для проверки, иногда называемый набором для разработки (Dev set). Основные цели набора для разработки - предотвращение переобучения машины и выбор гиперпараметров. Предотвращение переобучения машины помогает модели машинного обучения лучше работать с данными будущего, а также предотвращает заучивание учащимся. Выбор гиперпараметров помогает найти лучший алгоритм машинного обучения среди остальных, а также найти лучшего ученика в классе, обладающего особым даром.
Выбор гиперпараметров: помимо параметров, полученных из данных поезда, каждый алгоритм машинного обучения обычно имеет некоторые гиперпараметры. Эти гиперпараметры нужно выбирать вручную. В реальном мире у нас есть много типов данных, от маркетинговых мест до НЛП, медицинских и так далее. Каждый тип данных как предмет в школе. И каждый ученик хорошо разбирается в каком-то предмете из-за своего хобби и своего дара. Таким образом, этот учитель в классе должен использовать какой-то набор разработчиков, чтобы найти лучшего ученика по каждому типу предмета.

Предотвращение переобучения: иногда учащиеся учатся наизусть. Итак, мы должны использовать набор разработчиков для тестирования студентов. Набор разработчика можно рассматривать как тестовый, который делает преподаватель независимо от набора поезда. Как показано на рисунке ниже, точки - это данные обучения, а кривые - ваши алгоритмы. Зеленая кривая переборщила, а черная - хорошо.

Тестовый набор

Этот набор данных представляет собой независимый набор для обучения и разработки, но три набора данных должны иметь одинаковое распределение. Представьте, что после того, как ученик учится на тренировочном наборе, и после того, как учитель выбирает лучшего ученика с помощью набора для разработчиков. Тест установлен как экзамен для проверки реальных способностей ученика после обучения.

Резюме

Набор для обучения: использование для обучения и оптимизации параметров модели.
Набор для разработчиков: выбор гиперпараметров и предотвращение переобучения.
Набор тестов: получение объективной оценки для вашей модели.

Ссылка