Определите правильный набор данных для ваших алгоритмов машинного обучения (под наблюдением)

Машинное обучение – это новая технология. У новичков в начале может возникнуть путаница при реализации алгоритмов машинного обучения. Самые основные алгоритмы, которые я реализовал, были алгоритмами контролируемого обучения. Алгоритмы с учителем включают два типа задач: регрессию и классификацию. Первоначальная проблема, с которой я столкнулся, заключалась в том, чтобы дифференцировать эти проблемы и определить правильный набор данных для этих алгоритмов.

Итак, если вы новичок, этот пост посвящен поиску правильного набора данных для вашего алгоритма машинного обучения.

Прежде всего, давайте разберемся с основами контролируемого обучения. Обучение с учителем — это обучение машины набору данных, который включает пары входных и выходных данных. Например, для данного набора данных X — это атрибуты (входные данные), а Y — связанная метка (выходные данные). Теперь машина запустит контролируемый алгоритм и научится предсказывать Y на основе заданного ввода X.

Атрибут Студент не будет учитываться, так как это просто индекс, а не фактические данные. Итак, это контролируемое обучение. Перед тренировкой набор данных будет разделен на две части. Обучение и Тестирование. Обучающие кортежи включают как X, так и Y. В то время как тестовые кортежи включают только X и должны предсказывать Y. Вот код для разделения данных обучения и тестирования.

Здесь размер теста = 0,3 означает, что 30% набора данных будут тестовыми данными.

Примечание. Данные, выбранные для обучения и тестирования, будут случайными.

Теперь из X_train и y_train будет обучаться алгоритм, а из X_test алгоритм будет протестирован. Здесь Y_test используется для сравнения прогнозируемых результатов и фактических результатов (Y_test).

С другой стороны, при неконтролируемом обучении в наборе данных не будет выходных данных.

Теперь давайте перейдем к типам контролируемого обучения.

Типы контролируемого обучения

В основном существует два типа контролируемого обучения:

Регрессия:

Алгоритмы регрессии применимы, когда выходными данными являются значения. Например,

В данном наборе данных выход (конечный результат) представляет собой дискретные значения, которые описывают окончательные оценки учащегося. Таким образом, алгоритм регрессии будет предсказывать оценки студентов по конечному результату.

Классификация:

В алгоритмах классификации выводом является категория/класс. Например,

В данном наборе данных выводом является класс (пройдено или не пройдено). Итак, здесь алгоритм классификации предсказывает, что студент сдаст или не сдаст выпускные экзамены.

Итак, основное отличие заключается в типе вывода (категория или значение).

Я надеюсь, что вы найдете эту статью полезной. В следующем посте я напишу о реализации алгоритмов регрессии и классификации. Я уже загрузил код классификации в свой репозиторий GitHub, https://github.com/Farnaz08/MLforCOVID, а объяснение доступно по адресу: https://farnazfp.medium.com/machine-learning-for-covid. -19-2cfc496b28ab»

Определите правильный набор данных для ваших алгоритмов машинного обучения (под наблюдением)

Вопросы по теме