Оптимальное обучение на основе данных

В этой статье я расскажу о четырех основных процессах моделирования машинного обучения (ML), которые вы должны хорошо знать как специалист по работе с данными.

Машинное обучение — это ветвь искусственного интеллекта, которая имитирует человеческую способность к обучению, раскрывая шаблоны данных, то есть отношения между функциями и целевой переменной. Функции — это независимые переменные, которые представляют атрибуты данного наблюдения или точки данных. С другой стороны, целевая переменная — это зависимая переменная, которую мы хотим смоделировать для прогнозирования.

Моделирование машинного обучения — важный шаг в жизненном цикле проекта по науке о данных и одна из самых интересных частей проекта.

В предыдущей статье я обсудил основные компоненты ML и представил дополнительное введение в моделирование ML. Ссылку на статью можно найти здесь.

4 ключевых процесса в моделировании машинного обучения

Теперь давайте углубимся в четыре основных процесса моделирования ML.

Обучение

Это процесс подгонки алгоритмов машинного обучения к данным для изучения закономерностей, результатом которого является создание модели. Кроме того, на выбор алгоритма может повлиять требование времени обучения, основанное на доступной вычислительной мощности.

Процесс обучения обычно проводится для базовой модели в качестве эталона для проекта, прежде чем будут выполнены дальнейшие эксперименты. Базовая модель может быть простым алгоритмом, таким как линейная регрессия или алгоритм случайного леса с настройками по умолчанию. Выбор базовой модели во многом зависит от проблемы и опыта специалиста по обработке данных.

Большинство алгоритмов машинного обучения выполняют обучение с помощью метода fit.

Ниже приведены общие термины обучения:

Последовательное обучение.Этот тип обучения в основном выполняется на одном процессоре и широко используется для простых и средних учебных заданий.

Распределенное обучение. Здесь рабочая нагрузка для соответствия алгоритму разделяется и распределяется между несколькими мини-процессорами. Это называется параллельными вычислениями и помогает ускорить процесс. Более подробную информацию можно найти здесь".

Офлайн-обучение. В этом случае обучение периодически проводится на всех доступных данных, и модель развертывается в рабочей среде только в том случае, если ее производительность удовлетворительна.

Онлайн-обучение. Здесь веса и параметры модели постоянно обновляются в режиме реального времени по мере появления нового потока данных.

Подробное сравнение онлайн- и офлайн-обучения можно найти здесь.

Настройка

Это процесс выбора оптимального набора гиперпараметров, который дает наилучшую модель. Это самый трудоемкий процесс в моделировании машинного обучения, включающий создание нескольких моделей с разными наборами значений гиперпараметров. Для выбора наилучшей модели можно использовать соответствующие показатели, такие как среднеквадратическая ошибка (RMSE), средняя абсолютная ошибка (MAE) и точность.

Одной из распространенных ошибок, которых следует избегать во время настройки, является использование тестового набора для этого процесса. Скорее, для этой цели необходимо создать и использовать проверочный набор. Более того, для предотвращения переобучения необходимо использовать такие методы, как перекрестная проверка.

В python уже реализовано несколько простых в использовании модулей, которые можно использовать для оптимизации гиперпараметров, а именно GridSearchCV, RandomSearchCV и BayesSearchCV.

Прогноз

Как только лучшая модель выбрана, прогнозы делаются с использованием тестовых данных и других новых наборов данных без целевой переменной, предоставленной во входных данных для модели. Это также известно как вывод ML.

Оценка

Оценка модели — это процесс оценки прогностической эффективности модели машинного обучения. Основная идея заключается в количественной оценке качества прогнозов модели. Здесь могут использоваться те же метрики, которые использовались при оптимизации гиперпараметров, а также могут быть добавлены новые для целей представления результатов.

Более подробную информацию об оценке модели, включая общие метрики, используемые в моделировании ML, можно найти здесь.

Выводы

В этой статье мы рассмотрели четыре основных процесса моделирования машинного обучения: обучение, настройку, прогнозирование и оценку. При необходимости также были предоставлены некоторые полезные ссылки на ресурсы.

Надеюсь, вам понравилась эта статья, до следующего раза. Ваше здоровье!

Вы можете получить доступ к более информативным статьям от меня и других авторов, подписавшись на Medium по моей реферальной ссылке ниже, которая также поддерживает мои статьи. Спасибо!