1. Сбор данных

Сбор данных — это процесс сбора информации и данных из различных источников. Важно убедиться, что данные точны, актуальны и репрезентативны для изучаемой совокупности или явления. Иначе мусор на входе, мусор на выходе.

2. Подготовка данных

Подготовка данных, (предварительная) обработка данных — это процесс очистки, преобразования и организации данных перед анализом. Этот шаг имеет решающее значение для обеспечения того, чтобы данные были в подходящем для анализа формате, а результаты были точными и надежными.

Этот процесс в основном проводится следующими шагами

  • EDA — процессы исследовательского анализа данных.
  • Разделение данных (80 % / 20 %)

3. Обработка данных

Процесс включает в себя сбор необработанных данных, их очистку и преобразование в структурированный формат, а затем их анализ для извлечения информации и принятия обоснованных решений. Два важных шага, применяемые в рамках этой процедуры разработки признаков:

  • Извлечение функций — это объединение нескольких функций для получения хотя бы одной функции.
  • выбор функций исключает функции в соответствии с их полезностью для достижения целевой ценности.

4. Моделирование

Моделирование в машинном обучении относится к процессу построения математического или статистического представления реальной проблемы или системы с использованием алгоритмов и данных. Цель моделирования — создать прогностическую модель, которую можно использовать для получения точных прогнозов или решений на основе новых входных данных. В рамках этого процесса следует несколько важных шагов:

  • Обучение модели (обучающие данные (80%)): это включает использование набора данных для обучения алгоритма машинного обучения для создания прогностической модели, которая может делать точные прогнозы на основе новых данных.

Алгоритм машинного обучения обучается на 80% реальных данных, после чего модель тестируется на оставшихся 20% данных. Этот процесс важен для прогнозирования, поэтому важно помнить, что данные тестирования и обучения следует разделять до тех пор, пока обучение не будет завершено, иначе произойдет утечка данных. Этот шаг

5. Оценка модели

Это включает в себя проверку точности и производительности модели на отдельном наборе данных, чтобы убедиться, что она является обобщаемой и не подходит для обучающих данных.

Сравниваются результаты обучения и данные тестирования. Сравнение двух результатов дает другое решение относительно модели. Например, модель может иметь недостаточное соответствие или переоснащение или хорошее соответствие.

Метрики ошибок в машинном обучении используются для измерения производительности прогностической модели путем сравнения прогнозируемого результата с фактическим результатом. Цель метрик ошибок состоит в том, чтобы количественно оценить, насколько хорошо модель способна делать точные прогнозы на основе новых входных данных.

Если в модели есть переобучение, перекрестная проверка предпочтительнее. Перекрестная проверка выполняется путем повторного (разделения данных) тестовых данных и перегруппировки обучающих данных. Применяется не менее 5 раз перекрестной проверки. Модель проверяется с использованием в основном R² и RMSE.

6. Настройка гиперпараметров

Настройка гиперпараметров — важный шаг в машинном обучении, поскольку он может значительно повысить производительность модели и сделать ее более эффективной для предполагаемого варианта использования. Однако важно избегать чрезмерной подгонки гиперпараметров к набору данных проверки, так как это может привести к плохой производительности обобщения новых данных.

Регуляризация L1 и L2 — это методы, используемые для предотвращения переобучения в моделях машинного обучения. Как L1, так и L2 регуляризация добавляют штрафной член к функции стоимости, которую оптимизирует модель. Штрафной член побуждает модель выбирать более простые модели за счет уменьшения величины весов модели. Поиск по сетке — важный метод машинного обучения для выбора оптимального набора гиперпараметров соответственно.

7. Прогноз

Точность прогнозов, сделанных моделью машинного обучения, зависит от качества обучающих данных, архитектуры и гиперпараметров модели, а также сходства входных данных с обучающими данными. Важно оценить производительность модели на отдельном наборе данных проверки, чтобы убедиться, что она хорошо обобщается на новые данные.