Содержание:

  1. Бизнес-проблема
  2. Как проблема решается с помощью машинного обучения
  3. Источник данных
  4. Предварительная обработка данных
  5. Исследовательский анализ данных и его наблюдение.
  6. Существующий подход к проблеме
  7. Мой первый подход к решению проблемы
  8. Объяснение модели и фрагмента кода
  9. сравнение модели в табличном формате
  10. представление kaggle
  11. Заключительный конвейер проблемы
  12. Будущая работа
  13. Ссылка

1. Бизнес-проблема:

1.1 Введение:

Mercedes-Benz - первый производитель роскошных автомобилей, запатентовавший автомобиль в 1886 году. К ним относятся, например, ячейка безопасности пассажира с зоной деформации, подушка безопасности и интеллектуальные вспомогательные системы. Mercedes-Benz подает почти 2000 патентов в год, что делает бренд европейским лидером среди производителей автомобилей премиум-класса. Автомобили Mercedes-Benz, выпускаемые Daimler, являются лидерами в автомобильной промышленности премиум-класса. Благодаря огромному выбору функций и опций клиенты могут выбрать индивидуализированный Mercedes-Benz своей мечты. .

Чтобы гарантировать безопасность и надежность каждой уникальной конфигурации автомобиля, прежде чем он отправится в путь, инженеры Daimler разработали надежную систему испытаний. Но оптимизация скорости их системы тестирования для такого количества возможных комбинаций функций является сложной и трудоемкой задачей без мощного алгоритмического подхода. Как один из крупнейших мировых производителей автомобилей премиум-класса, на производственных линиях Daimler первостепенное значение имеют безопасность и эффективность.

1.2 Обзор проекта:

  1. В автомобильной промышленности есть отдел испытаний, в котором каждый автомобиль, выходящий из серийного производства, производится. Безопасность и надежные испытания - важнейшая часть процесса производства автомобилей.

2. Автомобильная промышленность «Мерседес-Бенц» ежедневно производит огромные количества автомобилей и отправляет их в испытательный отдел, что является заключительным этапом производства. Каждая возможная комбинация транспортных средств должна пройти испытательный стенд, чтобы убедиться, что транспортное средство достаточно прочное, чтобы обеспечивать безопасность пассажиров и выдерживать ежедневное использование. Чем больше тестов, тем больше времени будет потрачено на испытательном стенде, увеличиваются затраты компании и вырабатывается углекислый газ, загрязняющий парниковый газ.

1.3 Цель проекта:

Основная цель этого проекта - оптимизировать / сократить время испытаний каждого серийного автомобиля, попадающего на испытательный стенд. Благодаря этой оптимизации он, безусловно, снижает выбросы углекислого газа, связанные с процедурой тестирования.

2. Как проблема решается с помощью машинного обучения:

Вышеупомянутую проблему можно решить с помощью методов классического машинного обучения, чтобы спрогнозировать время (целевая переменная), которое автомобиль проведет на испытательном стенде в секундах, в зависимости от конфигурации автомобиля (независимые функции).

  1. Этот тип проблемы представляет собой проблему контролируемого обучения, когда модель может учиться на помеченных данных.
  2. Это пример задачи регрессии машинного обучения, поэтому прогноз результата будет в непрерывной целевой переменной (длительность испытательного стенда).

2.1 Показатели эффективности:

В конкурсе предлагается использовать R² (коэффициент детерминации) для оценки производительности модели.

R² (коэффициент детерминации) - это статистическая мера, которая представляет собой долю дисперсии для зависимой переменной, которая объясняется независимой переменной или переменными в регрессионной модели.

3. Источник данных:

Индустрия Mercedes-Benz разместила свою проблему на платформе Kaggle, данные предоставлены в формате CSV. Ниже приведена ссылка для загрузки наборов данных.

Ссылка: https://www.kaggle.com/c/mercedes-benz-greener-manufacturing



3.1 Обзор данных:

Данные представлены в двух форматах файлов CSV, таких как train.csv и test.csv.

Объяснение наборов данных train.csv,

  1. Всего насчитывается около 377 функций, представленных как x0, x1, x2… .x386, и каждая функция является анонимной, поскольку физически не представлена, как параметры конфигурации, такие как настройка подвески, адаптивный круиз-контроль, полный привод, вместе определяют модель автомобиля.
  2. Общие функции состоят из двух форматов

а. Категориальные особенности.

б. Числовые двоичные признаки.

c. Столбцы идентификатора продукта (уникальная конфигурация идентификатора транспортного средства).

3. Выходная переменная «y» представляет время, необходимое для фазы тестирования каждого транспортного средства в секундах.

4. Предварительная обработка данных:

4.1 Загрузите наборы данных о поездах.

Здесь загружаются данные поезда, где они содержат категориальные и числовые двоичные характеристики соответствующего идентификатора продукта, а их соответствующая целевая переменная «y» представлена ​​в секундах.

4.2 Статистическое описание функций идентификации и целевых функций:

4.3. Как проверить, содержат ли наборы данных поезда значения NaN:

  1. В приведенных выше наборах данных не было значений NaN для всех функций.
  2. Таким образом, каждый столбец заполнен двоичным числом и категорией.

4.4 Проверка наличия повторяющегося идентификатора в наборах данных:

  1. В приведенных выше наборах данных нет повторяющихся идентификаторов.
  2. поэтому в наборах данных предоставляются уникальные категории идентификаторов транспортных средств.

4.5 Как определить количество двоичных числовых и категориальных функций:

вывод:

Из приведенного выше анализа мы можем сделать вывод, что в наборах данных он имеет 368 числовых двоичных признаков и 8 категориальных признаков.

5. Исследовательский анализ данных и его наблюдение:

Прежде чем решать проблему с помощью машинного обучения, сначала необходимо понять данные, что является важным подходом, который называется исследовательским анализом данных. Это обеспечивает статистическую характеристику и поведение распределения данных, а также дает представление о данных.

Здесь мы исследуем данные и визуализируем распределение на три части.

Часть 1

  1. Категориальные признаки (анализ)
  2. Категориальные признаки (визуализация)

Часть 2

  1. Числовые двоичные функции (анализ)
  2. Числовые двоичные функции (визуализация)

Часть 3.

  1. Целевой выход «y» (анализ)
  2. Целевой выход «y» (визуализация)

5.1 Часть 1 (Анализ и визуализация категориальных функций):

Поскольку он предоставил 8 категориальных функций, мы провели некоторый анализ категориальных данных и построили график частоты каждой уникальной категории в каждой категориальной функции, а также построили уникальную выходную переменную VS категории «y», используя прямоугольную диаграмму, график скрипки и диаграмму рассеяния. .

5.1.1 Анализ категориальных данных:

Здесь мы проанализировали частоту каждой уникальной категории, присутствующей в каждой категориальной характеристике, а также находим верхнюю категорию на основе ее частоты встречаемости в каждой категориальной характеристике.

5.1.2 Визуализация категориальных данных:

График количества столбцов для всех 8 категориальных переменных:

Наблюдение за графиком выше:

  1. Приведенные выше графики показывают, что количество каждой категории присутствует в каждой категориальной функции.
  2. Этот график дает больше интуиции относительно того, какая категория имеет высокий диапазон, а какая - низкий.
  3. Из приведенного выше графика видно, что особенности X4 имеют меньшую вариативность.

категориальный признак 1: "X0"

Наблюдение за графиком выше:

  1. На приведенном выше графике показано, как соответствующая категория распределяется с выходной переменной.
  2. Ось X представляет категории, а ось Y представляет выходную переменную.
  3. На приведенном выше графике категория «y» (точка данных, находящаяся далеко от нормально распределенной этой категории) может рассматриваться как выброс.

категориальный признак 2: "X1"

Наблюдение за графиком выше:

На приведенном выше графике категория «r» (точка данных, находящаяся далеко от нормально распределенной этой категории) может рассматриваться как выброс.

категориальный признак 3: «X2»

Наблюдение за графиком выше:

На приведенном выше графике категорию «ai» (точка данных, находящаяся далеко от нормально распределенной этой категории) можно рассматривать как выброс.

категориальный признак 4: "X3"

Наблюдение за графиком выше:

  1. На приведенном выше графике показано, что каждая категория распределена равномерно и перекрывается друг с другом.
  2. Большинство категорий лежит в диапазоне от 85 до 120 значений выходной переменной.
  3. Но в категории «f» категория (точка данных, находящаяся далеко от нормально распределенной в этой категории) может рассматриваться как выброс.

категориальный признак 5: «X4»

Наблюдение за графиком выше:

  1. На графике выше показана категория «d», распределенная в диапазоне значений от 90 до 110.
  2. Категории «b» и «c» присутствуют всего в нескольких числах и в основном находятся на уровне 120 и 130 выходных значений соответственно.

категориальный признак 6: «X5»

Наблюдение за графиком выше:

  1. Приведенный выше график представляет большинство категориальных значений, распределенных в диапазоне от 85 до 120 выходных значений.
  2. Эти функции показывают, что большинство функций происходит и равномерно распределено, и он может наблюдать некоторые из функций, которые присутствуют в небольшом количестве.

категориальный признак 7: «X6»

Наблюдение за графиком выше:

  1. График, который представляет большую часть кривой PDF категории, находится в диапазоне от 75 до 125 выходных переменных «y».
  2. Мы можем наблюдать, что категория «i» сильно искажена и показывает, что эта категория имеет выброс в отношении выходной переменной y.

категориальный признак 8: «X8»

Наблюдения за графиком выше:

  1. Приведенный выше график показывает, что все категориальные значения представлены равномерно, и почти кривая PDF лежит в диапазоне от 75 до 125 значений выходных переменных «y».
  2. Мы можем наблюдать, что категория «t» сильно искажена и показывает, что эта категория имеет выброс в отношении выходной переменной y.

5.2 Часть 2 (Анализ и визуализация числовой двоичной переменной):

Поскольку он имеет 368 числовых двоичных функций, выполняется некоторый анализ того, как двоичные функции распределяются в каждой функции, а также строится график подсчета столбцов.

5.2.1 Анализ числовых двоичных данных:

Здесь анализируется распределение двоичных данных по каждой числовой двоичной функции.

вывод:

Из приведенного выше анализа мы можем сделать вывод, что 12 числовых двоичных функций имеют одинаковое количество категориальных значений во всем столбце.

5.3 Часть 3 (Анализ и визуализация выходной целевой переменной y):

Здесь проблема - это задача регрессии, выходная переменная которой будет иметь непрерывные числовые значения. мы выполнили анализ гистограммы, PDF и CDF того, как распределяется целевая переменная, а также визуализировать распределение.

5.3.1 Анализ целевых выходных данных:

Приведенный выше код описывает статистическую характеристику выходной переменной.

5.3.2 Визуализация целевых выходных данных:

диаграмма рассеяния:

Наблюдение за графиком выше:

  1. Приведенный выше график представляет собой точечную диаграмму, на которой ось x содержит индекс точки данных, а ось y - выходную переменную.
  2. Из этого графика можно сделать вывод, что наибольшее значение выходной переменной (время, затрачиваемое на испытательном стенде) находится в диапазоне от 80 до 120 секунд во времени.

График функции плотности вероятности выходной переменной:

Наблюдение за графиком выше:

  1. Приведенный выше график представляет собой PDF-распределение выходной переменной, показывающее рост двух пиковых кривых.
  2. Кривая PDF сильно перекошена справа, это показывает, что несколько значений лежат больше, чем значение 250.

График функции совокупной плотности выходной переменной:

Наблюдение за графиком выше:

  1. Отсюда можно сделать вывод, что 95% выходной переменной лежит меньше 120.
  2. И очень немногие выходы выходят за пределы диапазона 150.

5.4 Заключение исследовательского анализа данных:

  1. Из приведенного выше анализа мы можем сделать вывод, что в наборах данных есть выброс и некоторые числовые двоичные функции, которые содержат одинаковые значения во всем столбце.
  2. Удалив вышеупомянутые выбросы и признаки нулевой дисперсии, мы можем улучшить производительность модели.

6. Существующий подход к проблеме:

Решение 1.

Https://medium.com/@williamkoehrsen/capstone-project-mercedes-be nz-экологическое-производственное-соревнование-4798153e2476

О проблемном подходе Уильяма Кехрсена: здесь вышеупомянутая проблема, которую он решил с помощью архитектуры ниже модели,

Модель, к которой он подходит, представляет собой комбинацию модели стекирования и модели xgboost. Модель стека состоит из линейной регрессии с упругой сетчатой ​​регуляризацией и дополнительного леса с множеством деревьев. С другой стороны, метод ансамбля под названием Extreme Gradient Boosting. На верхнем уровне окончательная модель принимает среднее значение прогноза каждой промежуточной модели. Во время обучения предварительно обработанные данные будут переданы в обе промежуточные модели. Модель Extreme Gradient будет изучать пороговые значения для каждого листа в лесу деревьев решений во время обучения. Сложенная модель сначала будет передавать данные обучения через линейную регрессию, где модель будет изучать параметры (взвешивание) для применения к каждой функции, затем линейная регрессия сделает прогноз для каждой точки обучения и передаст его в качестве входных данных в Extra Лес деревьев вместе с известными целевыми значениями. Регрессор Extra Trees аналогичным образом сформирует свой собственный лес деревьев решений с пороговыми значениями для каждого разбиения, определенными во время обучения. При тестировании каждый новый экземпляр будет передаваться обеим промежуточным моделям. В случае составной модели прогноз будет сделан с помощью линейной регрессии, а затем регрессор дополнительных деревьев сделает прогноз на основе выходных данных линейной регрессии. Модель Gradient Boosting будет генерировать свой собственный прогноз. Тогда общий прогноз будет средним по двум промежуточным моделям.

В результате реализации этой модели он получил конечный результат:

Решение 2:



Вот как манодж подходит к проблеме,

Согласно его разработке функций, он использовал T-SVD и PCA, чтобы уменьшить размерность. Он сделал три набора данных

  1. Категориальное кодирование с горячим кодированием

2. Метка закодированная категориальная

3. Целевая закодированная категориальная

Он выдвинул предположение, что многие ядра kaggle используют функции Id как важные, принимая это во внимание, он провел T-тест, чтобы выяснить, истинно это или нет. Для этого он взял оценку перекрестной проверки в 250 раз (5 раз, 50 повторений), чтобы получить оценку модели, которую он обучал с использованием идентификатора и без оценки идентификатора.

Сюжет, который он получил в результате перекрестной проверки, с функциями идентификатора и без функций идентификатора.

График показывает, что оценки соответствуют гауссовскому распределению. Он применил модуль scipy.stats.ttest_rel для подачи входных данных, как указанная выше модель, и вычислил значения p и альфа-значения, принятые как 0,05, если значения p меньше

Здесь я узнал, важны ли эксперименты с функциями Id. Судя по его заключению, функция ID важна для прогнозирования выходной переменной.

7. Мой первый подход к решению указанной выше проблемы:

В соответствии с разработкой функций я выполнил три метода,

Метод 1: уменьшение размеров с помощью PCA.

Метод 2: Анализ функций и добавление новых интерактивных функций.

Метод 3: выбор основных характеристик в методе 2 с помощью SelectKBest.

Метод 1. Уменьшение размеров с помощью PCA.

Здесь категориальные функции выполняются в трех типах кодирования с отдельными наборами данных.

  1. Кодировка метки
  2. Частотное кодирование
  3. Среднее кодирование

Основное внимание в этом методе уделяется выбору того, какое категориальное кодирование работает лучше и дает хорошие результаты путем обучения с использованием базовой модели.

В трех вышеупомянутых наборах данных в каждом из них применялось уменьшение размеров с использованием метода PCA.

Чтобы выбрать n_components основных характеристик в PCA для каждого набора данных кодирования, я построил кумулятивный график с порогом 0,95. Из графика мы можем выбрать количество основных компонентов, которые достигают порога 0,95.

  1. Совокупный график кодирования меток

Установив Порог 0,95, мы можем заметить, что 150 основных компонентов могут объяснить 95-процентную дисперсию во всех характеристиках наборов данных.

2. Накопительный график частотного кодирования

Установив порог 0,95, мы можем заметить, что 151 основной компонент может объяснить 95-процентную дисперсию всех характеристик наборов данных.

3. Накопительный график среднего кодирования

Установив порог 0,95, мы можем заметить, что 149 основных компонентов могут объяснить 95-процентную дисперсию всех характеристик наборов данных.

Следовательно, три набора данных применяются к простой базовой регрессионной модели, чтобы проверить, какая кодировка работает лучше и дает хорошие результаты.

Результаты:

Из приведенных выше результатов для каждого набора данных кодирования среднее кодирование работает хорошо и дает хорошие оценки по сравнению с другими функциями кодирования.

Метод 2: анализ функций и добавление новых интерактивных функций.

Из вышеупомянутого метода среднее кодирование выбирается на основе хорошей оценки базовой модели при сравнении с другим кодированием.

В этом соревновании Daimler предлагает Kagglers преодолеть проклятие размерности.

Увеличение размерности данных приводит к разреженности данных, и это экспоненциальное увеличение является следствием модели того, что называется проклятием размерности.

Помня об этом, я провел некоторый анализ, чтобы уменьшить малоинформативные функции и добавить некоторые новые функции, чтобы способствовать более точному прогнозированию модели.

  1. Удаление признаков, которые имеют меньшую вариативность. При установке порога 0,01, при котором соответствующая дисперсия характеристик меньше этого порогового значения удаляется из наборов данных.

вывод:

Таким образом, из описанного выше процесса 136 признаков принадлежат к дисперсии менее 0,01. Эти функции удалены из наборов данных.

2. Удаление повторяющихся объектов, которые коррелируют между собой, равны единице. За счет удаления этого упрощается размер модели.

вывод:

Из вышеупомянутого процесса 19 функций, которые дублируются и имеют корреляцию как одно целое. Таким образом, эти особенности удаляются из наборов данных.

3. Проверка того, какие функции сильно коррелированы с выходной переменной «y» по этим характеристикам, может сделать модель более важной при прогнозировании.

Следовательно, для выбора наиболее важных признаков корреляции применяется метод коэффициента корреляции Пирсона.

Коэффициент корреляции Пирсона показывает, насколько сильна связь между двумя переменными. Диапазон значений будет от 0 до 1.

где 0 означает отсутствие корреляции между двумя переменными, а 1 означает высокую корреляцию между двумя переменными.

вывод:

Приведенный выше результат представляет собой основные функции с высоким значением коэффициента корреляции.

Просматривая приведенный выше результат, мы можем комбинировать эти функции с двусторонним и трехсторонним взаимодействием, которое все еще может увеличивать значение корреляции между выходной переменной.

Функции двустороннего взаимодействия:

Две функции добавляются друг к другу, чтобы получить новые возможности двустороннего взаимодействия.

вывод:

Приведенный выше результат дает нам значения корреляции функций двустороннего взаимодействия, значение которых показывает, что они сильно коррелированы с выходной переменной.

Функции трехстороннего взаимодействия:

Между собой добавляются три функции, чтобы получить функции трехстороннего взаимодействия.

вывод:

Приведенный выше результат дает нам значения корреляции функций трехстороннего взаимодействия, значение которых показывает, что они сильно коррелированы с выходной переменной.

4. Удаление признаков, которые сильно коррелируют друг с другом. установка порогового значения 0,95. Объекты с коррелированными между собой объектами, которые пересекаются выше порогового значения, удаляются из наборов данных.

Из приведенного выше анализа в разработке функций мы применяем простую модель случайного леса для проверки важности функции.

вывод:

Результат и наблюдение:

Из приведенного выше важного графика мы можем заметить, что двусторонние и трехсторонние интерактивные функции вносят больший вклад в прогнозирование выходной переменной.

Таким образом, с помощью этого метода всего 377 функций исходных наборов данных, из которых 190 объектов удалены и добавлены 9 новых объектов.

Таким образом, окончательная форма наборов данных,

Метод 3: выбор основных характеристик в методе 2 с помощью SelectKBest.

С помощью метода 2 он получил 196 размерных элементов, и все еще может быть уменьшен размер, чтобы улучшить характеристики модели.

Используя метод SelectKbest, выбирая главные функции из 196 функций в методе 2.

SelectKbest - это статистические тесты, такие как F-тест, которые можно использовать для выбора тех функций, которые имеют наиболее сильную связь с выходной переменной.

Настройка для выбора основных функций из Selectkbest с использованием простой линейной регрессии.

вывод:

Здесь мы выполнили повторное сгибание для выбора основных функций. Из приведенного выше результата мы можем сделать вывод, что использование 146 основных функций дает хорошие результаты с помощью простой линейной регрессии.

Таким образом, окончательная форма наборов данных,

Наконец, выбраны 146 основных характеристик, которые применяются к различным регрессионным моделям.

Давайте проверим важность функции в selectkbest с помощью f-score.

вывод:

Из приведенного выше результата мы можем сделать вывод, что интерактивная функция имеет высокий показатель f_score.

Используя описанные выше методы, мы можем сказать, что интерактивные функции играют решающую роль в прогнозировании выходной переменной моделью.

8. Реализация модели:

Здесь мы использовали одну базовую модель и четыре ансамблевых модели.

  1. Лассо-регрессия
  2. Случайная лесная регрессия
  3. Экстра-древовидная регрессия
  4. Регрессия Xgboost
  5. Модель штабелирования

Объяснение каждой модели на основе выбора задачи.

1.Лассо-регрессия.

Регрессия лассо также называется моделью регуляризации L1, которая сводит неважные функции к нулю и полностью удаляет из них. Поскольку функции, предоставляемые Mercedes-Benz, анонимны, что физически не имеет смысла с большим числом размеров, поэтому многие нежелательные функции могут быть удалены с помощью эта модель.

Настройка гиперпараметров регрессии лассо с использованием перекрестной проверки поиска по сетке.

2. Регрессия случайного леса:

Поскольку Mercedes Benz имеет большое количество функций, в машинном обучении есть одно допущение: если у нас большое количество размеров, модель легко переоборудуется.

Следовательно, модель случайного леса, также называемая в ансамбле техникой бэггинга, использует выборку начальной загрузки без замены каждой выборки для обучения, что уменьшает дисперсию во время обучения и предотвращает переобучение.

Регрессия случайного леса Настройка гиперпараметров с использованием перекрестной проверки случайного поиска.

3. Экстра-древовидная регрессия:

В случайном лесу разработайте каждое дерево решений из начальной выборки обучающих наборов данных, тогда как алгоритм дополнительных деревьев соответствует каждому дереву решений для всех обучающих наборов данных.

Как и в случае с произвольным лесом, алгоритм дополнительных деревьев будет случайным образом выбирать функции в каждой точке разделения дерева решений. В отличие от случайного леса, который использует жадный алгоритм для выбора оптимальной точки разделения, алгоритм дополнительных деревьев выбирает точку разделения случайным образом.

Поскольку размер наборов данных, предоставляемых Mercedes Benz, невелик, около 4209 точек данных, обучение с использованием полных данных для каждого дерева решений не будет иметь высокой временной сложности.

Регрессия Extra-Tree Настройка гиперпараметров с использованием перекрестной проверки рандомизированного поиска.

4. Xgboost Regression:

Xgboost Regression - это усиление техники в ансамбле для уменьшения смещения при обучении модели.

Настройка гиперпараметров регрессии Xgboost с рандомизированным поиском cv

5. Модель штабелирования.

Наконец, мы складываем вышеупомянутую ансамблевую модель вместе, чтобы получить лучшие результаты. Здесь мы использовали мета-регрессор как модель Риджа в качестве окончательного предиктора.

Сложение модели регрессора случайного леса, модели регрессора с дополнительным деревом и модели регрессора XGB, а также здесь мета-регрессора как модели хребта.

9. сравнение модели в табличном формате:

Следовательно, различные модели, описанные выше, применяются ко всем методам проектирования функций.

Оценки каждой модели с соответствующими характеристиками представлены в табличном формате.

Из приведенной выше оценки каждой модели мы можем видеть, что модель стекирования работает хорошо и получает высокий личный балл по сравнению с другой моделью.

Исходя из заключения, можно сказать, что Техника 3 проектирования функций с использованием модели наложения может рассматриваться как лучшая модель.

9.1 Сохранение лучшей модели.

10. Представление Kaggle:

В соревновании частная таблица лидеров рассчитывается примерно на 81% тестовых данных.

Моя оценка за отправку:

В соревновании участвует около 4831 участник, моя оценка составляет 472, что ниже 10 процентилей.

11. Заключительный этап решения проблемы:

Здесь мы увидим изготовление модели,

На основе описанного выше процесса мы выбрали стековую модель метода 3 как лучшую модель, в процессе реального времени одна точка данных запроса со всей конфигурацией функций, предоставляемых Mercedes-Benz, отправляется в обученную модель, и необходимо спрогнозировать время тестирования. в сек.

Посмотрим, как это происходит.

  1. Выбор случайной точки данных из наборов тестовых данных, предоставленных Mercedes-Benz, с размером точки данных (1 * 377).
  2. Одна точка данных запроса отправляется на предварительную обработку, которая проверяет и заполняет нулевое значение, присутствующее в любых функциях.
  3. После предварительной обработки точка данных запроса, отправленная в Feature Engineering, получает желаемые функции для прогнозирования с помощью модели.
  4. Наконец, завершив весь процесс, точка данных запроса отправляется в обученную модель.

Вход:

Пункт запроса со всем возможным набором функций конфигурации автомобиля,

Вывод:

Обеспечивая весь набор функций конфигурации автомобиля, лучшая модель предсказывала время тестирования автомобиля как 97,5199 секунд.

12. Будущая работа

  1. Внедрение нейронной сети с определением правильных слоев и гиперпараметров позволит достичь хорошего результата в баллах.
  2. Выполнение некоторого алгоритма оптимизации, такого как байесовская оптимизация, для каждой модели позволит достичь хорошего результата в баллах.

13. Ссылки

  1. Https://analyticsweek.com/content/how-to-perform-feature-selection-for-regression-data/
  2. Https://blog.goodaudience.com/stacking-ml-algorithm-for-mercedes-benz-greener-manufacturing-competition-5600762186ae
  3. Https://medium.com/@williamkoehrsen/capstone-project-mercedes-benz-greener-manufacturing-competition-4798153e2476
  4. Https://www.kaggle.com/c/mercedes-benz-greener-manufacturing/discussion
  5. Https://www.appliedaicourse.com/

Свяжитесь со мной в Linked-In

Здесь ссылка на весь код вышеуказанной проблемы,