Демистификация функции стоимости в машинном обучении, линейная регрессия как пример

Согласно ScienceDaily, математическая модель предполагает использование математических языков для описания поведения системы. Эволюция машинного обучения (ML) еще больше укрепила эту цель, предоставив более интеллектуальные подходы для улучшения таких приложений, как прогнозирование и классификация. Функция стоимости имеет решающее значение для благоприятности ML; он предоставляет метод оптимизации модели для достижения совершенства.

В этой статье простой алгоритм под названием «Линейная регрессия» (LR) объяснит, как функция стоимости помогает в разработке и оптимизации модели. LR в основном используется для прогнозного анализа. Это означает, что разработанная модель будет иметь возможность предсказывать результаты новых данных.

Я использую набор данных с двумя (2) непрерывными переменными (езда на велосипеде и сердечные заболевания). Набор данных содержит 498 образцов, которые показывают взаимосвязь между ездой на велосипеде и сердечными заболеваниями, причем езда на велосипеде является зависимой переменной, а болезнь сердца — независимой переменной. Ниже приведена таблица 1.0, в которой показан обзор данных, а на рисунке 1 показана взаимосвязь между двумя параметрами. Из отрицательного наклона видно, что те, кто регулярно ездит на велосипеде, имеют меньшую склонность к развитию сердечных заболеваний.

Представление модели

Наша цель — разработать прогностическую модель на основе этих данных, а наша основная цель — пролить свет на то, как роль функции стоимости помогает в получении наилучшей модели. Поскольку у нас есть только одна независимая переменная, предполагается, что наша модель будет иметь следующий вид:

Наклон модели равен m, а точка пересечения — c. У нас есть наклон, чтобы быть отрицательным из-за отношения между переменными. Мы также можем использовать heart_disease (h(x)) в качестве гипотезы. Параметры (m и c) выбираются тщательно и разумно. Разница между предсказанными и точными значениями минимальна, т.е. h(x) — y минимально для каждой обучающей выборки. Чтобы обеспечить общую основу для всех точек данных, мы оцениваем сумму квадратов разницы между «гипотезированным» или прогнозируемым и ожидаемым результатом. Мы можем сделать это, потому что данные помечены. Объясняемая концепция - это то, что происходит, когда данные подаются для получения оптимальных результатов.

heart_disease(h(x))=-m*езда на велосипеде+c

m = количество обучающих выборок

I = индивидуальное значение независимых переменных

Итеративно система подвергает данные процессу, который обеспечивает выбор функции минимальной стоимости. Значения m и c, которые дают функцию наименьших затрат, окончательно принимаются в качестве репрезентативного значения для модели. Как показано на рисунке 1, наилучшее соответствие достигается при m = -0,1991 и c = 17,6988, что означает, что функция минимальной стоимости была получена при этих значениях, таким образом представляя модель.

Демистификация функции стоимости в машинном обучении, линейная регрессия как пример

Вопросы по теме