Опорная векторная регрессия

Вы когда-нибудь задумывались, что делать, если мы сталкиваемся с нелинейными линиями?? Можем ли мы выполнить методы регрессии по такой линии?? как-нибудь договориться??

Ну что ж, ответ просто стоит перед вами.

И это регрессия опорных векторов, регрессия дерева решений (если вы хотите узнать о регрессии дерева решений, нажмите здесь), случайный лес. Да, это методы регрессии, используемые для решения нашей проблемы, когда у нас есть нелинейное уравнение, а затем мы манипулируем этим нелинейным уравнением, которое формирует кривизну на графике.

следовательно, мы можем сказать, что всякий раз, когда мы работаем над нелинейной регрессией, прогнозируемая линия всегда будет кривой.

Сегодня мы углубимся в суть регрессии опорных векторов.

Прежде чем ступить на регрессию опорных векторов, мы должны понять, что такое SVM.

SVM — это контролируемый алгоритм машинного обучения. SVM, который представляет собой усеченную форму машины опорных векторов, является типом классификатора. Другими словами, SVM используется для выполнения классификации, прогнозирования дискретных и устаревших данных. SVM используется для классификации точек данных с помощью разделительной линии, также известной как «Гиперплоскость». Гиперплоскость делит точки данных на 2 группы.

SVR означает регрессию опорных векторов, которая представляет собой репрессор, выполняющий прогнозирование непрерывных и упорядоченных данных.

И SVR, и SVM — похожие алгоритмы, но разница заключается в предсказании разных типов переменных.

ПРИМЕЧАНИЕ. В простых методах регрессии, таких как линейная регрессия и другие, мы пытались максимально снизить частоту ошибок, но здесь, в SVR, мы сосредоточимся в основном на подгонке ошибки к определенную границу (порог) в надежде, что ошибка не выйдет за пределы определенной границы.

Важные термины

(1) Гиперплоскость: разделительная линия между классификацией данных. Между тем, в SVR эта линия помогает нам предсказать непрерывное значение или целевое значение.

(2) Ядро: - функция, цель которой состоит в том, чтобы построить (отобразить) данные более низкого измерения в соответствующие данные более высокого измерения.

(3) Опорный вектор: это точки данных, которые расположены ближе всего к границе. Другими словами, фактические данные рядом с установленной нами границей в любой из форм, которые мы визуализировали (будь то точка или что-то еще) на графике, называются опорными векторами. Расстояние точки от линии будет минимальным или наименьшим.

(4) Граничная линия: - За исключением гиперплоскости, в SVM все еще есть 2 линии, которые используются для создания полей. Опора может находиться как на граничной линии, так и за ее пределами. Эта пограничная линия разделяет 2 класса. Метод остается тем же для SVR. Также известна как граница решения.

Как выбрать порог??

Глядя на набор данных после разделения данных на 2 группы, мы смотрим на края обеих групп. Затем мы выбираем среднюю точку между ребрами в качестве нашего порога.

Кратчайшее расстояние между наблюдениями и порогом называется "Поля".

Когда мы используем порог, который дает нам наибольшую маржудля классификации, мы используем "классификатор максимальной маржи". Классификатор максимальной маржи очень чувствителен к выбросам в обучающих данных.

Примечание. Выбросы – это наблюдения, которые находятся на ненормальном расстоянии от других значений в случайной выборке (здесь обучающие данные).

поэтому, чтобы создать не слишком чувствительные, мы используем «Неправильная классификация». Неправильная классификация — это не что иное, как игнорирование наблюдений, которые вызывают нарушения в наборе данных.

Выбор порогового значения, допускающего неверную классификацию, является примером «компромисса смещения/дисперсии».

Итак, что такое компромисс смещения/дисперсии??

Смещение: –допущения, сделанные моделью, чтобы облегчить целевой функции аппроксимацию значений.

Дисперсия: сумма, на которую изменится оценка целевой функции с учетом различных обучающих данных.

Компромисс: противоречие между ошибкой, вызванной предвзятостью, и дисперсией.

Примечание. Когда мы допускаем неправильную классификацию, расстояние между наблюдениями и пороговым значением называется мягкой границей.

Мы используем перекрестную проверку, чтобы определить, сколько неправильных классификаций и наблюдений следует допустить внутри мягкого поля для получения наилучшей классификации.

что такое перекрестная проверка??

Перекрестная проверка – это метод, используемый для оценки результатов статистического анализа, обобщенных на независимый набор данных. Перекрестная проверка в основном используется в тех случаях, когда целью является прогнозирование и необходимо оценить точность работы прогностической модели.

Как работает регрессия опорных векторов?

До сих пор мы говорили в основном о машинах опорных векторов. Но с этого момента давайте углубимся в регрессию опорных векторов и ее математический аспект. При выполнении регрессии маржа устанавливается в прибл. к СВМ. Но наша основная идея всегда одна и та же: минимизировать ошибку, которая в дальнейшем приведет к максимизации маржи.

Что нам нужно найти??

(1) Нам нужна линия (гиперплоскость), которая разделяет 2 точки наблюдения.

(2) Гиперплоскость должна иметь максимальный запас

Давайте начнем нашу реализацию математически.

Рассмотрим гиперплоскость, которая оптимально разделяет синие и красные точки. Обращая внимание на приведенный ниже график, точки внутри гиперплоскости — это красные точки, а снаружи — синие точки. У нас есть точка (u), которая нам неизвестна, и мы должны решить, будет ли она частью красных или синих групповых точек.

Был нарисован вектор w, который перпендикулярен гиперплоскости, и вектор u, являющийся точечным вектором неизвестная точка (u). Векторы b и r — это выбранные ребра синего и красного наблюдений соответственно.

Примечание:- ( b ⃗ — r ⃗ ) не что иное, как расстояние между выбранными точками

ПРИМЕЧАНИЕ.Скалярное произведение векторов w и u будет решающим фактором, находится ли точка u среди синих или красных точек. Если скалярное произведение больше порога, то неизвестная точка (u) будет лежать с синими точками, иначе она будет среди красных точек.

Глядя на приведенные выше уравнения, давайте попробуем упростить ситуацию, подняв yв уравнение, чтобы два приведенных выше уравнения могли стать одним уравнением. Мы можем сказать, что y = +1 для синего и y = -1 для красного. Теперь мы умножаем y на приведенные выше уравнения, мы получаем следующее комбинированное уравнение.

Теперь найдем ширину поля.

Ширину можно легко вычислить скалярным произведением вектора w и b ⃗ — r ⃗.

Мы собираемся максимизировать, чтобы получить лучшие результаты от алгоритма. Чтобы максимизировать ширину, нам нужно минимизировать вектор w, что можно сделать с помощью

Множитель Лагранжа

Это тип метода оптимизации ограничений, позволяющий найти оптимальное значение любых параметров x и y. Мы хотим максимизировать маржу. Мы используем следующее уравнение. Проще говоря, наша цель состоит в том, чтобы отделить красные точки от синих как можно дальше.

И, в конце концов, мы получаем следующий результат после оценки приведенного выше уравнения с ограничениями (B) и шириной (R)

В уравнении 2 альфа обозначает множитель Лагранжа, а b представляет константу.

Чтобы максимизировать ширину, нам нужно доказать, что градиент L равен нулю. После вычисления градиента L мы получаем следующие уравнения

После подстановки значений, которые мы получили из уравнения 3 и уравнения 4, в уравнение 2, мы получаем наше окончательное уравнение как

Трюк с ядром

Глядя на наше итоговое уравнение, мы можем сказать, что получили максимальную маржу. Теперь единственное, что имеет значение, — это скалярное произведение парных точек. Точно так же, как мы получили уравнение 3 и уравнение 4, мы также получаем следующее уравнение

Значение u зависит от скалярного произведения с точкой. Мы можем расширить это и применить не только к двумерному пространству, но и к n измерениям. Это называется хитростью ядра.

Теоретически мы можем дать его объяснение как,

Чтобы сделать математику возможной, SVM использует функцию ядра для систематического поиска классификаторов опорных векторов (SVC)в более высоком измерении.

Дайте нам знать, как функция ядра находит SVC в более высоких измерениях.

Давайте рассмотрим пример типа ядра, известного как полиномиальное ядро,обычно используемое ядро, которое имеет параметр (d), обозначающий степень полинома.

Когда d = 1, полиномиальное ядро вычисляет отношение между каждой парой наблюдений в 1-измерении.

Точно так же, когда D = 2, мы получаем 2-мерный классификатор и так далее для n измерений.

В общем, полиномиальное ядро систематически увеличивает размерность, устанавливая значение d (степень полинома), и связь между каждой парой наблюдений используется для нахождения SVC.

Другими широко используемыми ядрами являются радиальное ядро , также известное какрадиальная базисная функция (RBF).

Ядро РБФ находит КА в бесконечных измерениях.

ПРИМЕЧАНИЕ:-

Функция ядра вычисляет отношение только между парой точек, как если бы они находились в более высоких измерениях. Они не выполняют никаких преобразований. Этот прием расчета многомерных отношений без фактического преобразования данных в более высокие измерения называется трюком ядра.

Трюк с ядром уменьшает объем вычислений, необходимых для SVM, избегая математики, которая выполняет преобразование данных из младших измерений в большие, и вычисляет взаимосвязь в бесконечном измерении. возможно, используется ядром Radial.

Есть много ядер, кроме радиального ядра, полиномиального ядра.

Давайте теперь используем реализацию Python

Это все, что у нас есть на сегодня в сегодняшней теме SVR от вашего дружелюбного соседа-ИИ, скоро увидимся с новой новой статьей.

До встречи.

Опорная векторная регрессия

Важные термины

Как выбрать порог??

Как работает регрессия опорных векторов?

Вопросы по теме