Любопытный случай выпуклых функций.

Проверка выпуклости функции

Любопытный случай выпуклых функций.

Углубленное понимание выпуклых функций и способов проверки выпуклости.

Большая часть онлайн-литературы по введению в машинное обучение начинается с описания алгоритма линейной регрессии.
Обычно алгоритм линейной регрессии подробно описывается с использованием среднеквадратичной ошибки (MSE) в качестве функции потерь.
MSE - выпуклая функция. Свойство выпуклости открывает решающее преимущество, когда локальные минимумы также являются глобальными минимумами.
Это гарантирует, что модель может быть обучена таким образом, чтобы функция потерь была минимизирована до глобального минимального значения.
Однако доказательство выпуклости MSE (или любой другой функции потерь) обычно выходит за рамки.
В этом сообщении блога мы рассмотрим концепции, необходимые для доказательства выпуклости функции.

Так что держитесь крепче, и к концу этой статьи вы лучше поймете:

Квадратные и симметричные матрицы.
Матрицы Гессе.
Доказательство / Проверка выпуклости функций.
Положительные и отрицательно определенные / полуопределенные матрицы.

Без лишних слов, давайте перейдем к делу.

Основы матриц -

Мы коснемся основы некоторых основных понятий в Матрицах, которые помогут нам в доказательстве выпуклости функции. Эти основы обычно изучаются на курсах бакалавриата и должны быть вам знакомы.

Квадратная матрица -

Для матрицы X размеров m × n, X является квадратной матрицей тогда и только тогда (если и только если) m = n. Другими словами, матрица X называется квадратной матрицей, если количество строк матрицы равно количеству столбцов.

В приведенном выше примере, поскольку количество строк (m) = количеству столбцов (n), X можно назвать квадратной матрицей.

Симметричная матрица -

квадратная матрица X называется симметричной, если xᵢⱼ = xⱼᵢ ∀ i и j, где i, j обозначают i-ю строку и j-й столбец соответственно. Другими словами, матрица X является симметричной, если транспонированная матрица X равна матрице X.

Матрица Гессе

Гессиан функции многих переменных f (x₁, x₂,… xₙ) - это способ организации частных производных второго порядка в виде матрицы.

Рассмотрим многомерную функцию f (x₁, x₂,… xₙ), тогда ее гессиан можно определить следующим образом:

Обратите внимание, что матрица Гессе по определению является квадратной и симметричной матрицей.

Доказательство / Проверка выпуклости функции -

Со всеми соответствующими основами, изложенными в предыдущих разделах, теперь мы готовы определить проверки для определения выпуклости функций.

Функция f (x), определенная над n переменными на открытом выпуклом множестве S, может быть проверена на выпуклость с использованием следующих критериев:

Если Xᴴ - матрица Гессе функции f (x), то -

f (x) является строго выпуклым в S, если Xᴴ является положительно определенной матрицей.
f (x) является выпуклым в S, если Xᴴ - положительная полуопределенная матрица.
f (x) строго вогнутая в S, если Xᴴ - отрицательно определенная матрица.
f (x) является вогнутым в S, если Xᴴ - отрицательная полуопределенная матрица.

В следующем разделе давайте обсудим способы проверки определенности матрицы.

Положительно определенные и полуопределенные матрицы -

Возможно, вы встречали упоминания об этих матрицах в разных местах, но определение и способы доказательства определенности для многих остаются неуловимыми. Начнем с определения из учебника -

Квадратная матрица X размера n × n является положительно определенной, если aXa ›0 ∀ a ∈ ℝⁿ.

Сходным образом,

Квадратная матрица X размера n × n является положительной полуопределенной, если aᵀXa ≥ 0 ∀ a ∈ ℝⁿ.

Эту же логику можно легко распространить на отрицательно определенные и отрицательные полуопределенные матрицы.
Квадратная матрица X размера n × n является отрицательно определенной, если aᵀXa ‹0 ∀ a ∈ ℝⁿ.

И, наконец,
Квадратная матрица X размера n × n является отрицательной полуопределенной, если aᵀXa ≤ 0 ∀ a ∈ ℝⁿ.

Однако при проверке определенности матрицы проверка состояния каждого значения `a` определенно не является вариантом.
Так что давайте попробуем разбить это еще дальше.

Собственные значения и собственный вектор -

Мы знаем, что собственный вектор - это вектор, направление которого не меняется при применении к нему линейного преобразования.

Анализ

Легко видеть, что скалярное произведение a на aᵀ всегда будет положительным.
Возвращаясь к определению положительно определенной матрицы и уравнению (3), aᵀXa может быть больше нуля тогда и только тогда, когда λ больше нуля.

Производное определение для определенности матрицы -

Основываясь на указателях, упомянутых в приведенном выше анализе, мы можем настроить формальные определения определенности матрицы следующим образом:

Симметричная матрица X положительно определена, если λᵢ ›0 ∀ i
Симметричная матрица X является положительно полуопределенной, если λᵢ ≥ 0 ∀ i
Симметричная матрица X отрицательно определена, если λᵢ ‹0 ∀ i
Симметричная матрица X является отрицательно полуопределенной, если λᵢ ≤ 0 ∀ i

Альтернативное определение для определения определенности матрицы -

Вычисление собственных значений для больших матриц часто включает решение линейных уравнений.
Большие матрицы включают решение линейных уравнений с большим количеством переменных. Следовательно, не всегда возможно найти собственные значения.

На помощь приходит альтернативная теорема для определения определенности матриц -

Теоремы -

Симметричная матрица X является положительно определенной, если Dₖ ›0 ∀ k, где Dₖ представляет k-е ведущее главное минор.
Симметричная матрица X является положительно полуопределенной, если Dₖ ≥ 0 k, где Dₖ представляет k-й главный минор.
Симметричная матрица X является отрицательно определенной, если Dₖ ‹0 ∀ k, где Dₖ представляет k-е ведущее главное минорное число.
Симметричная матрица X является отрицательно полуопределенной, если Dₖ≤ 0 ∀ k, где Dₖ представляет k-й главный минор.

Основные несовершеннолетние в матрице -

Для квадратной матрицы X основная подматрица порядка k получается удалением любых (n-k) строк и соответствующих (n-k) столбцов.
Определитель такой главной подматрицы называется главным минором матрицы X.

Ведущие главные миноры матрицы -

Для квадратной матрицы X ведущая основная подматрица порядка k получается удалением последних (n-k) строк и соответствующих (n-k) столбцов.
Определитель такой ведущей главной подматрицы называется ведущей главной минорной матрицей X.

Проверка выпуклости квадратичной функции -

В этом разделе давайте попробуем применить все знания из этого блога и протестировать их.

Свойства выпуклых функций -

Постоянные функции вида f (x) = c бывают как выпуклыми, так и вогнутыми.
f (x) = x является как выпуклым, так и вогнутым.
Функции вида f (x) = xʳ при r ≥ 1 выпуклы на интервале 0 ‹x‹ ∞
Функции вида f (x) = xʳ с 0 ‹r‹ 1 вогнуты на интервале 0 ‹x‹ ∞
Функция f (x) = łog (x) вогнута на интервале 0 ‹x‹ ∞
Функция f (x) = eˣ всюду выпукла.
Если f (x) выпуклый, то g (x) = cf (x) также выпуклый для любого положительного значения c.
Если f (x) и g (x) выпуклые, то их сумма h (x) = f (x) + g (x) также выпукла.

Заключительные комментарии -

Мы глубоко исследовали выпуклые функции, изучая различные способы доказательства выпуклости.
В следующей статье мы докажем выпуклость функции потерь MSE, используемой в линейной регрессии.
Выпуклые функции легко минимизировать, что приводит к их использованию во всех областях исследования.
Итак, в следующий раз, когда вы захотите подключить другую функцию потерь вместо MSE при обучении модели линейной регрессии, вы также можете проверить ее выпуклость.

Давай поговорим:

Https://www.linkedin.com/in/pritish-sunil-jadhav-537075a4/

Любопытный случай выпуклых функций.

Проверка выпуклости функции