Проверка выпуклости функции

Любопытный случай выпуклых функций.

Углубленное понимание выпуклых функций и способов проверки выпуклости.

  • Большая часть онлайн-литературы по введению в машинное обучение начинается с описания алгоритма линейной регрессии.
  • Обычно алгоритм линейной регрессии подробно описывается с использованием среднеквадратичной ошибки (MSE) в качестве функции потерь.
  • MSE - выпуклая функция. Свойство выпуклости открывает решающее преимущество, когда локальные минимумы также являются глобальными минимумами.
  • Это гарантирует, что модель может быть обучена таким образом, чтобы функция потерь была минимизирована до глобального минимального значения.
  • Однако доказательство выпуклости MSE (или любой другой функции потерь) обычно выходит за рамки.
  • В этом сообщении блога мы рассмотрим концепции, необходимые для доказательства выпуклости функции.

  • Так что держитесь крепче, и к концу этой статьи вы лучше поймете:
  1. Квадратные и симметричные матрицы.
  2. Матрицы Гессе.
  3. Доказательство / Проверка выпуклости функций.
  4. Положительные и отрицательно определенные / полуопределенные матрицы.

Без лишних слов, давайте перейдем к делу.

Основы матриц -

Мы коснемся основы некоторых основных понятий в Матрицах, которые помогут нам в доказательстве выпуклости функции. Эти основы обычно изучаются на курсах бакалавриата и должны быть вам знакомы.

Квадратная матрица -

Для матрицы X размеров m × n, X является квадратной матрицей тогда и только тогда (если и только если) m = n. Другими словами, матрица X называется квадратной матрицей, если количество строк матрицы равно количеству столбцов.

В приведенном выше примере, поскольку количество строк (m) = количеству столбцов (n), X можно назвать квадратной матрицей.

Симметричная матрица -

квадратная матрица X называется симметричной, если xᵢⱼ = xⱼᵢ ∀ i и j, где i, j обозначают i-ю строку и j-й столбец соответственно. Другими словами, матрица X является симметричной, если транспонированная матрица X равна матрице X.

Матрица Гессе

Гессиан функции многих переменных f (x₁, x₂,… xₙ) - это способ организации частных производных второго порядка в виде матрицы.

Рассмотрим многомерную функцию f (x₁, x₂,… xₙ), тогда ее гессиан можно определить следующим образом:

Обратите внимание, что матрица Гессе по определению является квадратной и симметричной матрицей.

Доказательство / Проверка выпуклости функции -

Со всеми соответствующими основами, изложенными в предыдущих разделах, теперь мы готовы определить проверки для определения выпуклости функций.

Функция f (x), определенная над n переменными на открытом выпуклом множестве S, может быть проверена на выпуклость с использованием следующих критериев:

Если Xᴴ - матрица Гессе функции f (x), то -

  • f (x) является строго выпуклым в S, если Xᴴ является положительно определенной матрицей.
  • f (x) является выпуклым в S, если Xᴴ - положительная полуопределенная матрица.
  • f (x) строго вогнутая в S, если Xᴴ - отрицательно определенная матрица.
  • f (x) является вогнутым в S, если Xᴴ - отрицательная полуопределенная матрица.

В следующем разделе давайте обсудим способы проверки определенности матрицы.

Положительно определенные и полуопределенные матрицы -

Возможно, вы встречали упоминания об этих матрицах в разных местах, но определение и способы доказательства определенности для многих остаются неуловимыми. Начнем с определения из учебника -

Квадратная матрица X размера n × n является положительно определенной, если aXa ›0 ∀ a ∈ ℝⁿ.

Сходным образом,

Квадратная матрица X размера n × n является положительной полуопределенной, если aᵀXa ≥ 0 ∀ a ∈ ℝⁿ.

Эту же логику можно легко распространить на отрицательно определенные и отрицательные полуопределенные матрицы.
Квадратная матрица X размера n × n является отрицательно определенной, если aᵀXa ‹0 ∀ a ∈ ℝⁿ.

И, наконец,
Квадратная матрица X размера n × n является отрицательной полуопределенной, если aᵀXa ≤ 0 ∀ a ∈ ℝⁿ.

  • Однако при проверке определенности матрицы проверка состояния каждого значения `a` определенно не является вариантом.
  • Так что давайте попробуем разбить это еще дальше.

Собственные значения и собственный вектор -

Мы знаем, что собственный вектор - это вектор, направление которого не меняется при применении к нему линейного преобразования.

Анализ

  • Легко видеть, что скалярное произведение a на aᵀ всегда будет положительным.
  • Возвращаясь к определению положительно определенной матрицы и уравнению (3), aᵀXa может быть больше нуля тогда и только тогда, когда λ больше нуля.

Производное определение для определенности матрицы -

Основываясь на указателях, упомянутых в приведенном выше анализе, мы можем настроить формальные определения определенности матрицы следующим образом:

  1. Симметричная матрица X положительно определена, если λᵢ ›0 ∀ i
  2. Симметричная матрица X является положительно полуопределенной, если λᵢ ≥ 0 ∀ i
  3. Симметричная матрица X отрицательно определена, если λᵢ ‹0 ∀ i
  4. Симметричная матрица X является отрицательно полуопределенной, если λᵢ ≤ 0 ∀ i

Альтернативное определение для определения определенности матрицы -

  1. Вычисление собственных значений для больших матриц часто включает решение линейных уравнений.
  2. Большие матрицы включают решение линейных уравнений с большим количеством переменных. Следовательно, не всегда возможно найти собственные значения.

На помощь приходит альтернативная теорема для определения определенности матриц -

Теоремы -

  1. Симметричная матрица X является положительно определенной, если Dₖ ›0 ∀ k, где Dₖ представляет k-е ведущее главное минор.
  2. Симметричная матрица X является положительно полуопределенной, если Dₖ ≥ 0 k, где Dₖ представляет k-й главный минор.
  3. Симметричная матрица X является отрицательно определенной, если Dₖ ‹0 ∀ k, где Dₖ представляет k-е ведущее главное минорное число.
  4. Симметричная матрица X является отрицательно полуопределенной, если Dₖ≤ 0 ∀ k, где Dₖ представляет k-й главный минор.

Основные несовершеннолетние в матрице -

  • Для квадратной матрицы X основная подматрица порядка k получается удалением любых (n-k) строк и соответствующих (n-k) столбцов.
  • Определитель такой главной подматрицы называется главным минором матрицы X.

Ведущие главные миноры матрицы -

  • Для квадратной матрицы X ведущая основная подматрица порядка k получается удалением последних (n-k) строк и соответствующих (n-k) столбцов.
  • Определитель такой ведущей главной подматрицы называется ведущей главной минорной матрицей X.

Проверка выпуклости квадратичной функции -

В этом разделе давайте попробуем применить все знания из этого блога и протестировать их.

Свойства выпуклых функций -

  • Постоянные функции вида f (x) = c бывают как выпуклыми, так и вогнутыми.
  • f (x) = x является как выпуклым, так и вогнутым.
  • Функции вида f (x) = xʳ при r ≥ 1 выпуклы на интервале 0 ‹x‹ ∞
  • Функции вида f (x) = xʳ с 0 ‹r‹ 1 вогнуты на интервале 0 ‹x‹ ∞
  • Функция f (x) = łog (x) вогнута на интервале 0 ‹x‹ ∞
  • Функция f (x) = eˣ всюду выпукла.
  • Если f (x) выпуклый, то g (x) = cf (x) также выпуклый для любого положительного значения c.
  • Если f (x) и g (x) выпуклые, то их сумма h (x) = f (x) + g (x) также выпукла.

Заключительные комментарии -

  • Мы глубоко исследовали выпуклые функции, изучая различные способы доказательства выпуклости.
  • В следующей статье мы докажем выпуклость функции потерь MSE, используемой в линейной регрессии.
  • Выпуклые функции легко минимизировать, что приводит к их использованию во всех областях исследования.
  • Итак, в следующий раз, когда вы захотите подключить другую функцию потерь вместо MSE при обучении модели линейной регрессии, вы также можете проверить ее выпуклость.

Давай поговорим:

Https://www.linkedin.com/in/pritish-sunil-jadhav-537075a4/