Классификация - это еще одна проблема регрессии

Логистическая регрессия и функция потерь

Навигация

Это конспекты лекции FAU на YouTube Распознавание образов. Это полная стенограмма видео лекции и соответствующие слайды. Исходники слайдов доступны здесь. Надеемся, вам понравится это не меньше, чем видео. Эта стенограмма была почти полностью сгенерирована машиной с использованием AutoBlog, и в нее были внесены лишь незначительные изменения вручную. Если вы заметили ошибки, сообщите нам об этом!

Ссылки

Предыдущая глава / Посмотреть это видео / Следующая глава / Верхний уровень

С возвращением в раздел "Распознавание образов"! Сегодня мы хотим немного подробнее рассмотреть логистическую регрессию. В частности, нас интересует, как оценить фактические параметры регрессии, границы принятия решений.

Сегодня мы подробнее рассмотрим логистическую регрессию. До сих пор мы видели, что наша f (x) была некоторой произвольной функцией. И мы видели, например, что это может быть сформулировано как квадратичная функция, как мы видели с распределениями Гаусса.

В общем, мы можем выразить f (x) как нелинейную функцию. Идея, которую мы хотим использовать сейчас, состоит в том, чтобы линеаризовать нашу оценку. Что мы сделаем, так это сопоставим нашу функцию с пространством более высоких измерений. Итак, если вы рассмотрите, например, квадратичную функцию, мы увидим, что мы можем выразить ее покомпонентно следующим образом. Мы знаем, что x - это вектор, состоящий из x₁ и x₂. A можно записать в терминах отдельных компонентов, и то же самое верно и для α. Если вы посмотрите на компонентную нотацию, вы увидите, что f (x) можно записать в компонентах. И мы видим, что компоненты, которые у нас есть, линейны. Таким образом, все компоненты A и α линейны в этом уравнении, а x и т. Д. Фигурируют в квадратичных и линейных членах. Это означает, что мы можем переписать это в функцию от x с некоторым x ′, где x ′ поднят до шестимерного пространства. Итак, x ′ теперь переписывается с (x₁, x₂) на x₁², x₁ x₂, x₂², x₁, x₂ и 1. Если мы это сделаем, то мы сможем переписать все уравнение во внутренний продукт наших параметров. И вектор параметров теперь a₁₁, a₁₂ + a₂₁, a₂₂, α₁, α₂ и α₀. Это своего рода интересное наблюдение, потому что оно позволяет нам преобразовать нашу нелинейную квадратичную функцию в линейную комбинацию, которая является линейной по параметрам, которые мы хотим оценить. Это довольно интересное наблюдение, потому что, если мы воспользуемся этим сейчас, мы сможем отобразить нелинейные функции в более высокую размерность. И в этой более высокой размерности мы по-прежнему линейны в отношении параметров.

Итак, теперь мы можем вспомнить нашу логистическую функцию. Мы видим, что если мы воспользуемся этим трюком, то сможем по существу взять нашу логистическую функцию и применить ее в этом многомерном пространстве параметров. Таким образом, нам не нужно касаться логистической функции. Все, что нам нужно сделать, это по существу отобразить ось в пространстве более высоких измерений. Но затем мы можем использовать вместо той версии, в которой мы использовали, f (x). Это может быть общая нелинейная функция, которую мы теперь можем заменить на наш вектор параметров θ. По сути, у нас есть θ ᵀx, которая является линейной границей решения, но в многомерном пространстве. И теперь мы можем использовать это и исследовать эту идею немного дальше.

Кроме того, мы хотим предположить, что апостериорные элементы заданы двумя классами. У нас есть класс y = 0 и y = 1. Если мы это сделаем, мы можем записать вероятности апостериорных функций как 1-g (θ ᵀx). g (θ ᵀx) - это то место, где мы, по сути, повторно используем нашу логистическую функцию или сигмовидную функцию. А сейчас нас интересует вектор параметров θ. Итак, каким-то образом мы должны оценить θ из набора m обучающих наблюдений. И вы помните, что здесь речь идет о контролируемом обучении. Итак, у нас есть некоторый набор S, который является нашим набором данных для обучения, и он содержит m выборок. Есть по существу связанные наблюдения, когда у нас есть несколько (x ₁, y₁) и более этих наборов до m. Теперь предпочтительным методом является оценка максимального правдоподобия. Если мы хотим использовать это, давайте немного рассмотрим формулировку того, как мы хотим писать апостериоры.

Мы можем переписать это как вероятность Бернулли. Вероятность y при заданном x можно переписать с помощью наших логистических функций. Итак, теперь мы используем логистическую функцию в степени y. Если мы в другом случае, то это будет 1 минус логистическая функция в степени 1-y. Вы помните, у нас было y по существу либо 0, либо 1. В этом конкретном выборе мы теперь можем видеть, что наша вероятность, в зависимости от того, какой класс мы имеем в основной истине, будет либо выбирать тот, либо другой. Потому что, если вы возьмете что-то в степени 0, тогда оно просто вернет 1, и соответствующий член будет отменен. Так что такие обозначения очень полезны.

Здесь вы можете увидеть, что отрицательное значение логарифмической функции правдоподобия вернет перекрестную энтропию y и логистическую функцию θ ᵀx. Также обратите внимание, что отрицательное значение логарифмической функции правдоподобия здесь является выпуклой функцией. Это очень хорошее свойство, и мы будем использовать его в дальнейшем.

В следующем видео мы поговорим о том, как найти точку оптимальности и как определить эти параметры. Итак, теперь мы увидели функцию логарифмического правдоподобия, поэтому мы увидели, какую задачу оптимизации мы хотим решить. Эта проблема оптимизации будет решена в следующем видео. Большое спасибо за внимание, и я с нетерпением жду встречи с вами в следующем видео!

Если вам понравился этот пост, вы можете найти «больше эссе здесь», больше образовательных материалов по машинному обучению «здесь» или взглянуть на нашу «Лекцию» «Глубокое обучение». Я также был бы признателен за подписку на «YouTube», «Twitter», «Facebook» или «LinkedIn», если вы хотите получать информацию о новых эссе, видео и исследованиях в будущем. Эта статья выпущена под лицензией «Creative Commons 4.0 Attribution License» и может быть перепечатана и изменена при наличии ссылки. Если вас интересует создание стенограмм видеолекций, попробуйте «Автоблог».

Т. Хасти, Р. Тибширани и Дж. Фридман: Элементы статистического обучения - интеллектуальный анализ данных, вывод и прогнозирование, 2-е издание, Спрингер, Нью-Йорк, 2009.

Теперь давайте посмотрим на функцию логарифмического правдоподобия. Мы можем записать функцию логарифма правдоподобия как логарифм нашей общей вероятности. Мы предполагаем, что все обучающие выборки взаимно независимы. Таким образом, мы можем просто записать это как произведение всех апостериорных вероятностей. Это отчасти полезно, потому что, если мы теперь применим логарифм, то мы увидим, что максимум этой функции не изменится, и, тем не менее, мы можем переформулировать его. Наш продукт превращается в сумму, а затем мы можем вытащить внутрь логарифм, который преобразует наш продукт в сумму. Затем мы видим, что это сумма по логарифмам, а в скобках мы видим определение нашей апостериорной вероятности. Это опять же формулировка, использующая вероятность Бернулли, как упоминалось ранее. Итак, здесь у нас есть эти термины с логистической функцией. Теперь мы можем продолжить и использовать свойство логарифма, при котором мы можем вытащить экспоненты перед логарифмом. Тогда мы, по сути, получаем наблюдение, что в этой строке все показатели были перенесены перед логарифмом. Кроме того, мы разбиваем два члена сигмовидной функции на сумму, потому что они были продуктом. Я всегда могу преобразовать произведение в пределах логарифма как сумму двух логарифмов, как мы это делали ранее. Это уже первый шаг к упрощению этого процесса. Но мы видим, что это можно еще упростить. На следующем этапе мы хотим использовать определение сигмовидной или логистической функции. Вы можете видеть, что левый член мы можем существенно переписать, используя экспоненциальную функцию. И вместо того, чтобы использовать обозначение со знаком минус, вы можете видеть, что мы уже расширили дробь в левой части, добавив экспоненциальный член также в числитель. Это подводит нас к форме обозначений, которые очень похожи на то, что мы видим во втором члене. Здесь у нас есть логистическая функция в формулировке 1-g (θ ᵀx ᵢ). Затем это можно переформулировать здесь, справа, как 1 на 1 плюс e в степени θ внутреннего произведения x ᵢ. Теперь вы понимаете, почему мы сделали адаптацию в левой части, теперь у них обоих одинаковый знаменатель. Теперь с этим мы можем еще больше упростить это. Теперь вы можете видеть, что в первом члене мы, по сути, видим, что у нас e в степени θ внутреннего продукта x ᵢ. Если я применю к этому логарифм, то останется только внутренний продукт yᵢ θ x ᵢ. В правой части у меня все еще есть некоторые термины, от которых я не мог избавиться. Но у нас все еще есть логистическая функция. Но вы можете увидеть, что, если я присмотрюсь, по сути, мы снова имеем ту же формулировку, что и раньше. Таким образом, мы можем переместить его обратно в логистическую функцию и получить логарифм 1 минус логистическая функция θ внутреннего продукта x ᵢ. Это уже упрощение, и теперь вы можете видеть, что с помощью этой конкретной функции логарифма правдоподобия у меня есть еще два наблюдения, на которые я хочу вам намекнуть.

Дэвид В. Хосмер, Стэнли Лемешоу: прикладная логистическая регрессия, 2-е издание, John Wiley & Sons, Хобокен, 2000.

Классификация - это еще одна проблема регрессии