Конспект лекций FAU по распознаванию образов, CODEX

Как согласовать границу принятия решения с данными с помощью логистической функции

Логистическая регрессия - соответствие функции

Это конспекты лекции FAU на YouTube Распознавание образов. Это полная стенограмма видео лекции и соответствующие слайды. Исходники слайдов доступны здесь. Надеемся, вам понравится это не меньше, чем видео. Эта стенограмма была почти полностью сгенерирована машиной с использованием AutoBlog, и в нее были внесены лишь незначительные изменения вручную. Если вы заметили ошибки, сообщите нам об этом!

Навигация

Предыдущая глава / Посмотреть это видео / Следующая глава / Верхний уровень

Добро пожаловать обратно в распознавание образов! Сегодня мы хотим подробнее изучить функцию логарифмического правдоподобия логистической регрессии. Мы хотим изучить, как его оптимизировать и как найти фактическую конфигурацию параметров.

Итак, это наша максимизация функции логарифмического правдоподобия. Мы видели, что он вогнутый, что означает, что отрицательный элемент логарифмической функции правдоподобия является выпуклым. По этой причине мы можем использовать алгоритм Ньютона-Рафсона для решения этой задачи неограниченной оптимизации. Если вы хотите применить этот алгоритм, вы можете увидеть, что мы можем получать обновления параметров, просто начав с определенной начальной конфигурации для θ. Затем мы обновляем θ, так что предположим, что мы находимся на итерации k. Затем мы получаем обновленную версию θk + 1, вычисляя обратную матрицу Гессе нашей функции логарифмического правдоподобия, умноженную на градиент логарифмической функции правдоподобия относительно нашего вектора параметров θ. Итак, вы также можете записать это в матричной форме. Тогда вы, по сути, получите итерационную схему взвешенных наименьших квадратов. Теперь вопрос в том, как мы можем придумать такую ​​схему решения и как на самом деле определить этот гессиан и градиент функции правдоподобия.

Теперь давайте начнем обсуждать итерацию Ньютона-Рафсона. По сути, это мотивировано теоремой Тейлора, и, как вы все знаете, это способ аппроксимации k-кратно дифференцируемой функции f (x). Если у вас есть некоторая начальная точка x0, то приближение Тейлора говорит нам, что мы можем по существу аппроксимировать это, поскольку f (x0 + h) равно f (x0) плюс первая производная от x0, умноженная на h, плюс вторая производная функции в точке положение x0, умноженное на h, в степень 2, деленную на факториал 2. Вы можете видеть, что мы, по сути, можем продолжать это, пока не получим полный ряд Тейлора, который затем дойдет до k. Если мы вычислим предел h, стремящийся к нулю, вы увидите, что он будет в точности равен нулю, поэтому остающийся член ошибки также будет стремиться к нулю. Итак, чем ближе мы подойдем к исходному положению, тем ближе будет наше приближение. Теперь мы можем использовать это, чтобы найти стратегию оптимизации, в частности, мы хотим изучить полином второго порядка. В полиноме второго порядка мы останавливаем разложение двух членов. Итак, мы имеем f (x0) плюс f ‘(x0), умноженное на h, плюс 1, умноженное на 2, вторую производную от f (x0), умноженную на h квадрат. Теперь мы действительно заинтересованы в поиске h. Итак, мы можем взглянуть на это приближение и вычислить производную по h. Если мы это сделаем, вы увидите, что первый член сокращается, и теперь мы можем видеть, что h также исчезнет, ​​и квадрат h будет по существу преобразован в h.

Именно это мы и находим на следующем слайде. Итак, это производная от f, и вы можете выразить это как производную от f в позиции x0 плюс производная второго порядка функции в позиции x0, умноженная на h. Теперь мы хотим найти минимум этого, чтобы решить нашу стратегию. Итак, мы должны установить это значение на ноль. Теперь, если вы хотите установить это значение в ноль, вы можете увидеть, что мы можем переставить, вычитая f prime из левой части, что приводит нас к правой части со знаком минус. Мы делим на производную второго порядка, и это дает нам оценку нашего. теперь мы можем повторно использовать ĥ и найти наш x1., Sone, так что наша обновленная схема будет просто x0plus ĥ. Затем это можно записать как x0 минус первая производная функции в точке x0, разделенная на производную второго порядка функции в точке x0. Теперь, если вы переведете это в матричную запись, вы увидите, что правый член также может быть переписан как гессиан, обратный умножению на градиент функции. Итак, это и есть наша итерация Ньютона-Рафсона.

Давайте посмотрим на несколько примеров, в которых мы покажем, как это работает. Итак, в какой-то момент нам нужно выполнить инициализацию. Итак, давайте выберем эту точку для инициализации. Затем мы можем настроить наш квадратичный вид схемы решения, и схема квадратичного решения вернет эту функцию. Теперь мы определяем, что наши ĥ и ĥ будут именно здесь. Итак, это наше новое обновление. Затем мы проецируем это на исходную функцию. Вы можете видеть, что на следующем шаге мы можем снова произвести эту подгонку, снова определить нашу h-голову, и затем это постепенно приведет нас к минимуму функции. Вы можете видеть, хотя мы используем только приближение второго порядка, мы также сходимся к минимуму в функции, которая строится с помощью x в степени четырех. Итак, это схема, которую мы хотим использовать для поиска наших решений. Теперь нам все еще нужно изучить различные градиенты и гессиановую матрицу нашей проблемы.

Итак, давайте вспомним нашу функцию логарифмического правдоподобия, и теперь мы хотим вычислить производную логарифмической функции правдоподобия по нашему вектору параметров θ. Вы можете видеть здесь, что теперь нам нужно как-то решить эту проблему. Приятно то, что оператор производной является линейным. Таким образом, мы можем по сути это втянуть. Тогда вы можете увидеть, что первый член в сумме на самом деле является линейным и θ, поэтому θ сокращается. Итак, это будет только наша yi, умноженная на xi, j, где xi, j - соответствующая покомпонентная формулировка соответствующего вектора. Тогда нам также понадобится производная от логарифма сигмовидной функции, которую мы можем найти следующим образом. Итак, нам нужно использовать цепное правило логарифма, которое дает нам дробь. Тогда нам все еще нужна производная сигмоидной функции по θ, и теперь мы можем использовать свойство нашей сигмоидной функции. Вы можете видеть здесь, что тогда мы, по сути, получаем член g (θT xi), умноженный на 1, минус g (θT xi), умноженный на xi, j. По сути, это результат цепного правила и дифференциации здесь. Теперь мы видим, что этот член здесь дважды, один раз прямо в знаменателе и один раз в числителе. Итак, этот минус g (θT xi). Итак, это сокращается, и это приводит нас к производной нашей функции логарифмического правдоподобия, которая просто дается как сумма по всем нашим m выборкам. Затем нам просто нужно взять yi минус логистическая функция, умноженная на xi, j и xi, j - это j-й компонент i-го обучающего вектора.

Итак, это уже довольно простой градиент, и мы можем немного изменить его и вернуть к векторной нотации. Затем вы видите, что градиент логарифмической функции правдоподобия относительно θ может быть выражен просто как сумма сигмоидной функции с текущей конфигурацией параметра и выборкой, и это вычитается из yi и умножается на фактический вектор признаков. . Теперь мы хотим продолжить и также разобраться в сути этого. Итак, нам нужно снова вывести это относительно θ, чтобы построить производную второго порядка от функции логарифмического правдоподобия. Здесь вы можете видеть, что мы, по сути, должны вычислить производную производной, и вы видите, что у нас, по сути, снова есть сумма, оператор производной является линейным. Мы видим, что у нас есть производная по θ. Итак, по сути, наши термины, включающие yi и xi, будут сокращаться.

Это приводит нас к производной второго порядка или матрице Гесса. Здесь мы снова использовали производную сигмовидной функции. Мы видели, что член yi по существу сокращается, потому что это был постоянный член, и он больше не был связан с θ. Тогда это существенно помогает нам найти здесь матрицу Гессе. Так что это тоже довольно простая формулировка. Итак, вы видите, что с помощью последних двух наблюдений мы смогли найти схему итераций, которая была итерацией Ньютона-Рафсона. Для этого нам нужен градиент функции логарифмического правдоподобия и гессиан функции логарифмического правдоподобия. Вы видели, что здесь, в этом наборе слайдов, мы довольно элегантно вывели их за пару шагов.

Обратите внимание, что есть также отношение к перцептрону. Итак, перцептрон - это очень простой подход к созданию обучаемой системы. Персептрон - это, по сути, линейная комбинация некоторых входов, которая затем отображается через сигмоидальную функцию. Итак, вы можете видеть здесь, что если бы я выбрал перцептрон в многомерном пространстве, поэтому я снова использую этот трюк для отображения в более многомерное пространство, тогда мы можем повторно использовать перцептрон, чтобы найти границы линейного решения в этом пространство больших размеров. Итак, все, что мы здесь обсуждали, может быть отображено в перцептроне с функцией активации сигмовидной кишки.

Итак, вот несколько уроков, которые мы усвоили. Мы увидели, что апостериоры можно переписать с точки зрения логистической функции. Затем мы увидели, что граница решения F (x), равная 0, сразу же существенно связана с апостериорной. Итак, мы можем сопоставить их вместе с помощью логистической функции. Итак, по сути, если мы знаем границу решения, мы можем сразу же получить апостериорную вероятность. Кроме того, граница решения для нормально распределенных векторов признаков для каждого класса всегда является квадратичной функцией. В частном случае, когда у нас одинаковые ковариации, граница решения является даже линейной функцией. Итак, мы также видели это в последних двух видео. Так что это тоже очень полезное свойство.

Итак, в следующий раз мы хотим поговорить об очень простом подходе, как построить систему классификации. Он называется наивным байесовским классификатором, и у нас будет краткое введение в эту идею. Мы увидим, что этот наивный байесовский метод на самом деле является очень эффективным способом очень быстрого и очень эффективного нахождения правил классификации. хотя это очень грубое приближение.

Итак, у меня также есть для вас еще кое-что. Я могу только порекомендовать здесь «Элементы статистического обучения». Это действительно отличная книга, и если вы хотите узнать больше о логистической регрессии, есть еще эта замечательная книга «Прикладная логистическая регрессия».

У меня также есть пара всеобъемлющих вопросов, которые, скорее всего, вам пригодятся, когда вы захотите подготовиться к экзамену. Итак, это типичные вопросы, которые можно задать на экзамене, или вещи, которые вы должны уметь объяснить на экзамене. Итак, большое спасибо за внимание и с нетерпением жду встречи с вами в следующем видео. Пока-пока!

Если вам понравился этот пост, вы можете найти больше эссе здесь, больше образовательных материалов по машинному обучению здесь или взглянуть на нашу Лекцию Глубокое обучение. Я также был бы признателен за подписку на YouTube, Twitter, Facebook или LinkedIn, если вы хотите получать информацию о новых эссе, видео и исследованиях в будущем. Эта статья выпущена под лицензией Creative Commons 4.0 Attribution License и может быть перепечатана и изменена при наличии ссылки. Если вас интересует создание стенограмм видеолекций, попробуйте Автоблог.

Ссылки

  1. Тревор Хасти, Роберт Тибширани, Джером Фридман: Элементы статистического обучения - интеллектуальный анализ данных, вывод и прогнозирование, 2-е издание, Спрингер, Нью-Йорк, 2009.
  2. Дэвид В. Хосмер, Стэнли Лемешоу: прикладная логистическая регрессия, 2-е издание, John Wiley & Sons, Хобокен, 2000.