Конспект лекций FAU по распознаванию образов, CODEX

Будь простым, глупым - наивный байесовский классификатор

Сказки из мира с независимыми измерениями

Это конспекты лекции FAU на YouTube Распознавание образов. Это полная стенограмма видео лекции и соответствующие слайды. Исходники слайдов доступны здесь. Надеемся, вам понравится это не меньше, чем видео. Эта стенограмма была почти полностью сгенерирована машиной с использованием AutoBlog, и в нее были внесены лишь незначительные изменения вручную. Если вы заметили ошибки, сообщите нам об этом!

Навигация

Предыдущая глава / Посмотреть это видео / Следующая глава / Верхний уровень

Добро пожаловать обратно в распознавание образов! Сегодня мы хотим рассмотреть более простой метод классификации, который называется наивным байесовским классификатором.

Наивный байесовский классификатор использует несколько упрощающих допущений. Тем не менее, он широко используется и часто превосходит гораздо более продвинутые классификаторы. Может быть уместным при наличии крупногабаритных деталей. Итак, если у вас действительно большие измерения из-за проклятия размерности и редкости обучающих наблюдений, может иметь смысл упростить вашу модель с помощью Наивного Байеса. Иногда его даже называют идиотским байесовским. Итак, давайте рассмотрим проблему, которую он пытается решить.

Итак, обычно из зависящей от класса функции плотности вероятности мы можем выполнить следующую факторизацию. Вы можете видеть, что у нас есть наблюдения x, и если они зависят от класса, то мы можем переписать вектор x в его компонентах. Итак, у нас есть наблюдения от x1 до xd, и всем им присвоен класс y. Теперь я могу разложить это на множители, что означает, что я могу вычислить условную вероятность класса для x1. Тогда мне все еще нужно умножить на другие уважаемые вероятности, и вы увидите, что я снова могу применить тот же трюк. Затем вы можете видеть, что x2 будет зависеть от y и x1, и мы можем записать это в следующий продукт здесь. Итак, вы видите, как мы начинаем строить это сверху, и видите, что у нас есть все разные взаимозависимости. По сути, это не что иное, как построение полной ковариационной матрицы здесь, если вы рассматриваете, например, гауссовский случай.

Итак, что мы делаем в области Наивного Байеса? Наивный Байес делает очень сильное предположение. Он наивно предполагает независимость размеров. Итак, все d компонентов вектора признаков x считаются независимыми друг от друга. Это означает, что мы можем переписать фактическую условную вероятность класса для x как просто произведение по отдельным измерениям x.

Если мы теперь применим это в правиле Байеса, то вы увидите, что мы все еще хотим максимизировать нашу апостериорную вероятность относительно y. Теперь применим правило Байеса. Мы видели, что можем избавиться от априорного значения x, потому что при максимизации y мы не зависимы от x. Итак, эта часть здесь не рассматривается. Затем мы можем видеть, что мы, по сути, можем разбить это на априор, равный y, умноженному на покомпонентные условные вероятности класса. Это довольно простое предположение, и зачем нам это делать.

Что ж, давайте вернемся к нашему гауссову и опишем теперь 100-мерный вектор признаков x, который живет в 100-мерном пространстве. Тогда, если вы принадлежите к классу y, и он обычно распределяется по всем компонентам, которые взаимозависимы, вы можете видеть, что нам нужен средний вектор с размерностью 100. Нам нужна ковариационная матрица размерности 100 умноженная на 100. Так что это справедливо большой. Затем вы можете даже немного упростить это, потому что наша ковариационная матрица на самом деле не имеет полных степеней свободы. Но на самом деле у нас есть треугольная матрица, потому что некоторые из этих компонентов должны появиться снова. Это означает, что у нас есть по существу 100 неизвестных в среднем векторе и 100 умноженных на 100 плюс 1 над 2, что дает общее количество неизвестных 5150. Теперь давайте предположим, что они независимы друг от друга. Это означает, что нам все еще нужен средний вектор со 100 компонентами. Но теперь мы можем разбить нашу ковариационную матрицу. Мы видим, что нам нужно оценить только одну дисперсию для каждого компонента вектора. Итак, это гораздо более простая версия, и это подводит нас к тому, что у нас есть только 100 плюс 100 неизвестных, которые необходимо оценить. Это отражает небольшое сокращение параметров.

Итак, на этом графике мы фактически показываем количество параметров по оси Y и размер вектора признаков по оси X. Здесь вы можете увидеть, что с Наивным Байесом, конечно, это линейная зависимость. В то время как в гауссиане с полной ковариацией у нас есть что-то, что растет с квадратичной скоростью. Давайте посмотрим на пример и на эффект моделирования.

Здесь вы видите этот пример с двумя гауссовскими распределениями. Оба они теперь используют полную ковариационную матрицу. Если я сломаю это, вы увидите здесь черным цветом нашу границу принятия решения. Теперь, если мы воспользуемся наивным байесовским методом, он перейдет к следующей границе принятия решений. Итак, вы можете видеть, что это более грубо. Это не так уж и хорошо, но все же помогает. Вы также можете видеть, что оценочные параметры ковариации также намного проще, потому что это всего два параметра на распределение.

Также мы можем рассмотреть логит-преобразование. Итак, вы помните, что если мы хотим посмотреть на границу решения, мы берем апостериорные вероятности, делим их друг на друга и логарифм. Конечно, мы можем переформулировать это с помощью правила Байеса. Это позволяет нам затем разделить эту дробь на два члена, где мы, по сути, имеем априор в левой части и условные обозначения класса в правой части. Теперь мы используем эту уловку наивного Байеса и видим, что можем переформулировать условные выражения классов в продукты отдельных измерений. Это произведение, которое можно использовать вместе с логарифмом. Его можно перевести в сумму. Итак, по сути, вы можете видеть из этой границы принятия решения, что у нас есть нечто, что называется обобщенной аддитивной моделью. Итак, мы можем сформулировать здесь границу принятия решения в терминах этой обобщенной аддитивной модели. По сути, это не что иное, как соответствующие индивидуальные измерения, сформулированные здесь в этой сумме.

Итак, есть ли что-нибудь между Байесом и наивным Байесом? Конечно, да. Есть несколько техник, которые пытаются победить проклятие размерности. Например, вы можете уменьшить пространство параметров, как мы это сделали с наивным байесовским методом. Но, конечно, нам не нужно предполагать полную независимость. Таким образом, мы можем использовать только слабую независимость в отличие от полной взаимозависимости или полной взаимной независимости. Это то, что вы можете сделать, и мы рассмотрим пример на следующем слайде. Другое дело, конечно, привязка параметров, и это может помочь вам уменьшить размерность пространства параметров. Конечно, есть и другие подходы, такие как уменьшение размерности векторов признаков. Это подводит нас к области преобразования функций.

Итак, давайте посмотрим на идеи, которые мы можем реализовать. Итак, вы помните, что мы можем записать условную вероятность нашего класса следующим образом. Теперь давайте представим зависимость первого порядка. Итак, мы начинаем расширяться здесь снова и снова, и теперь мы хотим иметь зависимость первого порядка, что означает, что мы можем записать это как продукт. Тогда у нас всегда есть зависимость от соответствующего измерения и соседнего измерения. Таким образом, он не полностью зависит, а зависит только от соседнего измерения. Если мы применим это снова к гауссовскому, то вы увидите, что мы, по сути, придумали ковариационную матрицу, которая имеет эту полосатую структуру.

Итак, у нас есть диагональ, как и в наивном байесовском методе, но у нас также есть, по сути, один элемент диагонали, который также оценивается. Итак, у нас есть небольшое введение взаимозависимости, которое мы можем смоделировать с помощью этой зависимости первого порядка.

Еще один прием, который мы можем использовать для уменьшения параметров, - это ввести связанные параметры. Здесь, например, мы можем сказать, что все диагональные элементы должны иметь один и тот же параметр. Затем мы ввели всего одну сигму на всю диагональ. Это может быть одна из идей связывания параметров, чтобы еще больше уменьшить количество неизвестных.

Какие уроки мы извлекли из наивного Байеса? Наивный байесовский метод довольно успешен, поэтому его довольно часто используют, и на самом деле это не такая уж плохая идея. Это не требует огромного набора обучающих данных, потому что на самом деле у нас довольно много параметров, и это меньшее количество параметров можно оценить, а также с меньшим количеством наблюдений. Каким-то образом нам нужно найти компромисс между статистической зависимостью, которую мы хотим моделировать, в отличие от размерности пространства поиска. Итак, если мы будем поступать подобным образом, то мы сможем по сути обменять сложность модели на фактическое количество наблюдений. Иногда это даже очень хороший компромисс, и я могу просто сказать вам, что если у вас есть несколько наблюдений, вы можете действительно попробовать Наивного Байеса.

Что ж, в следующей лекции мы хотим рассмотреть другой способ упрощения, а именно уменьшение размерности. Мы хотим заняться чем-то, что называется дискриминантным анализом. Самым популярным из них является линейный дискриминантный анализ, и если вы посещали введение в распознавание образов, вы уже видели линейный дискриминантный анализ. Мы хотим немного подробнее изучить эту идею в следующих нескольких видеороликах.

У меня есть для вас еще несколько прочтений. Так что, конечно, есть «Распознавание образов и нейронные сети», где эта тема подробно рассматривается. Также в книге Бишопа «Распознавание образов и машинное обучение» вы можете найти дополнительную информацию по этой теме.

Опять же, у меня есть пара исчерпывающих вопросов, которые могут помочь вам при подготовке к экзамену. На этом мы подошли к концу сегодняшнего видео. Я надеюсь, что эта небольшая экскурсия по наивному байесовскому классификатору окажется для вас полезной. Вы можете видеть, что мы можем использовать пару уловок, введя независимость, чтобы уменьшить количество параметров и упростить наши задачи оценки. Большое спасибо за внимание и с нетерпением жду встречи с вами в следующем видео. Пока-пока!

Если вам понравился этот пост, вы можете найти больше эссе здесь, больше образовательных материалов по машинному обучению здесь или взглянуть на нашу Лекцию Глубокое обучение. Я также был бы признателен за подписку на YouTube, Twitter, Facebook или LinkedIn, если вы хотите получать информацию о новых эссе, видео и исследованиях в будущем. Эта статья выпущена под лицензией Creative Commons 4.0 Attribution License и может быть перепечатана и изменена при наличии ссылки. Если вас интересует создание стенограмм видеолекций, попробуйте Автоблог.

Ссылки

  1. Брайан Д. Рипли: Распознавание образов и нейронные сети, Cambridge University Press, Кембридж, 1996.
  2. Кристофер М. Бишоп: Распознавание образов и машинное обучение, Спрингер, Нью-Йорк, 2006.