Друзья, это мой второй блог. По сути, это краткое изложение некоторых традиционных методов классификации. В этом блоге я немного углублюсь в математику. А также постарайтесь дать вам интуитивное представление о том, как работают эти классификаторы.

Я представлю пару широко используемых функций и методов потерь. Методы, которые я представлю здесь, очень просты и фактически являются основными столпами, на которых построены классификаторы.

Всегда следует помнить, что цель разработки классификатора состоит в том, чтобы разделить пространство векторов признаков на области и связать каждую из областей с одним и только одним классом.

Начнем с Bклассификатора Айеса.

Несмотря на свою концептуальную простоту, байесовская классификация обладает сильным привкусом оптимальности в отношении вероятности ошибки, т. Е. Вероятности неверных решений / предсказаний класса, которые совершает классификатор.

Правило байесовской классификации гласит, что неизвестный образец, представленный x, относится к классу, для которого апостериорная вероятность становится максимальной.

Для тех, кто ломает голову после прочтения слова апостериорная вероятность, это просто означает вероятность параметра при наличии свидетельства X

Апостериорную вероятность можно записать в запоминающейся форме как

Просто заявив:

До получения какого-либо наблюдения наша неопределенность в отношении классов выражается через априорные вероятности.

Как только наблюдение xполучено, эта дополнительная информация устраняет часть нашей исходной неопределенности, и соответствующая статистическая информация теперь предоставляется апостериорными вероятностями, которые затем используются для классификация.

Возьмем пример двухклассовой задачи. Пусть R1 и R2 будут двумя регионами, где мы принимаем решение в пользу классов омега 1 и омега 2 соответственно. Тогда вероятность ошибочной классификации будет определяться следующими двумя уравнениями:

Давайте быстро взглянем на следующие графики:

На левом графике видно, что вероятность ошибки классификации при разделении пространства признаков по байесовскому классификатору равна площади заштрихованной области.

На правом графике видно, что при удалении порогового значения от значения, соответствующего оптимальному правилу Байеса, увеличивается вероятность ошибки, на что указывает увеличение площади соответствующей заштрихованной области.

Вероятность ошибки равна площади заштрихованной области, которая равна сумме двух интегралов, которые мы видели в приведенных выше уравнениях. На правом рисунке порог отодвинут от оптимального байесовского значения, в результате чего увеличивается вероятность ошибки, определяемая общей площадью соответствующей заштрихованной области.

Гиперповерхности решений

В этой части, я надеюсь, вы немного разбираетесь в логике работы машины опорных векторов. Просто его принцип работы.

Мы знаем, что все точки, лежащие на одной стороне гиперповерхности в SVM, имеют счет g(x)≤0, а все точки на другой стороне имеют счет g(x)‹0. Следовательно, результирующие (гипер)поверхности известны как (гипер)поверхности решений.

Возьмем пример байесовского классификатора. Его решающая поверхность может быть сформирована уравнением:

На приведенном выше рисунке видно, что если x попадает на положительную сторону гиперповерхности, мы принимаем решение в пользу класса ω1 (область R1) и в пользу ω2 для точек, попадающих на отрицательную сторону (область R2) в приведенном выше уравнении. Точки, в которых решение не принимается, лежат близко к гиперповерхности принятия решения.

Теперь давайте предположим, что данные в каждом классе распределены в соответствии с гауссовской PDF, заданной следующим уравнением.

Поскольку логарифмическая функция является монотонно возрастающей, она не влияет на максимум функции. Таким образом, принимая во внимание экспоненциальный вид гауссианы, вычисления можно облегчить, если правило Байеса выразить через следующие функции

Теперь, если мы рассмотрим задачу классификации с двумя классами, поверхность решений, связанная с байесовским классификатором, задается как g(x) = g1(x) — g2(x) = 0. Если мы подставим это уравнение к приведенному выше, мы получим следующий вид:

Целью любого классификатора является разделение пространства признаков на области. Разделение достигается с помощью точек в (R), кривых в (R2), поверхностей в (R3) и гиперповерхностей в (Rl).

Если тогда ковариационные матрицы для двух классов становятся равными, то квадратичные члены сокращаются, и дискриминантная функция становится линейной; таким образом, соответствующая гиперповерхность является гиперплоскостью. при предыдущих предположениях оптимальный байесовский классификатор становится линейным классификатором, который после некоторых простых алгебраических манипуляций можно записать так:

Здесь Σ является общим для двухклассовой ковариационной матрицы и является нормой Σ−1 вектора (μ1 − μ2); в качестве альтернативы, это также известно как расстояние Махаланобиса между µ1 и µ 2. Для Σ = I это становится евклидовым расстоянием.

Если данные в пространстве признаков следуют распределению Гаусса в каждом из классов, то байесовский классификатор является (а) гиперплоскостью, если все ковариационные матрицы равны; б) в противном случае это квадратичная гиперповерхность.

KNN (K ближайший сосед)

Поскольку есть так много хороших статей, посвященных KNN, я не буду углубляться в это. Просто математический обзор.

Рассмотрим Nточки обучения, (yn, xn), n= 1 , 2, . . . , N для задачи классификации класса M. В основе метода лежит параметр k, определяемый пользователем. После выбора k и заданного шаблона x назначьте его классу, в котором большая часть его k ближайшие (согласно метрике, например, евклидову расстоянию или расстоянию Махаланобиса) соседи среди обучающих точек принадлежат. Параметр k не должен быть кратным M, во избежание привязки KNN стремится к байесовскому классификатору, если N→∞ , k→∞ и k/N→0.

Если мы говорим, что PNN — это ошибка классификации, PB — это ошибка, соответствующая оптимальному байесовскому классификатору. Тогда ошибка классификации имеет следующие границы: PB ≤ PNN ≤ 2PB, для k =1

В нем говорится, что простое правило ближайшего соседа никогда не даст ошибку, превышающую оптимальную в два раза. Например, PB = 0,01, тогда PNN ≤ 0,02. Это неплохо для такого простого классификатора. Все это говорит о том, что если у вас есть простая задача (на что указывает очень низкое значение PB), правило NN также может хорошо с ней справиться. Это, конечно, не тот случай, если задача непростая и речь идет о больших значениях ошибок.

Приведенное выше уравнение имеет место для k больше 1. Показанная выше оценка говорит, что для больших значений k (при условии, конечно, что N достаточно велико), производительность k-NN приближается к производительности оптимального классификатора. На практике нужно убедиться, что k не получает значений, близких к N, а остается относительно небольшой его долей.

На рисунке выше показана задача классификации двух классов. Пунктирная кривая соответствует оптимальному байесовскому классификатору. Кривые сплошных линий соответствуют (а) классификаторам 1-NN и (б) 13-NN. Обратите внимание, что 13-NN ближе к байесовскому.

Основным недостатком правила k-NN является то, что каждый раз, когда рассматривается новый шаблон, необходимо вычислить его расстояние от всех точек обучения, а затем выбрать kближайший на это указывает

Линейный дискриминант Фишера

Двумя основными этапами проектирования системы распознавания образов являются этапы генерации признаков и выбора признаков. Выбор информативных функций имеет первостепенное значение. Если выбраны «плохие» функции, какой бы умный классификатор ни был выбран, производительность будет низкой. Хорошей характеристикой является та, которая удовлетворяет следующим двум критериям:

  1. Большое расстояние между классами

2. Небольшая дисперсия внутри класса

Три различных варианта двумерных пространственных признаков на приведенном выше рисунке: (а) небольшая дисперсия внутри класса и небольшое расстояние между классами

(б) большая внутриклассовая дисперсия и малая дистанция между классами; и

в) небольшая внутриклассовая дисперсия и большое межклассовое расстояние.

Очевидно, что последний — лучший выбор из трех.

В линейном дискриминанте Фишера основное внимание уделяется следующему уравнению

Внутренний продукт θT*x можно рассматривать как проекцию x вдоль вектора θ. Теперь цель состоит в том, чтобы выбрать это направление, θ, чтобы после проецирования в этом направлении

(а) данные в двух классах находятся как можно дальше друг от друга, и (б) соответствующие отклонения точек вокруг их средних значений в каждом из классов как можно меньше.

Критерием, который количественно определяет вышеупомянутую цель, является дискриминантный коэффициент Фишера (FDR), определяемый как

где μ1 и μ2 — (скалярные) средние значения двух классов после проекции вдоль θ и µi= θ_T*µi, i = 1, 2.

Наша цель теперь состоит в том, чтобы максимизировать FDR по отношению к θ.

а) Оптимальное направление, полученное из дискриминанта Фишера для двух сферически распределенных классов. Направление, в котором происходит проецирование, параллельно отрезку, соединяющему средние значения данных в двух классах.

(b) Линия в левом нижнем углу рисунка соответствует направлению, полученному дискриминантом Фишера; обратите внимание, что он больше не параллелен µ1 − µ2. Для сравнения обратите внимание, что проецирование на другую строку справа приводит к перекрытию классов.

Чтобы дискриминантный метод Фишера можно было использовать в качестве классификатора, необходимо принять пороговое значение θ0(theta_zero), а решение в пользу класса выполняется в соответствии со следующим правилом

Результирующие гиперплоскости параллельны, и единственная разница заключается в пороговом значении. На практике, в зависимости от данных, могут использоваться разные пороговые значения.

Другая точка зрения дискриминантного метода Фишера заключается в том, что он выполняет уменьшение размерности, проецируя данные из исходного l-мерного пространства в более низкое одномерное пространство. Это уменьшение размерности выполняется под наблюдением, используя метки классов обучающих данных.

На этом заканчивается первая часть этого блога. Во второй части я углублюсь в логистическую регрессию, а также поработаю над выводом линейного дискриминанта по Фишеру. Надеюсь, вам понравилось.