Объяснение недооцененного алгоритма без математики

Гауссовские процессы - это мощный алгоритм как для регрессии, так и для классификации. Их наибольшее практическое преимущество состоит в том, что они могут дать надежную оценку собственной неопределенности. К концу этого поста высокого уровня без математики я стремлюсь дать вам интуитивное представление о том, что такое гауссовский процесс и что делает его уникальным среди других алгоритмов.

Содержание:

  • Резюме о машинном обучении
  • Как справиться с неопределенностью
  • Байесовский вывод в двух словах
  • Гауссовские процессы

Что такое машинное обучение?

Машинное обучение - это линейная регрессия на стероидах.

Машинное обучение использует имеющиеся у нас данные (известные как данные обучения) для изучения функции, которую мы можем использовать для прогнозирования данных, которых у нас еще нет. Простейшим примером этого является линейная регрессия, когда мы изучаем наклон и точку пересечения линии, чтобы мы могли предсказать вертикальное положение точек по их горизонтальному положению. Это показано ниже, данные обучения показаны синими точками, а изученная функция - красной линией.

Машинное обучение - это расширение линейной регрессии в нескольких отношениях. Во-первых, современное машинное обучение работает с гораздо более сложными данными, вместо того, чтобы изучать функцию для вычисления одного числа из другого числа, как в линейной регрессии, мы можем иметь дело с разными входами и выходами, такими как:

Во-вторых, современное машинное обучение использует гораздо более мощные методы для извлечения шаблонов, из многих которых глубокое обучение является лишь одним из многих. Гауссовские процессы - еще один из этих методов, и их основное отличие заключается в их отношении к неопределенности.

Думая о неопределенности

Неопределенность может быть представлена ​​как набор возможных результатов и их соответствующей вероятности - так называемое распределение вероятностей.

Окружающий нас мир полон неопределенности - мы не знаем точно, сколько времени займет наша поездка на работу и какая погода будет в полдень завтра. Некоторая неопределенность связана с тем, что недостаток наших знаний присущ миру, независимо от того, сколько знаний у нас есть. Поскольку мы не можем полностью устранить неопределенность во Вселенной, нам лучше всего найти хороший способ с ней справиться. Распределения вероятностей именно таковы, и оказывается, что они являются ключом к пониманию гауссовских процессов.

Наиболее очевидным примером распределения вероятностей является результат броска справедливых 6-гранных игральных костей, то есть шанс выпадения любой конкретной грани один к шести.

Это пример дискретного распределения вероятностей, поскольку существует конечное число возможных результатов. В дискретном случае распределение вероятностей - это просто список возможных результатов и вероятность их наступления. Во многих реальных сценариях более подходящим является непрерывное распределение вероятностей, поскольку результатом может быть любое действительное число, и пример одного из них рассматривается в следующем разделе.

Еще одна ключевая концепция, которая будет полезна позже, - это выборка из распределения вероятностей. Это означает переход от набора возможных результатов к одному реальному результату - в данном примере бросанию кости.

Байесовский вывод

Байесовский вывод может быть устрашающей фразой, но он сводится лишь к методу обновления наших представлений о мире на основе наблюдаемых нами свидетельств. В байесовском выводе наши представления о мире обычно представлены как распределения вероятностей, а правило Байеса говорит нам, как обновить эти распределения вероятностей.

Байесовская статистика предоставляет нам инструменты для обновления наших убеждений (представленных в виде вероятностных распределений) на основе новых данных.

Давайте рассмотрим наглядный пример байесовского вывода - мы собираемся скорректировать наши представления о высоте Барака Обамы на основе некоторых свидетельств.

Предположим, мы никогда не слышали о Бараке Обаме (потерпите меня), или, по крайней мере, мы не знаем, каков его рост. Однако мы знаем, что это мужчина, проживающий в США. Следовательно, наше мнение о росте Обамы до получения каких-либо доказательств (в байесовских терминах это наше предварительное мнение) должно быть просто распределением роста американских мужчин.

А теперь давайте представим, что Википедии не существует, поэтому мы не можем просто взглянуть на рост Обамы и вместо этого увидеть некоторые доказательства в виде фотографии.

Наше обновленное убеждение (апостериорное в байесовских терминах) выглядит примерно так.

Мы видим, что Обама определенно выше среднего, немного выше нескольких других мировых лидеров, однако мы не можем точно сказать, какой именно рост. Показанное распределение вероятностей все еще отражает небольшую вероятность того, что Обама среднего роста, а все остальные на фото необычно низкорослые.

Что такое гауссовский процесс?

Теперь, когда мы знаем, как представить неопределенность числовых значений, таких как высота или результат броска кости, мы готовы узнать, что такое гауссовский процесс.

Гауссовский процесс - это распределение вероятностей по возможным функциям.

Поскольку гауссовские процессы позволяют описывать распределения вероятностей по функциям, мы можем использовать правило Байеса для обновления нашего распределения функций, наблюдая за обучающими данными.

Чтобы укрепить эту интуицию, я приведу пример байесовского вывода с гауссовскими процессами, который полностью аналогичен примеру в предыдущем разделе. Вместо того, чтобы обновлять наше мнение о росте Обамы на основе фотографий, мы обновим наше мнение о неизвестной функции на основе некоторых примеров из этой функции.

Наше предварительное мнение о неизвестной функции показано ниже. Справа находится среднее значение и стандартное отклонение нашего гауссовского процесса - у нас нет никаких сведений о функции, поэтому наилучшее предположение для нашего среднего находится в середине действительных чисел, то есть 0.

Слева каждая строка представляет собой образец распределения функций, и наша нехватка знаний отражается в широком спектре возможных функций и различных форм функций на дисплее. Выборка из гауссовского процесса похожа на бросание кости, но каждый раз вы получаете другую функцию, и существует бесконечное количество возможных функций, которые могут возникнуть.

Вместо того, чтобы наблюдать некоторые фотографии Обамы, мы вместо этого будем наблюдать некоторые результаты неизвестной функции в различных точках. Для гауссовских процессов нашим свидетельством являются данные обучения.

Теперь, когда мы получили некоторые свидетельства, давайте воспользуемся правилом Байеса, чтобы обновить наше представление о функции, чтобы получить апостериорный гауссовский процесс, также известный как наше обновленное представление о функции, которую мы пытаемся подобрать.

Подобно суженному распределению возможных высот Обамы, вы можете увидеть более узкое распределение функций. Обновленный гауссовский процесс ограничен возможными функциями, которые соответствуют нашим обучающим данным - среднее значение нашей функции перехватывает все обучающие точки, как и каждая выбранная функция. Мы также можем видеть, что стандартное отклонение выше для наших тренировочных данных, что отражает отсутствие у нас знаний об этих областях.

Преимущества и недостатки врачей общей практики

Гауссовские процессы знают то, чего не знают.

Звучит просто, но многие, если не большинство методов машинного обучения этого не разделяют. Ключевым преимуществом является то, что неопределенность подобранного GP увеличивается по мере удаления от обучающих данных - это прямое следствие корней GP в вероятности и байесовском выводе.

Выше мы можем видеть функции классификации, полученные разными методами в простой задаче разделения синих и красных точек. Обратите внимание, что два широко используемых и мощных метода поддерживают высокую достоверность своих прогнозов вдали от обучающих данных - это может быть связано с феноменом состязательных примеров, когда мощные классификаторы дают очень неверные прогнозы по странным причинам. Эта характеристика гауссовских процессов особенно актуальна для проверки личности и критически важных применений, связанных с безопасностью, поскольку вы хотите быть полностью уверены в том, что выходные данные ваших моделей имеют серьезную причину.

Гауссовские процессы позволяют использовать экспертные знания.

Когда вы используете терапевта для моделирования своей проблемы, вы можете сформировать свое прежнее мнение, выбрав ядро (полное объяснение этого выходит за рамки этой статьи).

Это позволяет вам формировать вашу подогнанную функцию множеством различных способов. Наблюдатели среди вас, возможно, задавались вопросом, как гауссовские процессы могут вообще обобщаться за пределами их обучающих данных, учитывая свойство неопределенности, описанное выше. Ответ таков: свойства обобщения GP почти полностью зависят от выбора ядра.

Гауссовские процессы требуют больших вычислительных ресурсов.

Гауссовские процессы - это непараметрический метод. Параметрические подходы превращают знания об обучающих данных в набор чисел. Для линейной регрессии это всего два числа, наклон и точка пересечения, тогда как другие подходы, такие как нейронные сети, могут иметь десятки миллионов. Это означает, что после обучения стоимость прогнозирования зависит только от количества параметров.

Однако, поскольку гауссовские процессы непараметрически (хотя гиперпараметры ядра размывают картину), им необходимо учитывать все данные обучения каждый раз, когда они делают прогноз. Это означает, что не только обучающие данные должны храниться во время вывода, но также означает, что вычислительные затраты на прогнозы масштабируются (кубически!) С количеством обучающих выборок.

Будущее гауссовских процессов

Мир гауссовских процессов останется интересным в обозримом будущем, так как проводятся исследования, чтобы применить их вероятностные преимущества к проблемам, в которых в настоящее время преобладает глубокое обучение - разреженные и мини-пакетные гауссовские процессы увеличивают их масштабируемость до больших наборов данных, в то время как глубокие и глубокие и глубокие. сверточные »гауссовские процессы делают доступными многомерные данные и данные изображений. Следи за этим пространством.