Теория вероятностей играет фундаментальную роль в машинном обучении. Почему? Это потому, что теория вероятностей касается рассуждений, когда есть неопределенность. В машинном обучении нам дают некоторые данные, на которых можно учиться, и нам нужно рассуждать, будет ли модель машинного обучения, которую мы разработали, хорошо работать с неопределенными и невидимыми данными будущего. Это кажется глупым вопросом, но можем ли мы доверять теории вероятностей? Насколько прочны ее основы? Вы не поверите, но уже более 300 лет по этому поводу ведутся бурные споры!

В 1713 году Бернулли впервые придумал некоторые основные правила, чтобы вычислить шансы в игре в кости, которая бросается повторно. Это было началом так называемой частотной теории вероятности. Однако в этом было ограничение, а именно: что, если вы не можете повторять эксперимент несколько раз? Например, какова вероятность повышения температуры Земли на 5 градусов к 2030 году? Мы не можем применять частотную теорию вероятностей, поскольку мы не можем повторять эксперимент с потеплением Земли снова и снова. Это разовое мероприятие. Это ограничение было замечено Байесом и Лапласом очень рано. В 1812 году Лаплас предложил набор правил так называемой байесовской теории вероятностей. В этом подходе каждый принимает во внимание предшествующее знание (закон Байеса) и может субъективно приписать вероятность событию на основе доступной информации на тот момент времени.

Присвоение вероятности «субъективно» и учет предшествующей информации было яблоком раздора между двумя лагерями. Частотщики не согласятся с «субъективностью» байесовского подхода, а байесовцы сочтут теорию частотных подходов слишком ограниченной, чтобы ее можно было применять где-либо еще. Тем не менее, по какой-то странной причине оба лагеря основывались на теоремах, которые были пугающе идентичны, но выводились разными способами, а именно на правилах произведения и суммы вероятностей.

В 20 веке было четыре важных достижения, которые окончательно положили конец этому бушующему 300-летнему спору:

  1. Колмогоров, 1933 - Основы теории вероятностей. Он предложил набор аксиом для вывода правил частотной теории вероятностей. Это классическая теория вероятностей, которую мы все еще изучаем в школах и колледжах. Это легко понять и поэтому используется для ознакомления студентов с вероятностью. Закон Бернулли легко вывести из этих аксиом. Набор аксиом, который он выбрал, был произвольным.
  2. Cox, 1946 - Вероятность, частота и разумное ожидание - опубликовано в American Journal of Physics, 1946. Кокс показал, что правила вероятности можно вывести, применяя булеву логику и исчисления. Впервые было установлено, что вероятность можно рассматривать как расширение логической логики. У Кокса также были две произвольные аксиомы.
  3. Поля, 1954 - Математика и правдоподобные рассуждения. В этом трактате Поля подробно описывает, как математики и ученые рассуждают, когда они находятся в процессе научных открытий. Он придумал набор простых правил (силлогизмов) для объяснения мыслительного процесса. С тех пор этот трактат оказал влияние на ученых на протяжении многих поколений.
  4. Джейнс, 2003 г. - Теория вероятностей, логика науки. Проблема Колмогорова и Кокса в том, что они основаны на разных, но произвольных аксиомах. Так что же говорить о том, что завтра теории вероятностей не будет больше дюжины теорий? Итак, Джейнс не начинает с набора аксиом, а вместо этого спрашивает, какой здравой логике следуют люди, рассуждая с неопределенностью? Он называет их desiderata. Это не аксиомы, а только требования, которым должен удовлетворять любой набор аксиом, если он имеет смысл для человеческого мышления. В этом его стремлении вдохновили Кокса и Поли, а затем он собирается вывести фундаментальные правила вероятности из желаемого, используя булеву алгебру и исчисление. И, о чудо, существует всего 2 фундаментальных правила вероятности - правило произведения и правило сумм. Вдобавок к этому он показывает, что аксиомы, которые произвольно предположили Кокс и Колмогоров, также могут быть выведены из правила произведения и суммы! Он также показывает, что другого набора аксиом быть не может. Если они существуют, либо они могут быть производными от этих двух, либо они должны быть несовместимыми.

Таким образом, Джейнс и Кокс показали, что вероятность является расширением логики, поскольку она выводится из булевой алгебры. Кроме того, что более важно, частотная и байесовская теории вероятностей имеют одни и те же корни (логику). Это объясняет, почему произведение и правило сумм абсолютно одинаковы как в частотной, так и в байесовской теории. Эта диаграмма показывает, как все взаимосвязано.

Джейнс и Кокс показали, что не имеет значения, в каком лагере вы находитесь, оба лагеря имеют одинаковое логическое происхождение. Однако байесовский образ мышления позволяет применять правила вероятности к гораздо большему набору проблем, где эксперименты не могут быть повторены. Следовательно, выгодно использовать байесовский образ мышления.

Так где именно мы применяем байесовское мышление в машинном обучении? Возьмем простой пример линейной регрессии.

где w - вектор весов, x - вектор примера ввода, а y - вычисленный результат. Теперь мы не знаем точного процесса / функции данных f (x), которая сгенерировала данный пример данных (y, x). В машинном обучении мы пытаемся вычислить f (x). Учитывая веса w, насколько мы можем быть уверены в том, что вычисленное значение y соответствует его истинному значению, если мы используем эту точку данных x? Здесь на помощь приходит байесовский образ мышления. Мы можем наложить любое распределение вероятностей, которое нам нравится, на это вычисленное значение. Обычно мы применяем гауссово распределение, потому что среди всех распределений оно отражает наибольшую неопределенность (максимальную энтропию) и наименьшее количество предварительных предположений о том, как были сгенерированы данные. Это записывается как

где N - распределение Гаусса. Обратите внимание, что мы не можем применить здесь частотное представление, потому что мы вычисляем y только один раз для каждого примера x в обучающем наборе для данного w . Здесь нет возможности проводить повторные эксперименты. Итак, единственный выбор, который у нас есть, - это байесовская точка зрения, то есть наша вера в величину неопределенности y от его истинного значения, которую мы фиксируем с помощью гауссовского распределения.

Теперь по всему обучающему набору мы умножаем неопределенность каждого примера, применяя правило произведения теории вероятностей, чтобы получить следующее:

Как только мы это сформулируем, мы сможем вычислить оценку максимального правдоподобия, чтобы найти наилучшее w. Я бы отослал вас к любому учебнику по машинному обучению, чтобы узнать, как это делается для решения линейной регрессии.

Подводя итог, мы показали, что основы теории вероятностей прочно укоренены в логике. И частотный, и байесовский подходы имеют одинаковую логическую основу. Однако байесовский подход более общий, мощный и простой. Байесовское представление широко используется в машинном обучении.