Теорема Байеса для обучения алгоритмов

Байесовское обучение обеспечивает вероятностный подход к выводам. Это дает возможность количественно обосновать вашу гипотезу. В этом посте мы поймем интуицию, лежащую в основе байесовского обучения и теоремы Байеса в контексте алгоритмов обучения.

Давайте разберемся с теоремой Байеса в контексте машинного обучения. В машинном обучении мы часто ищем лучшую гипотезу.

Прежде чем мы продолжим, давайте рассмотрим гипотетический пример. Нам был предоставлен набор обучающих данных (скажем, D), который содержит вес, рост и возраст человека в качестве атрибутов, и мы должны предсказать, подходит ли человек / непригоден, то есть логическая классификация.

Пусть H - множество всех возможных гипотез для данной проблемы. Это означает, что H будет иметь все перестановки и комбинации атрибутов (вес, рост и возраст), полезных для предсказания того, подходит ли человек или нет. Нам нужно найти лучшую гипотезу в этом наборе H.

Из этого набора H мы выберем вероятную гипотезу «h». Мы выберем эту гипотезу, основываясь на некотором начальном знании проблемы. Это первоначальное знание того, насколько вероятно, что «h» является наилучшей гипотезой, известно как априорная вероятность. В случае, если предварительные знания недоступны, мы можем присвоить одинаковую вероятность всем гипотезам в наборе H.

Нам также понадобится вероятность обучающих данных без знания гипотезы, что данные могут быть выполнены. Эта вероятность равна P (D).

У вас может возникнуть вопрос. Поверьте, это ограничение байесовского обучения. То есть вам необходимо иметь начальные знания о многих вероятностях. Это потому, что мы пытаемся предсказать апостериорную вероятность с помощью Prior!

P (D | h) будет обозначать вероятность. Другими словами, вероятность наблюдения данных согласно данной гипотезе «h». P (h | D) называется апостериорной вероятностью. Это дает вероятность гипотезы с учетом набора данных.

У нас есть все необходимые инструменты для построения теоремы Байеса, краеугольного камня байесовского обучения.

Довольно интуитивно понятно ожидать, что P (h | D) увеличивается с высоким уровнем априорных знаний, то есть P (h), и с высокой вероятностью P (D | h). Аналогично высокое значение P (D) уменьшит P (h | D), поскольку оно сигнализирует о том, что наблюдалось больше данных независимо от гипотезы «h».

Я надеюсь, что этот пост смог установить связь между теоремой Байеса и концепцией обучающих алгоритмов.

Надеюсь, статья вам понравилась! Продолжайте учиться и делиться знаниями. Следуйте за мной на github, linkedin или twitter.