Бритва Оккама — один из важнейших принципов машинного обучения, о котором должен знать любой специалист по данным и специалист по машинному обучению. Чтобы сделать это в одном предложении, этот принцип хочет подчеркнуть тот факт, что «чем проще, тем лучше для обучения». Великий физик Альберт Эйнштейн однажды заявил: «Объяснение данных должно быть максимально простым, но не проще».

Следовательно, существует гипотетическая бритва, которую мы должны использовать каждый раз, когда захотим предложить модель для наших данных и удалить ее ненужные части, поскольку, согласно Оккаму, самая простая модель, которая соответствует данным, также является наиболее правдоподобной. Но давайте попробуем объяснить, почему это предложение действительно применимо и к машинному обучению.

Прежде чем мы начнем говорить о теории, лежащей в основе принципа бритвы Оккама, следует отметить одну вещь: в машинном обучении мы пытаемся предсказать функцию, которая может оценить наши данные лучше, чем другие. Поэтому по сути мы сталкиваемся с проблемой поиска, как и многие другие проблемы ИИ. Поэтому мы должны попытаться оптимизировать эту задачу поиска. Большую часть времени мы будем ограничивать наше функциональное пространство (H), чтобы иметь возможность решить проблему. Существует также концепция под названием VC-измерение, которая означает, что мы не можем гарантировать обучение в любом заданном функциональном пространстве. Каждое функциональное пространство имеет особую особенность, называемую VC-размерностью, и обучение гарантируется только в том случае, если VC-размерность ограничена.

Чтобы доказать утверждение Оккама, мы должны доказать две его разные части:

1. Когда мы говорим о простоте модели, что мы имеем в виду?

Как упоминалось ранее, мы пытаемся предложить гипотезу (h) в конкретном пространстве гипотез (H). Соответственно, здесь мы должны объяснить, как мы можем измерить их сложность соответственно.

Когда мы хотим измерить сложность гипотезы (h), мы сталкиваемся с разными вариантами выбора. Например, мы можем использовать подход MDL (минимальная длина описания). Этот подход измеряет сложность гипотезы, пытаясь представить ее в двоичной форме, а затем подсчитывая ее длину (количество бит). Мы также можем использовать порядок полинома в случае, если пространство нашей гипотезы является пространством полинома как меры сложности.

С другой стороны, когда мы стремимся измерить сложность пространства гипотез, у нас есть мера энтропии и вышеупомянутая размерность VC.

Однако, если мы посмотрим на эти понятия более внимательно, связь между ними может показаться видимой. Мы можем измерить (сложность) пространства гипотез с точки зрения сложности каждой из его гипотез. Ранее мы представили подход MDL как меру сложности гипотезы, которая представляет собой количество битов в двоичном представлении нашей гипотезы. Таким образом, можно утверждать, что сложность всего пространства гипотез можно вычислить, возведя 2 в степень сложности h (с учетом различных гипотез). Здесь следует быть немного осторожным, поскольку может показаться, что из этого правила есть некоторые исключения. Например, в случае SVM наша гипотеза может показаться действительно сложной, хотя наше пространство гипотез не такое сложное. Однако, если мы посмотрим более внимательно, мы увидим, что в SVM наша гипотеза (которая представляет собой кривую) зависит только от нескольких точек наших данных, поэтому, если мы измерим ее сложность, используя подход MDL, она не окажется верной. много сложного. Следовательно, даже в таких случаях мы можем увидеть, что такое же отношение все же существует, если мы посмотрим более внимательно.

Здесь мы познакомились с несколькими методами измерения сложности нашей модели, но давайте посмотрим, почему простая модель лучше для обучения, чем сложная.

2. Почему простота способствует лучшему обучению?

Здесь мы просто хотим найти интуицию, почему простота лучше подходит для обучения, так что давайте начнем.

Начнем с того, что когда мы говорим «лучше», здесь мы имеем в виду «лучше» с точки зрения производительности вне выборки или, другими словами, измерения нашей модели на невидимых тестовых данных. В связи с этим, как упоминалось ранее, более простые пространства гипотез состоят из меньшего количества гипотез, в то время как сложные содержат больше гипотез внутри. Это снижает вероятность того, что более простые гипотезы будут соответствовать заданному набору данных. Следовательно, если бы простая гипотеза могла объяснить наши данные, она была бы более значимой и с меньшей вероятностью была бы случайной. Однако это не относится к сложным пространствам гипотез. В таких пространствах у нас будет много гипотез, и это облегчает нашему алгоритму обучения поиск соответствия нашему набору данных, который не обязательно будет иметь хорошую производительность вне выборки.

Вывод

Надеюсь, вам понравился этот мой пост. С учетом сказанного, в следующий раз, когда вы захотите выбрать модель для своего проекта машинного обучения, не забудьте использовать принцип бритвы Оккама и сначала попробовать более простые модели, а затем, если необходимо, перейти к более сложным, чтобы получить хороший результат. выборочная производительность.