Как оценить ошибки вне распределения без сбора новых данных

Конспект лекций FAU по распознаванию образов

Как оценить ошибки вне распределения без сбора новых данных

Показатели производительности на конечных данных

Это конспект лекций FAU на YouTube Распознавание образов. Это полная стенограмма видео лекции и сопоставление слайдов. Исходники для слайдов доступны здесь. Мы надеемся, вам понравится это так же, как видео. Эта стенограмма была почти полностью сгенерирована машиной с использованием AutoBlog, и были внесены лишь незначительные изменения вручную. Если вы заметили ошибки, сообщите нам об этом!

Добро пожаловать обратно в распознавание образов! Сегодня мы хотим подробнее остановиться на оценке модели. И затем, в частности, мы хотим знать, как надежно оценивать статистику и, в частности, производительность для наборов данных фиксированного размера.

Проблема в том, что вы хотите определить смещение и дисперсию для некоторого алгоритма обучения. И, конечно же, мы хотим оценить эту производительность на данных, которые мы еще не видели. Итак, мы хотим оценить производительность для неизвестных дистрибутивов. Из того, что мы видели до сих пор, систематическая ошибка и дисперсия меняются в зависимости от выборки. Поэтому нам понадобятся методы повторной выборки, которые можно использовать для создания более информативной оценки общей статистики.

Формально это можно выразить следующим образом. Предположим, мы хотим оценить вектор параметров θ, который зависит от набора случайных выборок, заданного как X, в диапазоне от x1 до xn. Тогда мы можем предположить, что у нас есть оценка θ, но мы не знаем ее распределения. Таким образом, методы повторной выборки пытаются оценить смещение и дисперсию этой оценки, используя подвыборки из X.

Это подводит нас к складному ножу. И складной нож использует так называемое псевдозначение, которое мы индексируем здесь с i из x. Это псевдозначение определяется из оценщика следующим образом: вы берете n-кратное оценочное значение, полученное на X, а затем вычитаете n-1-кратное оценочное значение набора, в котором вы опускаете элемент i. Затем вы можете переписать это, существенно разбив умножение на n, и перенести оставшуюся оценку X в правую часть. Затем это дает вам n-1, а затем разницу между оценкой, в которой отсутствует элемент i, и полной оценкой. Таким образом, вы можете использовать это псевдозначение для определения производительности нашего оценщика, если отсутствует i-е значение. По сути, вы оцениваете смещение между этими двумя моделями, а затем вычитаете его из модели, которую вы оценили на основе полных данных. Мы предположили, что тенденцию смещения можно оценить по разнице между разными оценками из разных наборов. И здесь мы строим это по разнице между оценщиками, когда мы по существу опускаем одну из выборок в процессе оценки.

Таким образом, принцип складного ножа заключается в том, что псевдозначения рассматриваются как независимые случайные величины со средним значением θ. И затем, используя центральную предельную теорему, оценки максимального правдоподобия для среднего значения и дисперсии псевдозначений могут быть по существу определены как среднее значение по всем псевдозначениям. Дисперсия определяется как 1 относительно n-1 и сумма разностей псевдозначений с соответствующим средним значением.

Давайте рассмотрим один пример. Здесь оценка выборочного среднего дается просто как среднее значение X. Теперь псевдозначения можно определить как n, умноженное на среднее значение X, минус (n-1), умноженное на среднее значение, где Xi отсутствует. Если вы это запишете, это не что иное, как xi. Таким образом, вы можете по существу определить оценку складного ножа. И тогда оценка Складного ножа просто дается как среднее значение. Итак, здесь среднее значение не меняется в Jackknifing, но вы увидите, что дисперсия изменилась. Вариант нормализуется не с единицей больше n, а с единицей больше n минус один. Поэтому мы склонны оценивать более высокую дисперсию. Вы увидите, что если у вас есть большие числа выборок, это не сильно изменится, но если у вас довольно низкие числа выборок, то вам, как правило, придется оценивать дисперсию выше, чем то, что вы получаете из типичной оценки ML.

Давайте рассмотрим случай, когда простой оценкой является дисперсия. Здесь мы берем среднее значение за вычетом выборок и суммируем, и тогда получается единица. Теперь мы снова можем вычислить псевдозначения. И тогда псевдозначения приведут к тому, что n больше n минус одно из xi минус среднее значение x. Таким образом, вы можете видеть, что среднее значение оценки Складного ножа затем находится как среднее значение псевдозначений. А это дает единицу на n минус единицу и оценку традиционных вариантов. По сути, это тот же результат, который мы видели на предыдущем слайде. Это довольно интересное наблюдение. Если бы вы вычислили ожидаемое значение для нашего оценщика здесь в этом случае, вы бы получили n минус один на n раз больше дисперсии. И здесь, в нашей оценке Складного ножа, мы получаем именно дисперсию. так что мы могли бы сказать, что оценка Складного ножа — это версия нашей оценки с поправкой на погрешность.

Давайте посмотрим на процедуру начальной загрузки. У меня есть примечание, что бутстрэппинг на самом деле происходит из рассказа «Приключения барона Мюнхгаузена», где он пытается вытащить себя из грязи, просто дергая за собственные бутстрапы. Самозагрузка — это идея, при которой вы создаете вложенные наборы данных, случайным образом выбирая конечные точки из набора образцов с заменой. Таким образом, при начальной оценке процесс выбора независимо повторяется B раз. Затем это приводит к наборам данных начальной загрузки B, которые рассматриваются как независимые наборы.

Затем мы также можем выполнить бутстрап-оценку статистики θ и ее дисперсии на основе средних оценок B и ее дисперсии. И здесь вы можете просто увидеть, что я оцениваю B̂ на соответствующем подмножестве начальной загрузки, а затем мы просто усредняем. И, конечно же, мы также можем вычислить дисперсию для той же статистики. Смещение заключается в разнице между начальной оценкой и оценкой. Таким образом, это, по сути, дает нам предвзятость.

Теперь свойства этой начальной оценки заключаются в том, что начальная загрузка не меняет цену данных, потому что вы выбираете с заменой. Чем больше число B, тем больше бутстреп-оценка будет стремиться к истинной статистике θ. Таким образом, в отличие от оценки «Складной нож», которая требует ровно n повторений, мы можем варьировать число n здесь. Если у нас меньше n повторений, у нас, вероятно, более плохие оценки. И если у меня больше n повторений, мы просто дублируем информацию, которая уже была предоставлена.

Оценим и сравним классификаторы. Есть, конечно, несколько причин, по которым мы хотим знать скорость обобщения классификатора по данной проблеме. Мы хотим увидеть, достаточно ли хорошо работает классификатор, чтобы быть полезным, и мы хотим сравнить его производительность с конкурирующим дизайном.

Затем это приводит к концепции перекрестной проверки. Теперь перекрестная проверка берет обучающие выборки и разбивает их на непересекающиеся части. Таким образом, вы можете использовать, например, первый набор для тренировки. Потом вы традиционно тренируетесь. Затем второй набор используется для тестирования для оценки ошибки классификации. На втором этапе вы можете просто поменять местами два набора, и таким образом можно оценить ошибку классификации для всего набора данных. Однако обучение и тестирование всегда несовместимы. m-кратная перекрестная проверка разбивает данные на m непересекающихся наборов размера n по m. Затем вы используете один набор в качестве тестового набора, а другие m — 1 наборов используются для обучения. Затем вы повторяете эту процедуру m раз, чтобы каждый набор использовался один раз для тренировки. В крайнем случае, когда m = n, мы имеем оценку точности классификации методом складного ножа. Это также известно как процедура оценки с исключением одной выборки или исключения одной выборки.

Также вы можете применить дополнительный набор проверки. В этом случае вы можете затем определить параметры, которые вы должны выбрать в процессе обучения. Допустим, вы оцениваете свои потери на тренировочном наборе, а затем также изучаете проверочный набор. И когда вы понимаете, что потери при обучении по-прежнему уменьшаются, но потери при проверке увеличиваются, вы можете прекратить обучение, потому что вы, вероятно, переобучаетесь. Вот пример. Конечно, если вы запускаете обучающие итерации, потому что вы минимизируете потери в обучающих данных, они будут уменьшаться и уменьшаться. Но в какой-то момент потеря может возрасти на проверочном наборе, так что это будет подходящий момент, чтобы остановить весь процесс обучения. Знайте, что если вы хотите применить это в поведении перекрестной проверки, вы должны по существу использовать m минус два набора для обучения. Один набор для проверки и один набор для тестирования. И тогда можно по существу повторить процедуру еще m раз.

Итак, что мы здесь узнали? Бесплатных обедов не бывает. Если у вас есть определенные допущения в модели, основанные на предшествующих знаниях, она может не учитывать совершенно другую проблему классификации. Как правило, лучшего классификатора для всех задач не существует. Это утверждение теоремы о бесплатном обеде. Мы также видели, что для конкретной проблемы у нас есть этот предвзятый компромисс дисперсии. Таким образом, мы можем увеличить мощность модели и ее дисперсию, тогда мы сможем уменьшить смещение. Но это также происходит за счет того, что в этом случае способность модели к обобщению, вероятно, будет снижена. Мы видели, как складной нож оценивает производительность вне набора и корректирует предвзятость, возникающую при использовании только конечного набора. Альтернативой является начальная загрузка, где начальная загрузка по существу использует разные размеры наборов и другую случайную выборку. Таким образом, мы можем рассматривать это как обобщение складного ножа. И мы рассмотрели перекрестную проверку, как использовать принципы складного ножа и начальной загрузки и как выполнить фактическую перекрестную проверку, чтобы получить оценку ошибки классификации вне набора.

В следующий раз и в распознавании образов мы хотим рассмотреть последнюю тему, и это способствует развитию. и мы представим принцип Adaboost. Вы увидите, что это очень мощная техника, позволяющая объединить множество слабых систем классификации в один сильный классификатор.

У меня также есть некоторые дополнительные чтения для вас. Итак, мы увидели здесь «Дуда и Харт» — очень хорошая книга. Там есть очень хорошие примеры. А также Сойера «Повторная выборка данных с помощью статистического складного ножа», которая тоже очень хорошо читается. И снова «Элементы статистического обучения».

После просмотра двух последних видеороликов вы сможете ответить на следующие вопросы: что означают термины «предвзятость» и «дисперсия»? Каков компромисс и как вы можете оценить систематическую ошибку и дисперсию метода, если у вас есть только конечное множество?

Большое спасибо за просмотр, и я с нетерпением жду встречи с вами в следующем видео! Пока-пока.

Если вам понравился этот пост, вы можете найти больше эссе здесь, больше учебных материалов по машинному обучению здесь или посмотреть нашу Глубокое обучение Лекцию. Я также был бы признателен за подписку на YouTube, Twitter, Facebook или LinkedIn, если вы хотите получать информацию о новых эссе, видео и исследованиях в будущем. Эта статья выпущена на условиях Creative Commons 4.0 Attribution License и может быть перепечатана и изменена при ссылке. Если вы заинтересованы в создании расшифровок видеолекций, попробуйте Автоблог.

использованная литература

Ричард О. Дуда, Питер Э. Харт, Дэвид Г. Сторк: Классификация образов, 2-е издание, John Wiley & Sons, Нью-Йорк, 2000.
С. Сойер: Повторная выборка данных: использование статистического складного ножа, Вашингтонский университет, 2005 г.
Т. Хасти, Р. Тибширани, Дж. Фридман: Элементы статистического обучения, 2-е издание, Springer, 2009.

Как оценить ошибки вне распределения без сбора новых данных

Конспект лекций FAU по распознаванию образов