Введение в AIC - информационный критерий Акаике

Выбор модели без валидации или набора тестов

В этой статье я рассмотрю следующие темы:

  1. Что такое АПК?
  2. Когда его использовать?
  3. Как следует интерпретировать результаты?
  4. Подводные камни АПК

Примечание. Эту статью следует рассматривать как краткое введение в AIC. Я добавляю внешние ссылки, которые исследуют касательные более подробно.

1. Что такое AIC?

Информационный критерий Акаике (AIC) - это средство оценки ошибки прогнозирования вне выборки и, следовательно, относительного качества статистической модели для заданного набора данных. Учитывая набор моделей для данных, AIC оценивает качество каждой модели относительно каждой из других моделей. Таким образом, АПК предоставляет средства для выбора модели. - Википедия

Проще говоря, AIC - это единый числовой показатель, который можно использовать для определения, какая из нескольких моделей с наибольшей вероятностью будет лучшей моделью для данного набора данных. Он оценивает модели относительно, что означает, что оценки AIC полезны только по сравнению с другими оценками AIC для того же набора данных. Чем ниже балл AIC, тем лучше.

AIC чаще всего используется в ситуациях, когда невозможно легко протестировать производительность модели на тестовом наборе в стандартной практике машинного обучения (небольшие данные или временные ряды). AIC особенно ценен для временных рядов, потому что наиболее ценные данные анализа временных рядов часто являются самыми последними, которые застревают в наборах для проверки и тестирования. В результате обучение на всех данных и использование AIC может привести к улучшенному выбору модели по сравнению с традиционными методами выбора модели обучения / проверки / тестирования.

AIC работает, оценивая соответствие модели обучающим данным и добавляя штрафной член за сложность модели (аналогичные основы регуляризации). Желаемый результат - найти самый низкий возможный AIC, который указывает на лучший баланс соответствия модели с возможностью обобщения. Это служит конечной цели максимального соответствия данным вне выборки.

AIC использует оценку максимального правдоподобия модели (логарифм правдоподобия) в качестве меры соответствия. Логарифмическое правдоподобие - это мера того, насколько вероятно, что кто-то увидит свои наблюдаемые данные с учетом модели. Модель с максимальной вероятностью - это та, которая лучше всего соответствует данным. Натуральный логарифм вероятности используется для удобства вычислений. Для получения более подробной информации о логарифмической вероятности, вот полезное (и немного дрянное) вводное видео для оценки максимального правдоподобия и еще одно видео о том, как оценка максимального правдоподобия применяется к логистической регрессии, чтобы получить более интуитивное представление о том, что максимизация логарифмической вероятности модели выглядит так.

AIC является низким для моделей с высоким логарифмическим правдоподобием (модель лучше соответствует данным, что мы и хотим), но добавляет штрафной член для моделей с более высокой сложностью параметров, поскольку большее количество параметров означает, что модель с большей вероятностью переоборудует данные обучения.

2. Когда следует использовать AIC?

AIC обычно используется, когда у вас нет доступа к данным вне выборки и вы хотите выбрать между несколькими различными типами моделей или для удобства времени. Моей последней мотивацией к использованию AIC было то, что я быстро оценивал несколько моделей SARIMA, чтобы найти лучшую базовую модель, и хотел быстро оценить это, сохраняя при этом все данные в моем обучающем наборе.

(Примечание SARIMA: AIC предполагает, что все модели обучаются на одних и тех же данных, поэтому использование AIC для выбора между разными порядками разграничения технически недопустимо, поскольку одна точка данных теряется в каждом порядке разности. .) Список других технических фактов и заблуждений AIC, применимых в разных контекстах, можно найти в сообщении в блоге Роба Хайндмана.

Вы должны быть в состоянии выполнить предположения AIC. AIC предполагает, что вы:

  1. Используют одни и те же данные между моделями
  2. Измеряют одну и ту же переменную результата между моделями
  3. Получите образец бесконечного размера

Последнее предположение связано с тем, что AIC сходится к правильному ответу с бесконечным размером выборки. Часто для аппроксимации достаточно большой выборки, но поскольку использование AIC часто означает, что у вас маленький размер выборки, существует формула с корректировкой размера выборки под названием AICc, которая добавляет поправочный член, который сходится к ответу AIC для больших выборок, но дает более точный ответ для меньших выборок.

Как показывает опыт, всегда использовать AICc безопаснее, но AICc следует особенно использовать, когда соотношение ваших точек данных (n): количество параметров (k) равно ‹40. ( Статья на StackExchange , Обсуждая это более подробно с математической точки зрения, и видео на YouTube , дающее более концептуальное понимание AIC и AICc, начиная с 17:25).

Как только предположения AIC (или AICc) были выполнены, самым большим преимуществом использования AIC / AICc является то, что ваши модели не должны быть вложенными для проведения анализа. действительный, в отличие от других однозначных измерений соответствия модели, таких как тест отношения правдоподобия. Вложенная модель - это модель, параметры которой являются подмножеством параметров другой модели. В результате с AIC можно математически сравнивать самые разные модели.

3. Как следует интерпретировать результаты?

Когда у вас есть набор оценок AIC, что вы с ними делаете? Выбрать модель с наименьшей оценкой как лучшую? Вы можете сделать это, но оценки AIC сами по себе представляют собой вероятностное ранжирование моделей, которые, вероятно, минимизируют потерю информации (наилучшим образом соответствуют данным). Я объясню с помощью формулы ниже.

Предположим, вы рассчитали AIC для нескольких моделей и у вас есть ряд оценок AIC (AIC_1, AIC_2,… AIC_n). Для любого заданного AIC_i вы можете рассчитать вероятность того, что «i -я» модель минимизирует потерю информации с помощью приведенной ниже формулы, где AIC_min - это самый низкий показатель AIC в вашей серии оценок.

В Википедии есть отличный пример с двумя выборочными оценками AIC, равными 100 и 102, что приводит к математическому результату, согласно которому 102-балльная модель в 0,368 раза более вероятна, чем 100-балльная модель, чтобы быть лучшей моделью. AIC, равный 110, всего в 0,007 раза более вероятно, чтобы быть лучшей моделью, чем модель AIC со 100 баллами. Хотя это означает, что вы никогда не сможете узнать, когда одна модель лучше другой из AIC (в конце концов, использует только данные из выборки), существуют стратегии для обработки эти вероятностные результаты:

  1. Установите альфа-уровень, ниже которого будут отклоняться конкурирующие модели (например, альфа = 0,05 приведет к отклонению модели со 110-балльной оценкой на уровне 0,007).
  2. Если вы обнаружите конкурирующие модели выше вашего альфа-уровня, вы можете создать взвешенную сумму своих моделей пропорционально их вероятности (1: 0,368 в случае моделей с оценкой 100 и 102).

Или, если точность вашего ответа не имеет первостепенного значения, и вы хотите просто выбрать самый низкий AIC, знайте, что вы с большей вероятностью выберете неоптимальную модель, если есть другие оценки AIC, которые близки к минимальному AIC. ценность ваших экспериментов (100 против 100,1 может оставить вас безразличным между двумя моделями, по сравнению, например, со 100 против 120).

4. Подводные камни АПК

Напоминаем, что AIC только измеряет относительное качество моделей. Это означает, что все протестированные модели могут плохо подходить. В результате необходимы другие меры, чтобы показать, что результаты вашей модели соответствуют приемлемому абсолютному стандарту (например, расчет MAPE).

AIC также является относительно простым вычислением, которое основано на других более сложных в вычислительном отношении, но обычно более точных обобщенных показателях, и превосходит их. Примеры: DIC (информационный критерий отклонения), WAIC (информационный критерий Ватанабэ-Акаике) и LOO-CV (перекрестная проверка без исключения, к которой AIC асимптотически приближается с большими выборками).

В зависимости от того, насколько вы заботитесь о точности и вычислительной нагрузке (и удобстве расчета, учитывая возможности вашего программного пакета), вы можете выбрать AIC или один из новых, более сложных расчетов. Ben Lambert дает отличный краткий видеообзор различий между AIC, DIC, WAIC и LOO-CV.

Заключение

Для большинства расчетов, когда имеется достаточно данных, лучший (и самый простой) способ точно проверить производительность вашей модели - это использовать набор для обучения, проверки и тестирования в соответствии с хорошей практикой машинного обучения. Но если возникают обстоятельства, когда это невозможно (с небольшими данными или анализом временных рядов), AIC может быть лучшим тестом производительности.