Почему простые модели часто лучше

Значение бритвы Оккама в науке о данных и машинном обучении

В науке о данных и машинном обучении простота является важной концепцией, которая может оказать существенное влияние на характеристики модели, такие как производительность и интерпретируемость. Слишком сложные решения, как правило, отрицательно влияют на эти характеристики, увеличивая вероятность переобучения, снижая эффективность вычислений и снижая прозрачность выходных данных модели.

Последнее особенно важно для областей, требующих определенной степени интерпретируемости, таких как медицина и здравоохранение, финансы или право. Неспособность интерпретировать и доверять решению модели — и гарантировать, что это решение справедливо и непредвзято — может иметь серьезные последствия для людей, чья судьба зависит от этого.

Эта статья призвана подчеркнуть важность приоритета простоты, когда речь идет о реализации решения для обработки данных или машинного обучения. Сначала мы познакомимся с принципом бритвы Оккама, затем углубимся в преимущества простоты и, в конечном счете, определим, когда необходимо добавить сложности.

Бритва Оккама

Бритва Оккама, также известная как закон экономии, представляет собой философский принцип решения проблем, приписываемый Уильяму Оккаму — английскому философу и теологу XIV века. Первоначальный принцип часто цитируется как Entia non sunt multiplicanda praeter necessitatem, что примерно переводится как «Сущности не должны умножаться без необходимости».

В сфере науки о данных и машинного обучения это обычно интерпретируется как что-то вроде «Простые модели обычно предпочтительнее сложных» или «При прочих равных условиях самое простое решение, как правило, является лучшим». бритва в бритве Оккама символизирует «сбривание» ненужной сложности и предположений.

Преимущества простых решений

Снижение восприимчивости к переоснащению

Одним из основных преимуществ более простых моделей является то, что они менее подвержены переоснащению. Переоснащение происходит, когда модель становится слишком сложной и начинает соответствовать шуму в обучающих данных, а не основному шаблону. Это часто приводит к плохой работе с невидимыми данными, что приводит к отсутствию возможности обобщения и, следовательно, к ограниченной применимости модели.

Существует несколько методов, которые можно применить для получения модели с пониженной восприимчивостью к переобучению:

Перекрестная проверка. Модель обучается на обучающем наборе, а ее производительность оценивается на независимом проверочном наборе. Наиболее распространенным типом является k-кратная перекрестная проверка, при которой данные делятся на k подмножеств, модель обучается на k-1 подмножествах и в конечном итоге оценивается на оставшихся подмножество (набор проверки).
Увеличение данных. Большие наборы данных, как правило, уменьшают переоснащение. Однако, если большие данные недоступны, текущие данные могут быть дополнены за счет создания искусственных или синтетических данных. Точный процесс здесь зависит от характера данных. Например, при работе с данными изображения размер данных может быть увеличен путем применения к изображениям таких преобразований, как поворот, отражение, изменение масштаба и т. д.
Регуляризация. Этот метод ограничивает параметры модели, добавляя штрафной член к функции потерь. Наиболее распространенными методами являются L1, или Lasso, регуляризация, и L2, или Ridge, регуляризация. В то время как регуляризация L1 может привести к тому, что некоторые веса модели будут установлены равными нулю, эффективно удаляя эти функции из модели, регуляризация L2 уменьшает веса только асимптотически до нуля, в результате чего все функции используются для определения выходных данных модели. Кроме того, отсев является часто используемым методом регуляризации нейронных сетей, при котором определенный процент нейронов случайным образом обнуляется во время каждой итерации обучения. Это гарантирует, что оставшиеся нейроны узнают более надежные функции, поскольку они больше не могут полагаться на выбывшие нейроны для выполнения бремени предсказания.
Выбор функций. Удаление функций, которые считаются избыточными или нерелевантными, из обучающих данных неизбежно упростит модель и улучшит ее вычислительную производительность. Функции могут быть удалены либо вручную, на основе знаний предметной области, либо с помощью таких методов, как одномерная фильтрация, важность функций на основе дерева, рекурсивное удаление функций и т. д.
Уменьшение размерности. Подобно выбору признаков, методы уменьшения размерности, такие как анализ основных компонентов (PCA), линейный дискриминантный анализ (LDA) или t-распределенное стохастическое встраивание соседей (tSNE), уменьшают входные размеры до модель. Однако функции, которые они возвращают, представляют собой либо линейную, либо нелинейную комбинацию исходных функций, что, в свою очередь, уменьшит интерпретируемость модели, поскольку будет трудно определить, какие исходные функции повлияли на решения модели.
Ранняя остановка: это метод, применяемый к нейронным сетям, который останавливает обучение модели, как только ее производительность на проверочном наборе начинает ухудшаться. По сути, это предотвращает переоснащение, останавливая обучение до того, как модель станет слишком сложной.
Уменьшение сложности модели. Выбор модели с меньшим количеством параметров и более простой архитектурой также может значительно способствовать предотвращению переобучения.

Повышенная вычислительная эффективность

Более простые модели обычно повышают вычислительную производительность. Это ускорение в основном достигается за счет того, что модель требует меньшего количества параметров, меньшего количества вычислений и меньшего использования памяти.

Это также может привести к значительным преимуществам при развертывании модели. Поскольку более простые модели, как правило, имеют меньшее время вывода и меньшее использование памяти, их легче развернуть на устройствах с ограниченными ресурсами, таких как смартфоны и умные часы, потенциально создавая новую клиентскую базу.

Например, было продемонстрировано, что при обработке естественного языка простые модели n-грамм работают так же хорошо, как и их нейронные аналоги, но при этом значительно быстрее. Doval & Gómez-Rodríguez (2019) сравнили рекуррентные нейронные сети с моделями n-грамм в задаче сегментации слов и обнаружили, что точность моделей n-грамм почти не уступает нейросетевым подходам. Более того, модели n-грамм значительно превосходят рекуррентные нейронные сети по времени выполнения.

Точно так же было показано, что в оптическом распознавании символов простой алгоритм k-ближайших соседей (kNN) обеспечивает такую же точность — при значительно более коротком времени выполнения — что и сверточные нейронные сети (CNN) для определенных задач. Например, Sharma et al. (2022) оценили производительность различных классификаторов в задаче распознавания рукописных цифр и обнаружили, что, в то время как CNN дала точность 98,83%, облегченная kNN показала почти такие же результаты — 97,83%, при этом достигнув гораздо большей вычислительной производительности.

Повышенная интерпретируемость

Способность интерпретировать решение модели и гарантировать, что это решение не является несправедливым или предвзятым, имеет решающее значение, особенно в областях, где результат может иметь серьезные последствия для отдельных лиц.

Например, в медицинской визуализации важно, чтобы врачи могли интерпретировать, понимать и доверять результатам своей модели. Если радиолог не может подтвердить или опровергнуть отрицательный прогноз модели в отношении диагноза рака, он может назначить дополнительные тесты, некоторые из которых требуют инвазивных процедур, для установления диагноза. Если они в конечном итоге подтвердят, что у пациента нет рака, можно утверждать, что в результате отсутствия интерпретируемости модели пациент подвергся ненужным инвазивным процедурам, которых можно было бы избежать, если бы рентгенолог мог доверять. решение модели в первую очередь.

Точно так же выходные данные модели прогнозирования могут определить, получит ли больной раком лечение или нет. Очевидно, что эти результаты могут иметь существенные последствия для вовлеченных лиц, и поэтому очень важно, чтобы модель была достаточно простой, чтобы быть прозрачной и заслуживающей доверия.

При кредитном скоринге непрозрачная модель может давать предвзятые результаты, которые полностью оторваны от реальности. Представьте себе модель, целью которой является прогнозирование кредитоспособности, которая была обучена на исторических данных, содержащих различные предубеждения, заставляющие ее отдавать предпочтение определенным группам людей по сравнению с другими. Если человек из недопредставленной группы подает заявку на получение кредита, модель может решить, что он является заемщиком с высоким уровнем риска, и, таким образом, отклонить заявку, даже если на самом деле у него солидная кредитная история. Это отсутствие интерпретируемости модели может серьезно повлиять на людей, которые планировали купить дом, начать бизнес или изучить другие возможности, требующие некоторого начального капитала.

Тот же принцип применим и к сфере уголовного правосудия. Представьте себе модель, используемую для прогнозирования вероятности повторного совершения человеком преступления на основе его личной информации, криминального прошлого и различных других факторов. Если эта модель была обучена на необъективных данных, она может в конечном итоге отдать предпочтение группам с более высоким социально-экономическим статусом и, как следствие, предсказать более высокую вероятность рецидивизма для всех других групп. Таким образом, человеку с более низким социально-экономическим статусом может быть отказано в освобождении под залог, и он будет содержаться под стражей, даже если в действительности у него может быть очень низкий риск повторного совершения преступления. Опять же, работа с простой и прозрачной моделью уменьшит вероятность этих неблагоприятных результатов.

Во всех перечисленных выше категориях самый простой способ добиться более высокой интерпретируемости — выбрать более простую модель. Например, выбор алгоритма на основе дерева решений вместо сложной нейронной сети может значительно повысить прозрачность вывода, поскольку внутреннюю древовидную структуру можно легко визуализировать. Это позволяет отслеживать отдельные решения, что может дать критическую информацию о том, как возникло конкретное предсказание. Это делает деревья решений широко применимыми в областях, где ошибки прогнозирования могут иметь ужасные последствия, такие как описанные выше.

Когда необходима сложность

Хотя простота часто лучше, это не всегда так. Чрезмерно упрощенная модель может упустить соответствующие отношения между функциями и целевыми переменными, что в конечном итоге приведет к недообучению.

При работе с большими и многомерными наборами данных, характеристики которых имеют нелинейные отношения друг с другом, могут потребоваться более сложные модели, такие как нейронные сети, чтобы зафиксировать основные закономерности в данные.

Некоторые приложения также могут предъявлять высокие требования к точности, которым не может удовлетворить простая модель. Однако при реализации более сложной модели для повышения производительности часто снижается прозрачность. Поэтому также важно найти разумный компромисс между производительностью модели и интерпретируемостью. Например, в медицинской визуализации высокая точность является критически важной характеристикой, когда речь идет об обнаружении аномалий и принятии решений о жизни пациента. Однако, как обсуждалось выше, не менее важно, чтобы врачи могли понимать, интерпретировать и доверять этим решениям, чтобы установить надежную диагностическую процедуру.

Заключение

Хотя простые модели, безусловно, не являются панацеей от всех проблем, они являются предпочтительным выбором, когда требуется высокая степень интерпретируемости и вычислительной эффективности. Более того, они, как правило, предотвращают переоснащение, что приводит к большей обобщаемости и применимости модели.

Однако в определенных ситуациях возникает необходимость повысить уровень сложности решения. Это часто имеет место при работе с многомерными нелинейными данными или когда решение требует высокой степени точности, которую в противном случае было бы трудно достичь с помощью более простой модели.