Занимаясь прикладным анализом данных, крайне важно тщательно продумать соответствующую методологию обработки ваших данных. Хотя однозначного ответа на вопрос о том, какой метод является лучшим, нет, тщательные размышления перед началом анализа могут сэкономить значительное время и предотвратить возможные неудачи в будущем.

Несколько ключевых факторов должны определять ваш процесс принятия решений:

Контекст приложения

Желаемый результат вашего анализа должен быть центральным соображением. В частности, вы должны определить, важна ли интерпретируемость или модель должна позволять делать выводы.

Интерпретируемость

Некоторые методы, такие как отдельные деревья решений, обобщенные аддитивные модели (GAM) или регрессия лассо, известны своей относительно простой интерпретируемостью. Однако уровень интерпретируемости также зависит от конечного пользователя и от того, как ему будет представлена ​​модель. Для методов черного ящика, таких как случайные леса, ансамбли с градиентным усилением или машины опорных векторов, интерпретируемость может быть достигнута с помощью таких методов, как важность переменных и графики частичной зависимости.

Вывод

Машины опорных векторов, случайные леса, ансамбли с градиентным усилением, лассо-регрессия и нейронные сети преуспевают в прогнозировании, но им не хватает явного моделирования нелинейностей и взаимодействий, что делает их непригодными для логического вывода. В таких случаях более подходящими могут быть обобщенная линейная модель (GLM), оцениваемая с помощью максимального правдоподобия, или байесовский подход.

Затраты и преимущества

Крайне важно учитывать затраты и выгоды, связанные с вычислениями, информацией, точностью прогнозов и интерпретируемостью.

Дорогостоящая коллекция предикторов

Если сбор переменных-предикторов обходится дорого, часто предпочтительны методы, выполняющие выбор переменных, такие как (расслабленная) регрессия лассо, чтобы избежать включения ненужных переменных в окончательную модель.

Стоимость вычислений

В зависимости от вычислительных требований могут быть предпочтительными различные методы. Например, если прогнозы должен делать человек, принимающий решения, более подходящими могут быть (оштрафованные) GLM или деревья решений. Машины опорных векторов, случайные леса или ансамбли с градиентным усилением менее требовательны к вычислительным ресурсам и могут быть жизнеспособными альтернативами. Даже в высокотехнологичных приложениях низкая вычислительная нагрузка одного дерева решений или модели лассо-регрессии может быть предпочтительнее для повышения эффективности.

Характеристики проблемы с данными

При рассмотрении характеристик проблемы данных при выборе методологии следует руководствоваться определенными факторами:

Размер образца

Меньшие размеры выборки N увеличивают дисперсию подобранной модели. В таких случаях предпочтительны методы с более высоким смещением и более низкой дисперсией. Например, GLM и GAM предполагают отсутствие взаимодействий, что делает их подходящими, когда взаимодействия слабее, чем основные эффекты.

Количество переменных-предикторов

GLM, оцениваемый по максимальному правдоподобию, не может обрабатывать большое количество переменных-предикторов (p > N), в то время как такие методы, как деревья одиночных решений, машины опорных векторов, случайные леса, ансамбли с градиентным усилением, нейронные сети, регрессия со штрафом и байесовская регрессия могут приспособиться. p › N, используя интеллектуальные встроенные методы регуляризации.

Шумность проблемы

Наличие высокой неустранимой ошибки увеличивает дисперсию подобранной модели. Введение небольшой погрешности может быть полезным, особенно при меньших размерах выборки. Например, использование небольших деревьев или пней в ансамбле деревьев решений или предположение о линейных ассоциациях может смягчить влияние шума. Использование перекрестной проверки для выбора параметров, подходящих для модели, также может снизить вероятность переобучения.

Размер нелинейностей и взаимодействий

Методы, предполагающие линейность (такие как GLM, GLM со штрафом гребня и/или лассо, или SVM с линейным ядром) подходят, когда ожидается, что нелинейность и взаимодействия будут незначительными. В качестве альтернативы, GAM, деревья решений, машины опорных векторов с нелинейными ядрами и ансамбли деревьев решений (с ограничениями на количество разбиений) эффективны, когда нелинейности или взаимодействия значительны. Сравнение производительности различных моделей, таких как машины опорных векторов с линейными и нелинейными ядрами или ансамбли с градиентным усилением с различными размерами деревьев, может дать представление о наличии и величине нелинейностей и взаимодействий.

Важно не пробовать чрезмерное количество моделей. Структурированный подход к выбору модели имеет решающее значение для предотвращения переобучения. Оценка множества моделей в заданном наборе данных увеличивает шансы выбора модели, которая хорошо работает чисто случайно. Тщательно выбирая небольшое количество априорных правдоподобных моделей и используя такие методы, как перекрестная проверка, можно свести к минимуму переобучение, что приведет к моделям с хорошими возможностями обобщения.