Окончательное руководство по подгонке, подгонке и уменьшению размерности.

Предположим, что мы разрабатываем модель машинного обучения. Говорят, что модель является хорошей моделью машинного обучения, если она надлежащим образом обобщает любые новые входные данные из предметной области. Это помогает нам делать прогнозы в будущих данных, которые модель данных никогда не видела. Теперь предположим, что мы хотим проверить, насколько хорошо наша модель машинного обучения обучается и обобщает новые данные. Для этого у нас есть чрезмерная и недостаточная подгонка, которые в основном ответственны за плохую работу алгоритмов машинного обучения.

Недооснащение:

Говорят, что статистическая модель или алгоритм машинного обучения не соответствуют требованиям, если они не могут уловить основную тенденцию данных. (Это все равно, что пытаться подогнать штаны по размеру!) Недостаточная подгонка разрушает точность нашей модели машинного обучения. Его появление просто означает, что наша модель или алгоритм недостаточно хорошо соответствуют данным. Обычно это происходит, когда у нас меньше данных для построения точной модели, а также когда мы пытаемся построить линейную модель с нелинейными данными. В таких случаях правила модели машинного обучения слишком просты и гибки, чтобы их можно было применить к таким минимальным данным, и поэтому модель, вероятно, будет делать много неверных прогнозов. Недообучения можно избежать, используя больше данных, а также уменьшая количество признаков путем их выбора.

Переобучение:

Говорят, что статистическая модель переоснащена, когда мы обучаем ее на большом количестве данных (точно так же, как примеряем штаны большого размера!). Когда модель обучается с таким большим количеством данных, она начинает учиться на шуме и неточных записях данных в нашем наборе данных. Тогда модель неправильно классифицирует данные из-за слишком большого количества деталей и шума. Причинами переобучения являются непараметрические и нелинейные методы, потому что эти типы алгоритмов машинного обучения имеют больше свободы в построении модели на основе набора данных и, следовательно, могут действительно строить нереалистичные модели. Решением, позволяющим избежать переобучения, является использование линейного алгоритма, если у нас есть линейные данные, или использование таких параметров, как максимальная глубина, если мы используем деревья решений.

Как избежать переобучения:

Обычно используются следующие методики:

Перекрестная проверка:

Стандартный способ найти ошибку прогнозирования вне выборки — использовать 5-кратную перекрестную проверку.

Ранняя остановка:

Его правила дают нам руководство относительно того, сколько итераций можно выполнить, прежде чем учащийся начнет переобуваться.

Сокращение:

Отсечение широко используется при построении связанных моделей. Он просто удаляет узлы, которые добавляют мало предсказательной силы для рассматриваемой проблемы.

Регуляризация:

Он вводит термин стоимости для добавления дополнительных функций с целевой функцией. Следовательно, он пытается подтолкнуть коэффициенты для многих переменных к нулю и, следовательно, уменьшить термин затрат.

Хорошее соответствие статистической модели:

В идеале говорят, что случай, когда модель делает прогнозы с нулевой ошибкой, хорошо подходит к данным. Эта ситуация достижима в точке между переоснащением и недообучением. Чтобы понять это, нам нужно будет посмотреть на производительность нашей модели с течением времени, пока она учится на обучающем наборе данных. С течением времени наша модель будет продолжать учиться, и поэтому ошибка модели на данных обучения и тестирования будет продолжать уменьшаться. Если он будет учиться слишком долго, модель станет более склонной к переоснащению из-за наличия шума и менее полезных деталей. Следовательно, производительность нашей модели будет снижаться. Чтобы получить хорошую подгонку, мы остановимся в точке непосредственно перед тем, как ошибка начнет увеличиваться. На данный момент говорят, что у модели хорошие навыки работы с обучающим набором данных, а также с нашим невидимым тестовым набором данных.

Введение в уменьшение размерности

В статистике, машинном обучении и теории информации уменьшение размерности или уменьшение размерности — это процесс уменьшения количества рассматриваемых случайных переменных путем получения набора основных переменных. Его можно разделить на выбор признаков и извлечение признаков.

Машинное обучение:

Как обсуждалось в этой статье, машинное обучение — это не что иное, как область исследования, которая позволяет компьютерам «учиться» так же, как люди, без необходимости явного программирования.

Что такое прогнозное моделирование:

Прогнозное моделирование — это вероятностный процесс, который позволяет нам прогнозировать результаты на основе некоторых предикторов. Эти предикторы в основном представляют собой функции, которые вступают в игру при определении окончательного результата, то есть результата модели.

Уменьшение размерности

В задачах классификации машинного обучения часто слишком много факторов, на основе которых выполняется окончательная классификация. Эти факторы в основном являются переменными, называемыми функциями. Чем больше число функций, тем сложнее визуализировать тренировочный набор, а затем работать с ним. Иногда большинство этих признаков взаимосвязаны и, следовательно, избыточны. Здесь в игру вступают алгоритмы уменьшения размерности.

Уменьшение размерности - это процесс уменьшения количества рассматриваемых случайных величин путем получения набора основных переменных. Его можно разделить на выбор признаков и извлечение признаков.

Уменьшение размерности важно для машинного обучения и прогнозного моделирования

Интуитивно понятный пример уменьшения размерности можно обсудить с помощью простой задачи классификации электронной почты, где нам нужно классифицировать, является ли электронная почта спамом или нет. Это может включать в себя большое количество функций, таких как общий заголовок сообщения электронной почты, содержание сообщения электронной почты, использование шаблона сообщения электронной почты и т. д. Однако некоторые из этих функций могут частично совпадать. . В другом случае проблема классификации, которая зависит как от влажности, так и от количества осадков, может быть сведена только к одному основному признаку, поскольку оба вышеупомянутых фактора в высокой степени коррелируют. Следовательно, мы можем уменьшить количество признаков в таких задачах. Трехмерную задачу классификации бывает трудно визуализировать, тогда как двухмерную задачу можно отобразить в простое двухмерное пространство, а одномерную — в простую линию. Приведенный ниже рисунок иллюстрирует эту концепцию, где пространство трехмерных признаков разделено на два пространства одномерных признаков, а позже, если будет обнаружено, что они коррелированы, количество признаков может быть уменьшено еще больше.

Есть два компонента уменьшения размерности:

Выбор функций:

В этом мы пытаемся найти подмножество исходного набора переменных или функций, чтобы получить меньшее подмножество, которое можно использовать для моделирования проблемы. Обычно это включает три пути:

1. Фильтр

2. Обертка

3. Встроенный

Извлечение признаков:

Это уменьшает данные в пространстве высокой размерности до пространства более низкой размерности, т.е. пространства с меньшим числом. размеров.

Методы уменьшения размерности

Различные методы, используемые для уменьшения размерности, включают:

Анализ главных компонентов (PCA)
Линейный дискриминантный анализ (LDA)
Обобщенный дискриминантный анализ (GDA)

Уменьшение размерности может быть как линейным, так и нелинейным, в зависимости от используемого метода. Ниже обсуждается простой линейный метод, называемый анализом главных компонентов или PCA.

Анализ основных компонентов

Этот метод был введен Карлом Пирсоном. Он работает при условии, что, хотя данные в пространстве более высокого измерения сопоставляются с данными в пространстве более низкого измерения, дисперсия данных в пространстве более низкого измерения должна быть максимальной.

Он включает в себя следующие шаги:

Постройте ковариационную матрицу данных.
Вычислите собственные векторы этой матрицы.
Собственные векторы, соответствующие наибольшим собственным значениям, используются для восстановления большей части дисперсии исходных данных. Следовательно, у нас осталось меньшее количество собственных векторов, и в процессе могла произойти некоторая потеря данных. Но наиболее важные дисперсии должны сохраняться оставшимися собственными векторами.

Преимущества уменьшения размерности

• Это помогает в сжатии данных и, следовательно, уменьшает пространство для хранения.

Это сокращает время вычислений.
Это также помогает удалить избыточные функции, если таковые имеются.

Недостатки уменьшения размерности

• Это может привести к некоторой потере данных.

PCA имеет тенденцию находить линейные корреляции между переменными, что иногда нежелательно.
PCA терпит неудачу в тех случаях, когда среднего значения и ковариации недостаточно для определения наборов данных.
Мы можем не знать, сколько основных компонентов нужно сохранить — на практике применяются некоторые эмпирические правила.

Окончательное руководство по подгонке, подгонке и уменьшению размерности.

Вопросы по теме