Машинное обучение — Введение в статистическую теорию обучения (извлечение и выбор признаков)

Course:
Feature extraction — Principal component analysis, Singular value decomposition.
Feature selection — feature ranking and subset selection, filter, wrapper, and embedded methods.
Evaluating Machine Learning algorithms and Model Selection.

Уменьшение размерности

Снижение размерности — это процесс уменьшения количества рассматриваемых случайных переменных путем получения набора основных переменных.
также известный как Проклятие размерности.

📖 Dimensionality reduction is a way of converting the higher dimensions(Large) dataset into lesser dimensions(Small) dataset ensuring that it provides similar information.

Следовательно, часто требуется уменьшить количество признаков, что можно сделать с помощью уменьшения размерности.

Преимущества уменьшения размерности

Это помогает в сжатии данных и, следовательно, уменьшает пространство для хранения.
Это сокращает время вычислений.
Это также помогает удалить избыточные функции, если таковые имеются.

Недостатки уменьшения размерности

Потери данных.
Вычислительно дорого.

Использование –
распознавание речи, обработка сигналов, биоинформатика, визуализация данных, шумоподавление, кластерный анализ и т. д.

Типы -

Его можно разделить на выбор признаков и извлечение признаков.

Извлечение признаков

Извлечение функций направлено на сокращение количества функций в наборе данных путем создания новых функций из существующих (а затем отбрасывания исходных функций).

Это процесс уменьшения размерности, при котором исходный набор необработанных данных сводится к более управляемым группам для обработки.

Эти новые сокращенные наборы признаков должны затем обобщить большую часть информации, содержащейся в исходном наборе признаков.

Методы извлечения признаков -

Анализ главных компонентов (PCA)

Анализ основных компонентов — это статистический процесс, который преобразует наблюдения коррелированных признаков в набор линейно некоррелированных признаков с помощью ортогонального преобразования. Эти новые преобразованные функции называются основными компонентами.

PCA — это алгоритм обучения без учителя, поэтому он не заботится о метках данных, а только о вариациях. В некоторых случаях это может привести к неправильной классификации данных.

PCA работает, рассматривая дисперсию каждого атрибута, потому что высокий атрибут показывает хорошее разделение между классами и, следовательно, уменьшает размерность.

Некоторыми реальными приложениями PCA являются обработка изображений и системы рекомендации фильмов.

Некоторые общие термины, используемые в алгоритме PCA:

Собственные значения. В основном это называется характеристическими корнями. По сути, он измеряет дисперсию всех переменных, учитываемых этим фактором.

Собственный вектор. Это ненулевой вектор, который остается параллельным после матричного умножения.

Ковариационная матрица.Матрица, содержащая ковариацию между парой переменных, называется ковариационной матрицей.

Ортогональный.Определяет, что переменные не коррелируют друг с другом, и, следовательно, корреляция между парой переменных равна нулю.

Корреляция. Показывает, насколько сильно две переменные связаны друг с другом. Например, если одна переменная изменяется, другая переменная также изменяется. Значение корреляции находится в диапазоне от -1 до +1.

Работа PCA –

Он работает при условии, что в то время как данные в пространстве более высокой размерности сопоставляются с данными в пространстве более низкой размерности, дисперсия данных в пространстве более низкой размерности должна быть максимальной.

Ниже представлен основной этап анализа основных компонентов:

Стандартизируйте набор данных.
Вычислите ковариационную матрицу для признаков в наборе данных.
Вычислите собственные значения и собственные векторы для ковариационной матрицы.
Отсортируйте собственные значения и соответствующие им собственные векторы.
выберите k собственных значений, чтобы сформировать матрицу собственных векторов.
Преобразуйте исходную матрицу.

Следовательно, у нас осталось меньшее количество собственных векторов, и в процессе могла произойти некоторая потеря данных. Но наиболее важные дисперсии должны сохраняться оставшимися собственными векторами.

Использование PCA:

Он используется для поиска взаимосвязей между переменными в данных.
Он используется для интерпретации и визуализации данных.
Уменьшено количество переменных, что упрощает дальнейший анализ.
Его часто используют для визуализации генетической дистанции и родства между популяциями.

Преимущества:

Это помогает в сжатии данных и удаляет коррелированные функции.
Он преобразует данные высокой размерности в данные низкой размерности, что улучшает и упрощает визуализацию.

Недостатки:

Это может привести к некоторой потере данных.
Он имеет тенденцию находить линейные корреляции между переменными, что иногда нежелательно.
Он терпит неудачу в тех случаях, когда среднего значения и ковариации недостаточно для определения наборов данных.

Разложение по сингулярным значениям (SVD)

SVD — это алгоритм, который разлагает матрицу m x n, M, действительных или комплексных значений, на три матрицы компонентов, где факторизация имеет вид USV*.

Одной из особенностей SVD является то, что при разложении M на U, S и V один может восстановить исходную матрицу M или ее приближение.

Где U и V — ортогональные матрицы, а S — диагональная матрица.

SVD широко используется как при вычислении матричных операций, таких как обратная матрица, так и в качестве метода сокращения данных.

Выбор функции

Выбор функций – это способ выбрать подмножество наиболее релевантных функций из исходного набора функций путем удаления избыточных, нерелевантных или зашумленных функций.

Функция — это атрибут, который влияет на проблему или полезен для решения проблемы, и выбор важных функций для модели называется выбором функций.

📖 Difference between Feature Selection and Extraction
The main difference between them is that feature selection is about selecting the subset of the original feature set, whereas feature extraction creates new features

Методы выбора признаков

В основном существует два типа методов выбора признаков, а именно:

Техника контролируемого выбора объектов: она учитывает целевую переменную и может использоваться для помеченного набора данных.
Техника неконтролируемого выбора признаков: она игнорирует целевую переменную и может использоваться для немаркированного набора данных.

В основном есть три метода контролируемого выбора функций:

1. Методы обертки

В методологии обертки выбор признаков осуществляется путем рассмотрения его как задачи поиска, в которой создаются, оцениваются и сравниваются различные комбинации с другими комбинациями. Он обучает алгоритм, итеративно используя подмножество признаков.

На основе выходных данных модели добавляются или вычитаются функции, и с этим набором функций модель снова обучается.

Некоторые методы методов-оболочек:

Прямой выбор. Прямой выбор — это итеративный процесс, который начинается с пустого набора функций. После каждой итерации он продолжает добавлять функцию и оценивает производительность, чтобы проверить, улучшает ли она производительность или нет. Процесс продолжается до тех пор, пока добавление новой переменной/функции не улучшит производительность модели.
Обратное исключение. Обратное исключение также представляет собой итеративный подход, но он противоположен прямому выбору. Этот метод начинает процесс с рассмотрения всех признаков и удаления наименее значимого признака. Этот процесс исключения продолжается до тех пор, пока удаление функций не улучшит производительность модели.
Исчерпывающий выбор признаков. Исчерпывающий выбор признаков — один из лучших методов выбора признаков, при котором каждый набор признаков оценивается как грубая сила. Это означает, что этот метод пробует и создает каждую возможную комбинацию функций и возвращает наиболее эффективный набор функций.
Рекурсивное исключение функций. Рекурсивное исключение функций — это рекурсивный подход к жадной оптимизации, при котором функции выбираются путем рекурсивного отбора все меньшего и меньшего подмножества функций. Теперь оценщик обучается с каждым набором функций, а важность каждой функции определяется с помощью coef_attribute или с помощью feature_importances_attribute.

2. Методы фильтрации

В методе фильтрации функции выбираются на основе показателей статистики. Этот метод не зависит от алгоритма обучения и выбирает признаки в качестве шага предварительной обработки.

Метод filter отфильтровывает нерелевантные функции и избыточные столбцы из модели, используя различные метрики посредством ранжирования.

Преимущество использования методов фильтрации заключается в том, что они требуют небольшого времени вычислений и не перекрывают данные.

Ниже приведены некоторые распространенные приемы методов фильтрации.

Прирост информации. Прирост информации определяет снижение энтропии при преобразовании набора данных. Его можно использовать в качестве метода выбора признаков путем расчета прироста информации каждой переменной по отношению к целевой переменной.
Тест хи-квадрат. Тест хи-квадрат – это метод определения взаимосвязи между категориальными переменными. Значение хи-квадрат вычисляется между каждой функцией и целевой переменной, и выбирается желаемое количество функций с лучшим значением хи-квадрат.
Оценка Фишера. Оценка Фишера — это один из популярных контролируемых методов отбора признаков. Возвращает ранг переменной по критерию рыбака в порядке убывания. Затем мы можем выбрать переменные с большим показателем Фишера.
Коэффициент недостающих значений. Значение коэффициента недостающих значений можно использовать для оценки набора функций по сравнению с пороговым значением. Формула для получения коэффициента пропущенных значений представляет собой количество пропущенных значений в каждом столбце, деленное на общее количество наблюдений. Переменная, имеющая значение больше порогового, может быть отброшена.

3. Встроенные методы

Встроенные методы сочетают в себе преимущества как фильтров, так и методов-оболочек, рассматривая взаимодействие функций наряду с низкими вычислительными затратами. Это быстрые методы обработки, похожие на метод фильтра, но более точные, чем метод фильтра.

Эти методы также являются итеративными, которые оценивают каждую итерацию и оптимально находят наиболее важные функции, которые больше всего способствуют обучению в конкретной итерации.

Некоторые приемы встроенных методов:

Регуляризация. Регуляризация добавляет штрафной срок к различным параметрам модели машинного обучения, чтобы избежать переобучения в модели. Этот штрафной срок добавляется к коэффициентам; следовательно, он уменьшает некоторые коэффициенты до нуля. Те объекты с нулевыми коэффициентами могут быть удалены из набора данных. Типы методов регуляризации: регуляризация L1 (регуляризация лассо) или эластичные сети (регуляризация L1 и L2).
Важность случайного леса. Различные методы выбора признаков на основе дерева помогают нам с важностью признаков, чтобы обеспечить способ выбора признаков. Здесь важность функции указывает, какая функция имеет большее значение при построении модели или оказывает большое влияние на целевую переменную. Случайный лес — это такой метод на основе дерева, который представляет собой тип алгоритма упаковки, который объединяет различное количество деревьев решений. Он автоматически ранжирует узлы по их производительности или уменьшению примесей по всем деревьям. Узлы упорядочены в соответствии со значениями примесей, и, таким образом, это позволяет обрезать деревья ниже определенного узла. Остальные узлы создают подмножество наиболее важных функций.

Сравнение фильтров, оболочек и встроенных методов:

Оценка алгоритмов машинного обучения и выбор модели.

Оценка модели -

Это метод оценки правильности моделей на тестовых данных. Тестовые данные состоят из точек данных, которые модель раньше не видела.

Выбор модели -

Это метод выбора лучшей модели после оценки отдельных моделей на основе требуемых критериев.

Методы оценки производительности модели -

1. Удержание

Удержание — это когда вы разделяете свой набор данных на «обучающий» и «тестовый» наборы. Учебный набор — это то, на чем обучается модель, а тестовый набор используется, чтобы увидеть, насколько хорошо эта модель работает с невидимыми данными. Стандартное разделение при использовании метода удержания использует 80% данных для обучения и оставшиеся 20% данных для тестирования.

2. Перекрестная проверка

Перекрестная проверка или «k-кратная перекрестная проверка» — это когда набор данных случайным образом разбивается на «k» групп. Одна из групп используется в качестве тестовой, а остальные — в качестве обучающей. Модель обучается на тренировочном наборе и оценивается на тестовом наборе. Затем процесс повторяется до тех пор, пока каждая уникальная группа не будет использована в качестве тестового набора.

Это обертка!

Я ценю, что вы нашли время и прочитали это; пожалуйста, поделитесь им с друзьями и семьей, если вы нашли его полезным, нажмите кнопку «Подписаться», чтобы поддержать меня.

Свяжемся в Твиттере. Мне бы хотелось узнать больше о своей аудитории и создать сообщество :)

Дайте мне свои выводы и другие темы, о которых вы хотели бы, чтобы я написал в разделе комментариев — мне не терпится узнать, что вы скажете.

Надеюсь, это поможет вам, и хорошего дня!