Введение в алгоритмы машинного обучения

Очевидные вопросы, которые следует задать при столкновении с широким спектром алгоритмов машинного обучения: «Какой алгоритм лучше подходит для конкретной задачи и какой из них мне следует использовать?»

Ответы на эти вопросы зависят от нескольких факторов, включая: (1) размер, качество и характер данных; (2) доступное вычислительное время; (3) Актуальность задачи; и (4) Что вы хотите делать с данными.

В этом проекте я попытался максимально просто отобразить и кратко объяснить основные алгоритмы (хотя и не все), доступные для различных задач.

1. Алгоритмы регрессии:

· Обычная регрессия наименьших квадратов (OLSR) - метод линейной регрессии для оценки неизвестных параметров путем создания модели, которая минимизирует сумму квадратов ошибок между наблюдаемыми данными и прогнозируемыми (наблюдаемые значения и оценочные значения).

· Линейная регрессия - используется для оценки реальных значений (стоимость домов, количество звонков, общий объем продаж и т. Д.) На основе непрерывной переменной.

· Логистическая регрессия - используется для оценки дискретных значений (двоичных значений, таких как 0/1, да / нет, истина / ложь) на основе заданного набора независимых переменных.

· Пошаговая регрессия - добавляет элементы в вашу модель одну за другой, пока не будет найдена оптимальная оценка для вашего набора функций. Пошаговый выбор чередуется между прямым и обратным, вводя и удаляя переменные, которые соответствуют критериям для ввода или удаления, до тех пор, пока не будет достигнут стабильный набор переменных. Хотя я не видел слишком много статей об этом и слышал несколько аргументов, что это не работает.

· Сплайны с многомерной адаптивной регрессией (MARS) - гибкий метод регрессии, который ищет взаимодействия и нелинейные отношения, которые помогают максимизировать точность прогнозов. Эти алгоритмы по своей сути нелинейны (это означает, что вам не нужно адаптировать модель к нелинейным шаблонам в данных, вручную добавляя элементы модели (элементы в квадрате, эффекты взаимодействия)).

· Локально оцененное сглаживание диаграммы рассеяния (LOESS) - метод подбора гладкой кривой между двумя переменными или подбора гладкой поверхности между результатом и до четырех переменных-предикторов. Идея состоит в том, что если ваши данные не распределены линейно, вы все равно можете применить идею регрессии. Вы можете применить регрессию, и она называется локально взвешенной регрессией. Вы можете применить LOESS, когда отношения между независимыми и зависимыми переменными нелинейны. Сегодня большинство алгоритмов (например, классическая нейронная сеть с прямой связью, опорные векторные машины, алгоритмы ближайшего соседа и т. Д.) Представляют собой глобальные обучающие системы, в которых они используются для минимизации глобальных функций потерь (например, квадратичной ошибки суммы). В отличие от них, локальные системы обучения разделят глобальную проблему обучения на несколько более мелких / простых задач обучения. Обычно это достигается путем разделения функции затрат на несколько независимых локальных функций затрат. Одним из недостатков глобальных методов является то, что иногда никакие значения параметров не могут обеспечить достаточно хорошее приближение. Но затем идет LOESS - альтернатива приближению глобальной функции.

2. Алгоритмы на основе экземпляров:

· K-ближайшее соседство (KNN) - может использоваться как для задач классификации, так и для задач регрессии. KNN хранит все доступные кейсы и классифицирует новые кейсы большинством голосов своих K соседей. Прогнозы для новой точки данных выполняются путем поиска по всему обучающему набору K наиболее похожих экземпляров (соседей) и суммирования выходной переменной для этих K экземпляров. Для задач регрессии это может быть средняя выходная переменная, для задач классификации это может быть значение класса режима (или наиболее распространенное).

· Квантование векторов обучения (LVQ). Обратной стороной метода K-ближайших соседей является то, что оно зависит от всего набора обучающих данных. LVQ - это алгоритм искусственной нейронной сети, который позволяет вам выбирать, сколько обучающих экземпляров нужно удерживать, и точно изучает, как эти экземпляры должны выглядеть. Если вы обнаружите, что KNN дает хорошие результаты для вашего набора данных, попробуйте использовать LVQ, чтобы уменьшить требования к памяти для хранения всего набора обучающих данных.

· Самоорганизующаяся карта (SOM) - неконтролируемая модель глубокого обучения, в основном используемая для обнаружения функций или уменьшения размерности. Он выводит 2D-карту для любого количества индикаторов. SOM отличается от других искусственных нейронных сетей тем, что применяет конкурентное обучение в отличие от обучения с исправлением ошибок (например, обратное распространение с градиентным спуском) и в том смысле, что они используют функцию соседства для сохранения топологических свойств входного пространства.

· Локально-взвешенное обучение (LWL). Идея этого алгоритма заключается в том, что вместо построения глобальной модели для всего функционального пространства для каждой интересующей точки мы строим локальную модель на основе соседних данных точка запроса. Для этого каждая точка данных становится весовым коэффициентом, который выражает влияние точки данных на прогноз. В основном точки данных, которые находятся в непосредственной близости от текущей точки запроса, получают более высокий вес, чем точки данных, которые находятся далеко.

3. Алгоритмы регуляризации:

· Риджевая регрессия (Регуляризация L2) - ее цель - решить проблемы переобучения данных. Стандартная модель линейной или полиномиальной регрессии не сработает в случае высокой коллинеарности (существования почти линейных отношений между независимыми переменными) между характеристическими переменными. Ридж-регрессия добавляет к переменным небольшой квадратный коэффициент смещения. Такой возведенный в квадрат коэффициент смещения отталкивает коэффициенты переменной признака от этой жесткости, привнося небольшое смещение в модель, но значительно уменьшая дисперсию. У регрессии Ridge есть один главный недостаток: она включает в себя все n функций в окончательной модели.

· Оператор наименьшего абсолютного сжатия и выбора (LASSO, L1 Regularization) - в отличие от регрессии гребня, он штрафует только высокие коэффициенты. Эффект лассо заставляет некоторые оценки коэффициентов быть точно равными нулю, когда гиперпараметр θ достаточно велик. Следовательно, можно сказать, что Lasso выполняет выбор переменных, создавая модели, которые гораздо легче интерпретировать, чем модели, созданные с помощью Ridge Regression.

· Эластичная сетка сочетает в себе некоторые характеристики лассо и гребня. Лассо удалит многие функции, в то время как гребень уменьшит влияние функций, которые не важны для прогнозирования ваших значений y. Этот алгоритм уменьшает влияние различных функций (например, гребня), но не устраняет все функции (например, лассо).

· Регрессия по методу наименьшего угла (LARS) - аналогична прямой ступенчатой ​​регрессии. На каждом этапе он находит предиктор, наиболее коррелирующий с ответом. Когда существует несколько предикторов, имеющих равную корреляцию, вместо того, чтобы продолжать работу по одному и тому же предиктору, он движется в одинаковом направлении между предикторами.

4. Алгоритмы дерева решений:

· Итеративный дихотомайзер 3 (ID3) - строит дерево сверху вниз. Он начинается с корня и выбирает атрибут, который будет проверяться на каждом узле. Каждый атрибут оценивается с помощью некоторых статистических средств, чтобы определить, какой атрибут лучше всего разделяет набор данных. Наилучший атрибут становится корневым, а значения его атрибутов разветвляются. Затем процесс продолжается с остальными атрибутами. После выбора атрибута вернуться к нему невозможно.

· C4.5 и C5.0 (разные версии мощного подхода) - C4.5, следующая итерация Куинлана - это более новая версия ID3. Новые функции (по сравнению с ID3): (i) допускают как непрерывные, так и дискретные функции; (ii) обрабатывает неполные точки данных; (iii) решает проблему чрезмерной подгонки с помощью восходящей техники, обычно известной как «обрезка»; и (iv) различные веса могут применяться к функциям, которые составляют обучающие данные. C5.0, последняя итерация Quinlan. Эта реализация защищена патентом и, вероятно, в результате редко реализуется (за пределами коммерческих пакетов программного обеспечения).

· Дерево классификации и регрессии (КОРЗИНА) - КОРЗИНА используется в качестве аббревиатуры для термина дерево решений. В общем, реализация CART очень похожа на реализацию вышеупомянутого C4.5. Единственное отличие состоит в том, что CART строит деревья на основе критерия численного разделения, рекурсивно применяемого к данным, в то время как C4.5 включает промежуточный этап построения наборов правил.

· Автоматическое обнаружение взаимодействия по критерию хи-квадрат (CHAID) - алгоритм, используемый для обнаружения взаимосвязей между категориальной переменной ответа и другими категориальными переменными-предикторами. Он создает все возможные перекрестные таблицы для каждого категориального предиктора до тех пор, пока не будет достигнут наилучший результат и дальнейшее разделение не будет выполнено. CHAID строит прогнозную модель или дерево, чтобы помочь определить, как переменные лучше всего объединяются, чтобы объяснить результат в данной зависимой переменной. В анализе CHAID могут использоваться номинальные, порядковые и непрерывные данные, где непрерывные предикторы разбиты на категории с примерно равным количеством наблюдений. Это полезно при поиске закономерностей в наборах данных с большим количеством категориальных переменных и является удобным способом обобщения данных, поскольку взаимосвязи можно легко визуализировать.

· Decision Stump - модель машинного обучения, состоящая из одноуровневого дерева решений; дерево с одним внутренним узлом (корнем), которое связано с конечными узлами (его листьями). Эта модель делает прогноз на основе значения только одной входной функции.

· M5- M5 сочетает в себе обычное дерево решений с возможностью функций линейной регрессии в узлах. Помимо точности, он может выполнять задачи очень большой размерности - до сотен атрибутов. Дерево модели M5 представляет собой средство обучения дерева решений для задачи регрессии, что означает, что оно используется для прогнозирования значений переменной числового отклика Y. Хотя дерево M5 использует тот же подход с деревом CART при выборе среднеквадратичной ошибки в качестве функции примеси, оно не назначает константа для конечного узла, но вместо этого соответствует многомерной модели линейной регрессии.

5. Байесовские алгоритмы.

· Наивный байесовский метод - предполагает, что наличие определенной функции в классе не связано с наличием какой-либо другой функции (независимость). Предоставляет способ вычисления апостериорной вероятности P (c | x) из P (c), P (x) и P (x | c). Полезно для очень больших наборов данных.

· Гауссовский Наивный Байес- предполагает, что распределение вероятностей является гауссовским (нормальным). Для непрерывных распределений предпочтительным является гауссовский наивный байесовский алгоритм.

· Полиномиальный наивный байесовский анализ - конкретный пример наивного байесовского метода, в котором P (Featurei | Class) следует полиномиальному распределению (количество слов, вероятности и т. Д.). Это в основном используется для задачи классификации документов (относится ли документ к категории спорта, политики, технологий и т. Д.). Функции / предикторы, используемые классификатором, - это частота слов, присутствующих в документе.

· Усредненные оценщики с одной зависимостью (AODE) - разработаны для решения проблемы независимости атрибутов наивного байесовского классификатора. AODE часто разрабатывает значительно более точные классификаторы, чем наивный байесовский классификатор, с небольшими затратами на умеренное увеличение объема вычислений.

· Байесовская сеть убеждений (BBN) - вероятностная графическая модель (тип статистической модели), которая представляет набор переменных и их условных зависимостей через направленный ациклический граф (DAG). Например, байесовская сеть может представлять вероятностные отношения между болезнями и симптомами. Учитывая симптомы, сеть можно использовать для вычисления вероятности наличия различных заболеваний. BBN - это особый тип диаграммы (называемый ориентированным графом) вместе с соответствующим набором таблиц вероятностей.

· Байесовская сеть (BN) - цель байесовских сетей - моделировать условную зависимость и, следовательно, причинно-следственную связь, путем представления условной зависимости ребрами в ориентированном графе. Используя их, вы можете эффективно делать выводы о случайных величинах на графике с помощью факторов.

· Скрытые марковские модели (HMM) - класс вероятностных графических моделей, которые дают нам возможность предсказывать последовательность неизвестных (скрытых) переменных из набора наблюдаемых переменных. Например, мы можем использовать его для прогнозирования погоды (скрытая переменная) на основе типа одежды, которую кто-то носит (наблюдаемой). HMM можно рассматривать как сеть Байеса, развернутую во времени, с наблюдениями, сделанными в последовательности временных шагов, которые используются для предсказания наилучшей последовательности скрытых состояний.

· Условные случайные поля (CRF) - классическая модель машинного обучения для обучения последовательных моделей. Это тип дискриминационного классификатора, который моделирует границу принятия решения между различными классами. Разница между дискриминативными и генеративными моделями состоит в том, что в то время как дискриминативные модели пытаются моделировать условное распределение вероятностей, то есть P (y | x), генеративные модели пытаются моделировать совместное распределение вероятностей, то есть P (x, y). Их основной принцип заключается в том, что они применяют логистическую регрессию к последовательным входным данным. Скрытые марковские модели имеют некоторые общие черты с CRF, одно из которых состоит в том, что они также используются для последовательных входов. CRF чаще всего используются для задач НЛП.

6. Алгоритмы кластеризации:

· K-Means - алгоритм, совершенно отличный от KNN (не путайте их!). K означает, что цель состоит в том, чтобы разделить X точек данных на K кластеров, где каждая точка данных назначена своему ближайшему кластеру. Идея состоит в том, чтобы минимизировать сумму всех квадратов расстояний в кластере для всех кластеров.

· одинарная кластеризация - один из нескольких методов иерархической кластеризации. Он основан на группировке кластеров по восходящей схеме. При однократной кластеризации сходство двух кластеров - это сходство их наиболее похожих членов.

· K-медианы - вариант алгоритма K означает. Идея состоит в том, что вместо вычисления среднего значения для каждого кластера (чтобы определить его центроид) мы вычисляем медиану.

· Максимизация ожидания (EM) - он работает аналогично K-средству, за исключением того факта, что данные назначаются каждому кластеру с весами, которые являются мягкими вероятностями, а не расстояниями. Его преимущество состоит в том, что модель становится генеративной, поскольку мы определяем распределение вероятностей для каждой модели.

· Иерархическая кластеризация - не разделяет набор данных на кластеры за один шаг. Вместо этого он включает в себя несколько шагов, которые выполняются от одного кластера, содержащего все точки данных, до N кластеров, содержащих одну точку данных.

· Нечеткая кластеризация - форма кластеризации, в которой каждая точка данных может принадлежать более чем одному кластеру.

· DBSCAN (Пространственная кластеризация приложений с шумом на основе плотности) - используется для отделения кластеров с высокой плотностью от кластеров с низкой плотностью. DBSCAN требует всего два параметра: минимальное расстояние между двумя точками и минимальное количество точек для формирования плотной области. Это означает, что он группирует точки, которые расположены близко друг к другу (обычно евклидово расстояние), и минимальное количество точек.

· ОПТИКА (упорядочение точек для определения структуры кластера) - идея, лежащая в основе этого, аналогична DBSCAN, но устраняет один из основных недостатков DBSCAN: проблему обнаружения значимых кластеров в данных различной плотности.

· Факторизация неотрицательной матрицы (NMF) - линейно-алгебраическая модель, которая преобразует векторы большой размерности в представление низкой размерности. Подобно анализу главных компонентов (PCA), NMF использует тот факт, что векторы неотрицательны. Разлагая их на меньшую размерную форму, NMF заставляет коэффициенты также быть неотрицательными.

· Скрытое распределение Дирихле (LDA) - тип вероятностной модели и алгоритм, используемый для обнаружения тем, присутствующих в корпусе. Например, если наблюдения - это слова, собранные в документы, для получения кластерных назначений необходимы два значения вероятности: P (слово | темы), вероятность того, что слово задано темами. И P (темы | документы), вероятность тематики заданных документов. Эти значения рассчитываются на основе первоначального случайного присвоения. Затем вы повторяете их для каждого слова в каждом документе, чтобы определить их тематическое назначение.

· Модель гауссовой смеси (GMM). Ее цель - найти смесь многомерных гауссовских распределений вероятностей, которая наилучшим образом моделирует любой входной набор данных. Его можно использовать для поиска кластеров так же, как это делает k-means. Идея довольно проста, найти параметры гауссианов, которые лучше всего объясняют наши данные. Мы предполагаем, что данные нормальные, и хотим найти параметры, которые максимизируют вероятность наблюдения за этими данными.

7. Алгоритмы изучения правил ассоциации:

· Изучение правил связывания - для набора транзакций цель состоит в том, чтобы найти правила, которые будут предсказывать появление элемента на основе вхождений других элементов в транзакции.

· Априори - имеет большое значение для интеллектуального анализа данных. Это полезно при поиске часто встречающихся наборов элементов (коллекции из одного или нескольких элементов) и соответствующих правил ассоциации. Обычно вы используете этот алгоритм в базе данных с большим количеством транзакций. Например, товары, которые покупатели покупают в супермаркете. Алгоритм Apriori сокращает количество кандидатов по следующему принципу: если набор элементов является частым, ВСЕ его подмножества являются частыми.

· Eclat (преобразование класса эквивалентности) - самое большое отличие от алгоритма Apriori в том, что он использует поиск в глубину вместо поиска в ширину. В алгоритме Apriori используется элемент, основанный на продукте (элементы корзины покупок 1, 2, 3, 3 и т. Д.), Но в алгоритме Eclat транзакция передается элементами (Корзина 100, 200 и т. Д.).

· Рост FP (частая модель) - помогает выполнить анализ рыночной корзины на основе данных о транзакциях. По сути, он пытается идентифицировать наборы продуктов, которые часто покупаются вместе. FP-Growth предпочтительнее Apriori, потому что Apriori требует больше времени выполнения для повторного сканирования набора данных транзакции для поиска часто встречающихся элементов.

8. Алгоритмы искусственной нейронной сети:

· Персептрон - отдельный узел нейронной сети. Персептрон состоит из одного или нескольких входов, процессора и одного выхода.

· Нейронные сети - вдохновленный биологией метод создания компьютерных программ, способных учиться и самостоятельно находить связи в данных.

· Обратное распространение - обычно используется алгоритмом оптимизации градиентного спуска для корректировки веса нейронов путем вычисления градиента функции потерь. Я делаю это просто (вы должны проверить математику, это довольно увлекательно)

· Сеть Хопфилда (HN) - HN - это тип RNN. Их цель - сохранить 1 или несколько шаблонов и вызвать полные шаблоны на основе частичного ввода. Они гарантированно сходятся к локальному минимуму (но не обязательно к лучшему), а не к сохраненному шаблону (ожидаемому локальному минимуму). Сети Хопфилда также служат моделью для понимания человеческой памяти.

· Автоэнкодеры - используются для классификации, кластеризации и сжатия признаков. Автоэнкодеры - это алгоритм обучения без учителя. Задача автоэнкодера - изучить представление (кодирование) набора данных, обычно для уменьшения размерности, путем обучения сети игнорированию «шума» сигнала.

· Машины Больцмана - мощная архитектура глубокого обучения для совместной фильтрации. Эта модель основана на распределении Больцмана, которое является неотъемлемой частью статистической механики и помогает нам понять влияние таких параметров, как температура и энтропия, на квантовые состояния в термодинамике. Машины Больцмана в основном делятся на две категории: модели на основе энергии (EBM) и машины Больцмана с ограничениями (RBM). Когда эти RBM накладываются друг на друга, они известны как сети глубокого убеждения (DBN).

· Ограниченные машины Больцмана (RBM) - нейронные сети, которые относятся к так называемым моделям на основе энергии. RBM - это параметризованная генеративная модель, представляющая распределение вероятностей, используемое для сравнения вероятностей (невидимых) наблюдений и выборки из изученного распределения, в частности, из представляющих интерес предельных распределений.

· Пиковая нейронная сеть (SNN) - SNN принципиально отличается от обычных нейронных сетей, которые люди часто используют. Сети SNN работают с использованием всплесков (которые представляют собой дискретные события, происходящие в определенные моменты времени), а не непрерывных значений. SSN имеют сходство с тем, как работают наши нейроны. Если вы рассмотрите мембранный потенциал в нашем теле, когда, когда нейрон достигает определенного потенциала, он резко возрастает, а потенциал этого нейрона сбрасывается, всплеск SSN в чем-то похож (за исключением того факта, что возникновение всплеска определяется дифференциальным уравнения).

· Сеть радиальных базисных функций (RBFN) - тип искусственной нейронной сети, которая используется для обучения с учителем (регрессионные классификации и временные ряды). RBF нейронные сети на самом деле являются NN с прямой связью (FF), которые используют радиальную базисную функцию в качестве функции активации вместо логистической функции.

9. Алгоритмы глубокого обучения:

· Глубокая машина Больцмана (DBM) - тип двоичного попарного марковского случайного поля (неориентированная вероятностная графическая модель) с несколькими слоями скрытых случайных величин. В отличие от сетей глубокого убеждения (DBN), DBM - это полностью ненаправленная модель. По сравнению с полностью подключенными машинами Больцмана (каждое устройство подключено к каждому другому устройству) DBM предлагает преимущества, аналогичные тем, которые предлагает RBM. Слои DBM также могут быть организованы в виде двудольного графа.

· Сети глубокого убеждения (DBN) - генеративные графические модели (класс глубокой нейронной сети), состоящие из нескольких уровней скрытых переменных (скрытых единиц), со связями между слоями, но не между единицами внутри каждого слоя .

· Сверточная нейронная сеть (CNN) - особенно полезна для классификации и распознавания изображений. Они состоят из двух основных частей: части извлечения признаков и части классификации. (Подробнее см. Здесь).

· Составные автокодеры - нейронная сеть, состоящая из нескольких уровней автокодировщиков (обычно составные автокодеры выглядят как «сэндвич»), в которой выходы каждого слоя подключены к входам последовательный слой.

10. Алгоритмы уменьшения размерности:

· Уменьшение размерности - алгоритм уменьшения размерности помогает нам уменьшить количество рассматриваемых случайных величин наряду с различными другими алгоритмами, такими как дерево решений, случайный лес, PCA и факторный анализ.

· Анализ главных компонентов (PCA) - статистическая процедура, которая использует ортогональное преобразование для преобразования набора наблюдений возможно коррелированных переменных в набор значений линейно некоррелированных переменных, называемых главными компонентами. Первый компонент является наиболее важным, за ним следует второй, затем третий и так далее.

· Независимый компонентный анализ (ICA) - статистический метод выявления скрытых факторов, лежащих в основе наборов случайных величин, измерений или сигналов.

· Регрессия главных компонентов (PCR) - метод анализа данных множественной регрессии, страдающих мультиколлинеарностью. Основная идея ПЦР состоит в том, чтобы вычислить главные компоненты, а затем использовать некоторые из этих компонентов в качестве предикторов в модели линейной регрессии, подобранной с использованием типичной процедуры наименьших квадратов.

· Частичная регрессия наименьших квадратов (PLSR) - PCR создает компоненты для объяснения наблюдаемой изменчивости в переменных-предикторах, вообще без учета переменной ответа. С другой стороны, PLSR принимает во внимание переменную ответа и поэтому часто приводит к моделям, которые могут соответствовать переменной ответа с меньшим количеством компонентов.

· Отображение Саммона - алгоритм, который отображает пространство большой размерности в пространство меньшей размерности, пытаясь сохранить структуру межточечных расстояний в пространстве высокой размерности в проекции меньшей размерности. иногда нам приходится задавать вопрос «какое нелинейное преобразование является оптимальным для некоторого заданного набора данных». Хотя PCA просто максимизирует дисперсию, иногда нам нужно максимизировать какую-то другую меру, которая представляет степень, в которой сложная структура сохраняется преобразованием. Существуют различные такие меры, и одна из них определяет так называемое отображение Саммона. Он особенно подходит для использования в исследовательском анализе данных.

· Многомерное масштабирование (MDS) - средство визуализации уровня схожести отдельных случаев набора данных.

· Прогнозирование - тип статистического метода, который включает поиск наиболее «интересных» возможных прогнозов в многомерных данных. Часто более интересными считаются прогнозы, которые больше отклоняются от нормального распределения.

· Линейный дискриминантный анализ (LDA) - если вам нужен алгоритм классификации, вы должны начать с логистической регрессии. Однако LR традиционно ограничивается только двумя задачами классификации классов. Теперь, если ваша проблема включает более двух классов, вам следует использовать LDA. LDA также работает как алгоритм уменьшения размерности; он уменьшает количество измерений от исходного до C - 1 количество функций, где C - количество классов.

· Смешанный дискриминантный анализ (MDA) - это расширение линейного дискриминантного анализа. Это контролируемый метод классификации, основанный на моделях смеси.

· Квадратичный дискриминантный анализ (QDA) - линейный дискриминантный анализ может изучать только линейные границы, в то время как квадратичный дискриминантный анализ способен изучать квадратичные границы (следовательно, он более гибкий). Однако, в отличие от LDA, в QDA нет предположения, что ковариация каждого из классов идентична.

· Гибкий дискриминантный анализ (FDA) - модель классификации, основанная на смеси моделей линейной регрессии, в которой используется оптимальная оценка для преобразования переменной отклика, чтобы данные были в лучшей форме для линейного разделения, и несколько сплайнов адаптивной регрессии для создания дискриминантной поверхности.

11. Ансамблевые алгоритмы:

  • Методы ансамбля - алгоритмы обучения, которые создают набор классификаторов, а затем классифицируют новые точки данных путем взвешенного голосования их прогнозов. Первоначальный метод ансамбля - это байесовское усреднение, но более поздние алгоритмы включают кодирование выходных данных с исправлением ошибок, пакетирование и усиление.

· Повышение - семейство алгоритмов, которые преобразуют слабого ученика (классификатор, который лишь слегка коррелирует с истинной классификацией. Это означает, что он может маркировать примеры лучше, чем случайное угадывание) в сильных учеников. Используя этот метод ансамбля, вы можете улучшить предсказания модели для любого заданного алгоритма обучения. Метод подходит для последовательных деревьев (случайная выборка), и на каждом шаге цель состоит в том, чтобы найти чистую ошибку из предыдущего дерева. Он используется, в первую очередь, для уменьшения предвзятости, а также отклонений в контролируемом обучении. Он в основном объединяет предсказание нескольких базовых оценщиков, чтобы повысить надежность по сравнению с одним оценщиком (он объединяет несколько слабых или средних предикторов для построения сильного предиктора).

· Начальное агрегирование (сбор пакетов) - используется, когда нашей целью является уменьшение дисперсии дерева решений. Идея состоит в том, чтобы создать несколько подмножеств данных из случайно выбранной обучающей выборки с заменой. Теперь каждый набор данных подмножества используется для обучения их деревьев решений. В результате мы получаем множество разных моделей. Используется среднее всех прогнозов из разных деревьев, что более надежно, чем одно дерево решений.

· AdaBoost - используется с короткими деревьями решений. После создания первого дерева производительность дерева на каждом обучающем экземпляре используется для взвешивания того, сколько внимания следующее созданное дерево должно уделять каждому обучающему экземпляру. Данные, которые трудно предсказать, получают больший вес, тогда как легко предсказуемым экземплярам присваивается меньший вес. Модели создаются последовательно одна за другой, каждая из которых обновляет веса в обучающих экземплярах, которые влияют на обучение, выполняемое следующим деревом в последовательности. После того, как все деревья построены, делаются прогнозы для новых данных, и производительность каждого дерева взвешивается в зависимости от того, насколько точным оно было на обучающих данных.

· Составное обобщение (смешивание) - сложение, смешивание и составное обобщение - это одно и то же с разными именами. Это процедуры, предназначенные для повышения эффективности прогнозирования путем смешивания или комбинирования прогнозов нескольких моделей машинного обучения. По сути, это ансамблевые алгоритмы, в которых новая модель обучается для объединения прогнозов двух или более уже обученных моделей или вашего набора данных.

· Gradient Boosting Machines (GBM) - расширение метода повышения. Повышение градиента = спуск градиента + усиление. Это алгоритм повышения, который используется, когда мы имеем дело с большим количеством данных для прогнозирования с высокой мощностью прогнозирования.

· Деревья регрессии с градиентным усилением (GBRT) - гибкий непараметрический метод классификации и регрессии. Он создает модель прогнозирования в форме ансамбля моделей слабого прогнозирования, обычно деревьев решений. GBRT строит модель поэтапно и обобщает ее, позволяя оптимизировать произвольную дифференцируемую функцию потерь.

· Случайный лес - набор деревьев решений и расширение над бэггингом. Обратите внимание, что набор деревьев решений называется «лесом». Требуется один дополнительный шаг, на котором, помимо случайного подмножества данных, также используется случайный выбор функций, а не использование всех функций для выращивания деревьев. Чтобы классифицировать новый объект на основе атрибутов, каждое дерево дает классификацию, и мы говорим, что дерево «голосует» за этот класс. Лес выбирает классификацию, имеющую наибольшее количество голосов (по всем деревьям в лесу).

12. Еще:

· Вычислительный интеллект (CI) - теория, применение, проектирование и разработка биологически вычислительных моделей. Традиционно тремя основными из них были нейронные сети, нечеткие системы и эволюционные вычисления.

· Обработка естественного языка (NLP) - ветвь искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком.

· Рекомендательные системы обычно подразделяются на две категории - методы фильтрации на основе контента и методы совместной фильтрации, хотя современные рекомендательные системы объединяют оба подхода. Методы, основанные на содержании, основаны на сходстве атрибутов элементов, а методы совместной работы рассчитывают сходство на основе взаимодействий.

· Обучение с подкреплением - тип машинного обучения, при котором агент учится вести себя в среде, выполняя действия и видя результаты.

· Q Learning - метод обучения с подкреплением. Цель этого метода - изучить политику, которая сообщает агенту, какие действия следует предпринять при каких обстоятельствах. В отличие от методов градиента политики, которые пытаются изучить функции, которые напрямую сопоставляют наблюдение с действием, Q-обучение пытается узнать значение нахождения в данном состоянии и выполнения в нем определенного действия.

· Графические модели - вероятностные модели, в которых график выражает структуру условной зависимости между случайными величинами. Эти модели обычно используются в теории вероятностей, статистике, особенно байесовской статистике, и машинном обучении.

· SVM - алгоритм двоичной классификации. То есть, учитывая набор точек двух типов в N-мерном месте, SVM генерирует (N - 1) -мерную гиперплоскость, чтобы разделить эти точки на 2 группы. По сути, он находит некоторую строку, которая разделяет данные между двумя группами данных, классифицированными по-разному. Это будет такая линия, при которой расстояния от ближайшей точки в каждой из двух групп будут самыми дальними.

· XGBOOST - XGBoost означает экстремальное усиление градиента. Это реализация деревьев решений с градиентным усилением. Он обладает чрезвычайно высокой прогностической способностью и доминирует над структурированными или табличными наборами данных в задачах классификации и регрессионного прогнозного моделирования. Обратите внимание, что этот алгоритм иногда почти в 10 раз быстрее, чем существующие методы повышения градиента.

· Light GBM - фреймворк для повышения градиента, использующий древовидные алгоритмы обучения.

· CatBoost - не требует обширного обучения данным, как другие модели машинного обучения, и может работать с различными форматами данных. Catboost может автоматически обрабатывать категориальные переменные, не показывая ошибки преобразования типов, что помогает лучше сосредоточиться на настройке вашей модели, а не на сортировке тривиальных ошибок.

· Генетические алгоритмы - идея заключается в том, что на выживание организма влияет правило «выживает сильнейший вид». Он неоднократно изменяет «совокупность» индивидуальных решений. На каждом этапе он случайным образом выбирает людей из текущей популяции в качестве «родителей» и использует их для создания «детей» для следующего поколения. В течение нескольких поколений популяция «эволюционирует» в сторону оптимального решения. Вы можете использовать его для решения множества задач оптимизации, которые не подходят для стандартных алгоритмов оптимизации. Например, задачи, в которых целевая функция является разрывной, не дифференцируемой, стохастической или сильно нелинейной. Он также может решать проблемы смешанного целочисленного программирования, когда некоторые компоненты ограничиваются целочисленными значениями.

· Разложение по сингулярным значениям (SVD) - факторизация реальной комплексной матрицы. Для данной m * n-матрицы M существует такое разложение, что M = UΣV, где U и V - унитарные матрицы, а Σ - диагональная матрица. PCA - это на самом деле простое приложение SVD. В компьютерном зрении (CI) первые алгоритмы распознавания лиц использовали PCA и SVD для представления лиц в виде линейной комбинации «собственных лиц», уменьшения размерности и последующего сопоставления лиц с идентичностями с помощью простых методов.

· Рекуррентная нейронная сеть (RNN) - класс искусственной нейронной сети, в которой соединения между узлами образуют ориентированный граф в последовательности. Это позволяет ему демонстрировать временное динамическое поведение для временной последовательности.

· Передача обучения - повторное использование предварительно обученной модели для решения новой проблемы.

До скорого,

Bobcat.