Машинное обучение — это изучение закономерностей на основе данных. Как правило, есть 3 типа обучения. Это обучение с учителем, обучение без учителя и обучение с подкреплением.
Обучение с учителем — это тип задачи, в которой данные содержат метки/выходные данные. На основе меток машина/алгоритм учится на данных.
Неконтролируемое обучение — это проблема, когда данные не содержат выходных данных или меток.
Обучение с подкреплением — это система, в которой Машина обучается автоматически или обновляется в зависимости от действий среды, чтобы получить больше вознаграждений. Это наука принятия решений.
Сегодня моя тема «Обучение без присмотра». Давайте начнем.
Случаи использования обучения без учителя
Прежде чем что-либо изучать, нам нужно знать, как использовать исследование, чтобы нас поощряли к четкому изучению тем. Неконтролируемое обучение имеет множество применений:
- Сегментация рынка. Предположим, у вас есть компания, в которую приходят покупатели разных типов, чтобы купить вашу продукцию. Ваша цель состоит в том, чтобы развивать свой бизнес лучше. Значит, нужно продавать больше. У вас достаточно данных о покупателях. Теперь вы можете анализировать данные о том, какие типы покупателей/клиентов покупают, какие продукты и сколько они покупают. Анализируя, вы можете сегментировать / объединять клиентов в разные группы, и на основе данных вы можете лучше принимать решения для развития своего бизнеса, а также можете предоставлять качественные услуги.
- Обнаружение аномалий. Предположим, вы работаете в банке и хотите обнаруживать мошеннические транзакции/мошеннические клиенты. У вас достаточно данных о денежных операциях. Теперь вы можете сгруппировать данные в разные группы. Но вы можете заметить, что мошеннические транзакции подчиняются любым правилам. Поэтому они не попадают ни в один кластер. Вот как вы можете легко обнаружить мошеннические транзакции / клиентов. Не только банки, но и обнаружение аномалий также применяется в различных отраслях промышленности, таких как обнаружение неисправности в двигателе самолета, обнаружение заболеваний в клетке, которая не ведет себя как нормальная клетка, и во многих других.
- Шаблоны ДНК:кластеризация паттернов ДНК для анализа биологической эволюции.
- Системы рекомендаций: группировка пользователей с похожими шаблонами просмотра для показа похожего контента.
Неконтролируемое обучение пытается выявить скрытые закономерности из немаркированных наборов данных.
Алгоритмы кластеризации для обучения без учителя:
- K означает кластеризацию
- Иерархическая кластеризация
- Анализ главных компонентов
- DBSCAN и многие другие.
Собственно, лучше обсудить алгоритмы, для каких целей он используется.
При кластеризации данных
- K означает кластеризацию
- Иерархическая кластеризация и спектральная кластеризация
- DBSCAN И ОПТИКА
- Распространение сходства
- Средняя смена и БЕРЕЗА
- Модели гауссовских смесей и другие.
Когда необходимо обнаружить АНОМАЛИИ
- Изоляция Лес
- Фактор локального выброса
- Детерминант минимальной ковариации и другие.
Когда нужно уменьшить размерность
- Анализ главных компонентов
- Многообразное обучение (LLE, Isomap, t-SNE)
- Автоэнкодеры и другие.
Другие неконтролируемые алгоритмы
- Оценка плотности.Обычно оценивает функцию плотности вероятности (PDF) заданных наборов данных. Используются следующие алгоритмы: DBSCAN, GMM (модели смесей Гаусса), среднее смещение и другие.
- Анализ правил ассоциации. Используется для бизнес-анализа с целью увеличения прибыли. Популярными алгоритмами являются Apriori, Eclat (преобразование класса эквивалентности), Fp-Growth и другие.
1. Apriori основан на поиске с первым дыханием.
2. Eclat — поиск в глубину
3. Fp-Growth — обнаруживает часто встречающиеся шаблоны данных.
"Спасибо". Это все на сегодня". Позже я попытаюсь реализовать эти алгоритмы для различных целей.
Clapp и Follow за то, что побудили меня писать больше. Еще раз спасибо.