Эта статья поможет вам понять обучение без учителя и некоторые варианты использования этих моделей.

В прошлой статье мы обсудили типы моделей машинного обучения и тип контролируемого обучения. У контролируемого обучения есть ожидаемый результат. Но при обучении без учителя не ожидается никаких результатов, ожидается какое-либо понимание. В этой категории есть два типа:

  1. Кластеризация
  2. Уменьшение размерности

Начнем с кластеризации

Здесь нет засекреченных данных, которые имели ярлыки для каждого экземпляра. Мы должны сгруппировать их на основе моделей поведения, наблюдаемых в каждой точке данных. Например, обнаружение мошенничества с кредитными картами, точки данных похожи на суммы транзакций, места, где используется сумма, тип транзакции и т. Д. Причина, по которой у нас нет ярлыков, заключается в том, что у нас нет фиксированных моделей поведения, у каждого пользователя есть поведение и увеличение количества наблюдений усиливают поведение, и мы можем сгруппировать их поведение в некоторые общие модели поведения. Когда мы сгруппируем их по наблюдаемому поведению, мы сможем найти аномалии и проверить эту точку данных. Если вы всегда используете карту для еды и одежды в определенных местах, и внезапно происходит транзакция в месте, где вы никогда не совершали и не тратили на биткойны, это может быть мошенничество, вы получите электронные письма, подтверждающие, что это вы.

Мы черпаем поведение из самих данных, и предопределенного поведения нет. Потому что тенденции меняются со временем, и поведение будет быстро меняться. Мы группируем их по разным масштабам в зависимости от требований задачи. Проблема обнаружения мошенничества предполагает более общие закономерности, такие как поведение каждого пользователя, чем поиск Amazon предложит вам продукты, соответствующие вашему поведению. Кластеризация используется во многих случаях, таких как поиск в Google, предложения на YouTube, которые покажут вам общие или популярные в вашем жанре шаблоны просмотра. Если вы читаете этот блог, вероятно, medium предложит больше блогов от меня с похожими предложениями, для этого они используют кластеризацию.

Прочтите формулировку задачи Поиск ориентира Google и ознакомьтесь с данными.

Обычно результаты выглядят так:

Эти шумы могут быть аномалиями, новыми моделями поведения.

Теперь уменьшение размерности

Предположим, ваши данные состоят из разных столбцов, которые связаны между собой, а некоторые столбцы предполагают одни и те же закономерности с результатами. Мы должны определить те столбцы, которые имеют аналогичное отношение к результату, и объединить их в одну группу. Это поможет нам уменьшить предвзятость. Если у нас есть одни и те же данные с разными названиями столбцов, отношение к силе результатов и создание большей предвзятости в отношении этих конкретных данных.

Это в основном отображает N-мерные данные в K-мерные данные, где K меньше N. Это создаст конкретные столбцы, добавив аналогичные значения к результатам.

Как правило, этот метод используется для создания наборов данных, которые будут иметь лучшую производительность с моделями за счет устранения смещения, а также это сделает данные менее сложными и поможет вам правильно масштабировать данные.

Результаты выглядят так:

Прочтите постановку задачи Вызов Galaxy Zoo на Kaggle.

Обсудим различные модели, используемые при классификации, их математические детали.

Хорошего дня!

Свяжитесь со мной по адресу [email protected]