Ускоренный курс машинного обучения

Как вы можете использовать машинное обучение в своих задачах прямо сейчас?

Машинное обучение - одна из самых быстрорастущих областей технологий. Он способен автоматизировать огромное количество текущих процессов, которые сегодня являются частью рабочих мест. Существует два основных подхода к машинному обучению: контролируемый и неконтролируемый. Оба могут использоваться для решения многих задач классификации или регрессии.

Предположим, мы хотим предсказать, например, «Находится ли Джонатон в США». Тогда вы могли бы использовать обучение с учителем. При обучении с учителем у учащегося есть набор данных функций, и для каждой метки есть набор обучающих примеров. Ключевым моментом является выбор идеального классификатора, чтобы он узнал, что данные должны предсказывать, с учетом обучающих примеров.

Пример: создание точной будущей истории полицейских погонь

Представьте себе систему раскрытия преступлений. Мы хотим сравнить описание громкого преступления и аналогичного малоизвестного преступления в будущем с их ожидаемыми результатами. Это пример машинного обучения с учителем. Вот информативная запись в блоге, чтобы узнать больше о НЛП и машинном обучении и увидеть код, используемый для создания этой будущей истории поиска.

При использовании машинного обучения без учителя у нас нет ничего похожего на маркированный набор данных (пока). Вместо этого у нас есть немаркированный «исходный» набор данных. Чтобы предсказать преступление, нам нужно узнать, каковы исторические причины ряда преступлений. Мы используем методы интеллектуального анализа данных для выявления факторов, которые имеют прямую связь с преступностью.

Но машинное обучение также состоит из процесса создания набора данных из немаркированных данных. Мы применяем некоторые методы машинного обучения для создания набора немаркированных точек данных. Эти точки служат метками для нашей задачи классификации. Этот процесс называется тренировкой.

Теперь, когда у нас есть немаркированный набор данных и набор обучающих примеров, мы можем запустить задачу классификации. На этом этапе классификатор не знает, что такое прогнозируемая метка (класс, которому он должен назначить точки данных). Он просто знает, как это предсказать. Но некоторым классификаторам может потребоваться запустить намного больше обучающих примеров, чтобы сойтись. Это называется скоростью обучения.

Регрессия на основе дерева решений

Мы можем использовать подход, основанный на классификаторах, который полагается на структуру попарных ссылок между некоторыми входными функциями и нашей выходной меткой. Примером может служить дерево решений. Дерево просто состоит из древовидной директории, которая представляет собой функции (метки классов) для каждой из ссылок на требуемые функции.

Например, мы можем захотеть спрогнозировать длину сообщения в посте в каждой интересующей категории. Но пользователю просто нужен заголовок. Таким образом, древовидный каталог может иметь только одну запись для каждой категории. Каждая запись будет описывать один класс сообщений, и каждая запись в дереве будет давать некоторые древовидные ссылки, для которых сумма значений от левой оси и правой оси была больше, чем выбранное нами число. Значения были вычислены на основе некоторой случайной выборки.

Это будет работать для некоторых меток классов. Однако с дополнительными обучающими примерами это становится практически бесполезным. В результате мы получаем множество записей в дереве для неправильных категорий, и это не приведет к слиянию ни одной из них.

Машинное обучение и зрение

Теперь представьте себе мир, в котором мы живем в городе с Wi-Fi. Чтобы обнаружить активность и движения в городской среде, существует множество данных и множество способов передачи этих данных. Например, вместо того, чтобы просто предупреждать о телевизорах, мы могли бы использовать камеры. Каждая из пар маркеров на датчике изображения может указывать на активность в этом районе. Используя эти функции, система может классифицировать действия, и действия могут быть точно обнаружены. Для этого система должна изучить модель активности на заднем плане и предсказать, где находится пользователь. Для этого потребуется множество примеров.

Машинное обучение и обучение

Что касается каждой точки данных, можно обучить модель машинного обучения, чтобы модель могла предсказать «будущий класс» точки данных. Обучение может быть выполнено с использованием метода обратного распространения ошибки. Обычно проблемы регрессии также связаны с проблемами обнаружения объектов. Итак, требуется сочетание обнаружения объектов и машинного обучения.

Применение машинного обучения на основе классификатора

В некоторых случаях задачи обучения модели слишком сложны для решения с помощью методов контролируемого машинного обучения. В других случаях специалисты по человеческому машинному обучению должны реализовать и внедрить модель. Но для обучения модели мы можем использовать некоторые алгоритмы машинного обучения, такие как Gradient Boosting, вспомогательные векторные машины, AdaBoost, остаточное ранговое обучение и, в некоторой степени, случайные леса.

Выводы

Машинное обучение - отличный инструмент для классификации, прогнозирования и генерации аналитических данных на основе данных, как помеченных, так и немаркированных.

Как инженер по машинному обучению (или специалист по данным, здесь нет универсального стандарта для названий должностей), вы будете решать реальные проблемы на основе данных. Ваши данные могут включать изображения, аудиофайлы или текстовые документы. Первым шагом всегда будет очистка ваших данных, чтобы упростить использование и реализацию на них алгоритмов машинного обучения. Затем приходит время изучить данные и подумать об алгоритмах, которые вы, возможно, захотите использовать для достижения успеха.

Наконец, если вы хотите получить общее представление о том, что значит быть специалистом по анализу данных, ознакомьтесь с моей книгой Работа в области науки о данных: как стать специалистом по данным, которая проведет вас через этот процесс.

Если вы хотите узнать больше о машинном обучении и науке о данных, ознакомьтесь с другими моими статьями: