В области машинного обучения при создании модели необходимо учитывать два компонента. Первый компонент — это тип данных, необходимых для подачи модели, а второй — тип модели, которую вы собираетесь использовать. Без хороших или правильных данных ваша модель не даст необходимых результатов или информации, а без правильной модели данные в конечном итоге станут бесполезными. Следовательно, возникает вопрос: «Как я узнаю, какие данные у меня есть? С моими данными, какую модель мне выбрать?» Что ж, все кроется в фундаментальных концепциях контролируемого и неконтролируемого обучения.

Что такое контролируемое обучение?

Как следует из названия, обучение с учителем — это когда модели машинного обучения подаются обучающие данные, которые необходимо обработать для создания прогнозов или оценок. По своей сути контролируемое обучение работает, предоставляя модели набор входных данных, которые помечены для алгоритма, на котором он может «учиться».

Обучение с учителем преследует одну из двух возможных целей: классификацию или регрессию. При решении задачи классификации алгоритм машинного обучения должен отнести определенные точки данных к правильной категории. Например, одной из распространенных проблем классификации является различение изображений кошек и собак. Чтобы решить эту проблему, в машину нужно сначала скормить изображения кошек и собак с соответствующими им «ярлыками». Используя эти метки, алгоритм может в конечном итоге точно определить, содержит ли изображение кошку или собаку, которую он раньше не видел, с относительно высокой точностью.

С другой стороны, при решении задачи регрессии алгоритм машинного обучения должен делать прогнозы на основе тенденций, обеспечиваемых существующими данными. К таким методам относятся линейная и логистическая регрессия или множественная регрессия, о которых вы можете узнать подробнее, перейдя по гиперссылкам на мои предыдущие статьи.

Что такое неконтролируемое обучение?

В отличие от обучения с учителем, обучение без учителя — это когда модели машинного обучения передаются обучающие данные, которые не содержат меток, чтобы она могла найти шаблоны или ассоциации в наборе данных. Короче говоря, мы не обязательно имеем полный контроль над ожидаемым результатом модели ML, потому что мы полагаемся на нее, чтобы самостоятельно вывести такие закономерности в данных.

Примеры методов обучения без учителя включают кластерный анализ и обнаружение аномалий. В кластерном анализе самые близкие точки данных в данном обучающем наборе «группируются» алгоритмом. Одним из наиболее распространенных типов алгоритмов, используемых в кластерном анализе, является кластеризация k-средних, которая делит данные на k групп. Машина «обучается», применяя математические концепции, подобные диаграмме Вороного, которая основана на разделении плоскости на набор областей, ближайших к «центру» области. При обнаружении аномалий алгоритм направлен на обнаружение выбросов в наборе точек данных. Это чрезвычайно полезно при анализе больших объемов данных, поскольку люди не могут выполнить эту задачу достаточно эффективно.

Распространенным методом обнаружения аномалий является k-ближайший сосед, который представляет собой алгоритм, классифицирующий точки данных на основе их расстояния от соседних точек данных и применяющий «веса», которые количественно определяют, насколько конкретная точка похожа на определенную группу.

Трудности контролируемого и неконтролируемого обучения

Обучение данных, используемых для обучения с учителем, часто требует много времени, поскольку машине необходимо анализировать каждую точку данных, которую она получает. Кроме того, правильные метки для каждой точки данных в обучающем наборе должны быть правильными; в противном случае машина может делать неверные прогнозы из-за неточных данных!

Данные, используемые для неконтролируемого обучения, должны тщательно контролироваться, чтобы не было несоответствий в выводе или самих данных. Однако, если из-за них возникают проблемы, решение проблемы может быть чрезвычайно дорогостоящим и утомительным. Фактически, из-за характера данных в этом случае алгоритмы, используемые в неконтролируемом обучении, интенсивно используют память, и их гораздо сложнее масштабировать для все больших и больших наборов данных.

Золотая середина: частично контролируемое обучение

Между контролируемым и неконтролируемым обучением находится полуконтролируемое обучение. При полуконтролируемом обучении помечаются только некоторые точки данных, а остальные не помечаются. Часто оказывается, что это более выгодно по сравнению с полностью контролируемым или неконтролируемым обучением, поскольку можно использовать и настраивать аспекты модели ML, которая обучается только на помеченных данных. Поскольку другие данные не помечены, их можно обучить для создания «псевдоразмеченного» набора данных, который затем может улучшить саму модель машинного обучения по мере ее обучения.

Эпилог

В этой статье мы обсудили контролируемое и неконтролируемое обучение, а также частично контролируемое обучение. На самом деле, реальные проблемы машинного обучения связаны с очень специфическими типами данных для определенной цели. Специалисты по данным и специалисты по машинному обучению должны определить, является ли обучение с учителем, без учителя или полуучителем наиболее подходящим.

Я никоим образом не являюсь экспертом по машинному обучению. Однако, как одна из фундаментальных концепций машинного обучения, контролируемое и неконтролируемое обучение жизненно важны для выбора правильной модели машинного обучения, которую следует использовать, и типа данных, которые необходимо собирать. При этом я надеюсь, что это краткое объяснение поможет вам познакомиться с миром машинного обучения. Спасибо за чтение!