Машинное обучение - это технология на основе искусственного интеллекта, в которой мы предоставляем машинам доступ к данным и позволяем им интерпретировать их в выходные данные. С каждым днем ​​мир становится умнее, и, чтобы не отставать от ожиданий клиентов, компании все чаще обращаются к алгоритмам машинного обучения, чтобы сделать вещи проще и эффективнее.

Технологии машинного обучения можно увидеть в использовании в устройствах конечных пользователей (например, распознавание лиц для разблокировки смартфонов) или при обнаружении кредита мошенничество с картами (запускает оповещение при обнаружении необычной покупки). Поскольку эта технология используется во многих реальных приложениях, полезно иметь базовое представление о ней.

Существует два основных подхода к обучению систем искусственного интеллекта (ИИ) и машинного обучения: Обучение с учителем и Обучение без учителя. Основное различие состоит в том, что одни используют помеченные данные для предсказания результатов, а другие - нет. Однако есть несколько других заметных различий между двумя подходами, а также важные области, в которых один превосходит другой.

В этом посте разъясняются основные различия между обучением с учителем и обучением без учителя.

Что такое контролируемое обучение?

Контролируемое обучение - это метод машинного обучения, в котором алгоритм обучается на помеченных наборах данных. Эти наборы данных специально разработаны для обучения или контроля систем правильной категоризации данных или прогнозирования результатов.

Машинное обучение с учителем алгоритмы будут продолжать развиваться даже после их внедрения, обнаруживая новые закономерности и корреляции по мере обучения на новых данных.

Что касается интеллектуального анализа данных, контролируемое обучение можно разделить на две категории задач: Классификация и регрессия:

1. Классификация

Алгоритм Классификация классифицирует входные данные для правильной категоризации тестовых данных по ряду классов или категорий, таких как отделение яблок от апельсинов. В реальном мире алгоритмы контролируемого обучения могут использоваться для отделения спам-писем из вашего почтового ящика в другой папке. Алгоритмы классификации включают линейные классификаторы, опорные векторные машины, деревья решений и случайный лес.

2. Регресс

Другой формой контролируемого обучения является регрессия, которая использует алгоритм для определения связи между зависимыми и независимыми переменными. Линейная регрессия, нелинейная регрессия, деревья регрессии, полиномиальная регрессия и байесовская линейная регрессия являются примерами алгоритмов регрессии.

Эти модели в основном используются для прогнозирования непрерывных переменных, таких как тенденции рынка, прогноз погоды и т. Д. Модели регрессии также полезны для прогнозирования числовых значений на основе нескольких различных источников данных, таких как прогнозы доходов от продаж для определенной компании. .

Что такое обучение без учителя?

Обучение без учителя анализирует и объединяет немаркированные наборы данных с помощью методов машинного обучения. Эти алгоритмы находят скрытые закономерности в данных, не требуя вмешательства человека (отсюда и термин неконтролируемый).

Модели обучения без учителя используются для выполнения трех основных задач: кластеризации, ассоциации и уменьшения размерности:

1. Кластеризация

Кластеризация - это метод интеллектуального анализа данных, используемый для группировки немаркированных данных на основе сходства и различий таким образом, чтобы те, у кого больше всего сходства, оставались в одной группе в то время как те, у которых мало или нет сходства, остаются в другом.

Могут быть различные типы кластеризации, в том числе: Иерархическая кластеризация, алгоритм k-средних, Анализ главных компонентов, Разложение по сингулярным значениям и Независимый компонент. Анализ .

Например, Алгоритмы кластеризации K-средних делят сопоставимые точки данных на группы, где значение K отражает размер и степень детализации группировки. Этот подход полезен для сегментации рынка, сжатия изображений и других целей.

2. Ассоциация

правило ассоциации - это тип подхода к обучению без учителя, который используется для поиска взаимосвязей между различными переменными в большой базе данных. Он определяет группу элементов, которые появляются вместе в наборе данных.

Эти методы обычно используются в анализе корзины и механизмах рекомендаций, таких как предложения Покупатели, которые купили этот товар, тоже купили.

3. Уменьшение размерности

Снижение размерности - это обучающий подход, который используется, когда количество функций (или размеров) в данном наборе данных слишком велико. Он сокращает объем вводимых данных до разумного уровня при сохранении целостности данных. Этот подход часто используется при предварительной обработке данных, например, когда автокодировщики удаляют шум из визуальных данных для улучшения качества изображения.

Контролируемое и неконтролируемое обучение: помеченные данные

Использование помеченных наборов данных - это основное различие между двумя подходами. Проще говоря, алгоритмы обучения с учителем используют помеченные входные и выходные данные, а алгоритмы обучения без учителя - нет.

При обучении с учителем алгоритм «учится» на обучающем наборе данных, непрерывно генерируя прогнозы на основе данных и изменяя их для прогнозирования правильного ответа. Хотя модели обучения с учителем более точны, чем модели обучения без учителя, они требуют участия человека для правильной маркировки данных в начале.

Например, модель обучения с учителем может оценить, сколько времени будет длиться поездка на работу, в зависимости от времени суток, погодных условий и других факторов. Но сначала вы должны научить его понимать, что дождливая погода увеличивает время в пути, а в часы пик может потребоваться больше времени, чем обычно.

Модели обучения без учителя, с другой стороны, работают независимо, обнаруживая внутреннюю структуру немаркированных данных. Следует отметить, что они по-прежнему требуют участия человека для проверки выходных переменных.

Например, модель обучения без учителя может распознать, что онлайн-клиенты часто покупают группы товаров одновременно. С другой стороны, аналитику данных необходимо подтвердить, что для системы рекомендаций имеет смысл сгруппировать детскую одежду по подгузникам, яблочному пюре и стаканчикам-поильникам.

Другие ключевые различия между обучением с учителем и обучением без учителя

1. Цель

Цель обучения с учителем - прогнозировать результаты на основе свежих данных. Вы знаете, каких результатов ожидать с самого начала. Цель алгоритма неконтролируемого обучения - извлечь полезную информацию из огромного количества новых данных. Алгоритм машинного обучения обнаруживает, что уникального или интригующего в наборе данных.

2. Приложения

Приложения контролируемого обучения включают, среди прочего, обнаружение спама, анализ настроений, прогноз погоды и прогнозирование цен. Обучение без учителя, с другой стороны, идеально подходит для обнаружения аномалий, создания рекомендаций и получения медицинских изображений.

3. Сложность

Контролируемое обучение - это базовый подход к машинному обучению, которое обычно вычисляется с помощью таких программ, как R или Python. Обучение без учителя требует использования мощных инструментов для работы с большими объемами несекретных данных. Поскольку для получения желаемых результатов им требуется большой обучающий набор, модели обучения без учителя сложны в вычислительном отношении.

4. Недостатки

Обучение моделей контролируемого обучения может занять много времени, а метки для входных и выходных переменных требуют знаний. Между тем, алгоритмы неконтролируемого обучения могут давать резко неточные результаты, если выходные переменные не проверены людьми.

Лучшее из обоих миров: полу-контролируемое обучение

Полу-контролируемое обучение - это золотая середина, на которой набор обучающих данных содержит как помеченные, так и немаркированные данные. Это особенно полезно, когда трудно извлечь значимые характеристики из данных - и когда их много.

Полу-контролируемое обучение подходит для медицинской визуализации, потому что небольшое количество обучающих данных может привести к значительному повышению точности. Например, радиолог может пометить небольшую часть изображений КТ для опухолей или заболеваний, что позволяет системе более точно предсказать, каким людям может потребоваться дополнительная медицинская помощь.

В сегодняшней растущей конкурентной среде машинное обучение позволяет организациям ускорить цифровую трансформацию и перейти в эпоху автоматизации. С помощью алгоритмов машинного обучения AI смог выйти за рамки простого выполнения задач, на которые он был запрограммирован.

Модели машинного обучения - отличный инструмент для получения аналитических данных, которые можно использовать для улучшения нашего мира. Чтобы узнать больше о конкретных алгоритмах, используемых при обучении с учителем и без учителя, мы рекомендуем прочитать наши предыдущие блоги, которые включают подробную информацию о различных типах алгоритмов машинного обучения.