Реализации машинного обучения подразделяются на три основные категории в зависимости от характера обучающего «сигнала» или «ответа», доступного для обучающей системы, а именно:

  1. Контролируемое обучение. Когда алгоритм учится на примере данных и связанных целевых ответов, которые могут состоять из числовых значений или строковых меток, таких как классы или теги, чтобы позже предсказать правильный ответ при представлении с новыми примерами. который подпадает под категорию контролируемого обучения. Этот подход действительно похож на обучение человека под наблюдением учителя. Учитель дает ученику хорошие примеры для запоминания, а затем ученик выводит общие правила из этих конкретных примеров.
  2. Неконтролируемое обучение: когда алгоритм учится на простых примерах без какого-либо связанного ответа, алгоритму предоставляется возможность самостоятельно определять шаблоны данных. Этот тип алгоритма имеет тенденцию реструктурировать данные во что-то другое, например, в новые функции, которые могут представлять класс или новую серию некоррелированных значений. Они весьма полезны, поскольку дают людям представление о значении данных и новых полезных входных данных для контролируемых алгоритмов машинного обучения.
    Как вид обучения, это напоминает методы, которые люди используют, чтобы выяснить, принадлежат ли определенные объекты или события к одному и тому же классу, например, наблюдая за степенью сходства между объектами. Некоторые системы рекомендаций, которые вы найдете в Интернете в форме автоматизации маркетинга, основаны на этом типе обучения.
  3. Обучение с подкреплением: когда вы представляете алгоритм с примерами без меток, как при неконтролируемом обучении. Тем не менее, вы можете сопровождать пример положительной или отрицательной обратной связью в зависимости от того, решение, которое предлагает алгоритм, относится к категории обучения с подкреплением, которое связано с приложениями, для которых алгоритм должен принимать решения (поэтому продукт является предписывающим, а не просто описательным, как при неконтролируемом обучении), и решения влекут за собой последствия. В человеческом мире это похоже на обучение методом проб и ошибок.
    Ошибки помогают вам учиться, потому что они влекут за собой дополнительные штрафы (стоимость, потеря времени, сожаление, боль и т. д.), показывая вам, что определенный образ действий с меньшей вероятностью будет успешным, чем другие. Интересный пример обучения с подкреплением возникает, когда компьютеры сами учатся играть в видеоигры.
    В этом случае приложение представляет алгоритм с примерами конкретных ситуаций, например, игрок застрял в лабиринте, избегая врага. Приложение позволяет алгоритму узнать результат действий, которые он предпринимает, и обучение происходит, пытаясь избежать того, что он считает опасным, и стремиться к выживанию. Вы можете посмотреть, как компания Google DeepMind создала программу обучения с подкреплением, которая играет в старые видеоигры Atari. При просмотре видео обратите внимание на то, что программа изначально неуклюжая и неумелая, но постепенно улучшается с тренировками, пока не станет чемпионом.
  4. Полууправляемое обучение: когда дается неполный обучающий сигнал: обучающий набор, в котором отсутствуют некоторые (часто многие) целевые выходные данные. Существует особый случай этого принципа, известный как преобразование, когда весь набор экземпляров проблемы известен во время обучения, за исключением того, что часть целей отсутствует.

Первоначально опубликовано на https://comingfly.blogspot.com.