Большинство организаций находятся на начальной или средней стадии внедрения методов машинного обучения. Хотя есть аспекты, в которых приложение кажется наиболее интуитивно понятным (например, системы, ориентированные на потребителя), есть много неисследованных областей, в которых ИИ и машинное обучение могут улучшить способ ведения бизнеса.

В этом посте я даю обзор машинного обучения и его методов.

О чем этот пост: краткое руководство по методам машинного обучения.

Чем не является этот пост: исчерпывающий сборник по теме. Я также могу сделать более длинную, более математическую версию. Дайте мне знать ваши мысли в комментариях ниже.

Определение машинного обучения

Как следует из названия, машинное обучение — это область, в которой мы создаем и/или используем алгоритмы, которые ОБУЧАЮТСЯ на основе данных. Чем больше информации я предоставляю, тем лучше результаты, которые я получаю.

Подумайте об этом так: любой набор данных о населении подчиняется некоторым правилам. Есть несколько ВХОДОВ, которые при подключении к ФУНКЦИИ дают мне ВЫВОД. Задача моего алгоритма машинного обучения — выяснить, что это за функция. Проще говоря, мой алгоритм оценивает функцию для данных, которые я подаю. Чем больше данных я имею в своем распоряжении, тем больше у меня шансов оценить функцию, которая аппроксимирует реальную функциональную зависимость.

Конечная цель машинного обучения — иметь возможность строить модели для прогнозирования.

Методы машинного обучения

Существует 2 типа алгоритмов машинного обучения — с учителем и без учителя.

Обучение под наблюдением относится к функции, которая присваивает класс или значение невидимому наблюдению с учетом набора ПОМЕЩЕННЫХ наблюдений. С другой стороны, неконтролируемое обучение не использует никаких реальных меток для сравнения наблюдений.

Например, у меня есть две коробки. В первой коробке красные ручки, во второй — синие. Если я передам синюю ручку шестилетнему ребенку, и он положит ее в коробку с синими ручками, он правильно классифицирует наблюдение. Если он положит ручку в другую коробку, его классификация станет ошибочной. Мой акт наличия двух коробок отражает платформу обучения под наблюдением. Если бы я дал по 10 синих и красных ручек каждому, а затем попросил бы его разделить их на 2 группы, это был бы пример обучения без учителя.

Классификация, регрессия и кластеризация

Предсказание того, принадлежит ли данное наблюдение к уже существующей категории, является классификацией. Перечислим несколько применений: системы медицинской диагностики — с учетом набора симптомов можно ли классифицировать поступившего пациента как больного; системы фильтрации спама — будет ли наличие определенных ключевых слов помечать электронное письмо как спам.

Как вы могли заметить, результаты методов классификации являются качественными, и наличие предопределенных классов является обязательным. Эта техника является разновидностью контролируемого обучения.

Когда целью является установление взаимосвязей между переменными, используются методы регрессии. (Примечание: здесь не говорится о логистической регрессии). Например, взаимосвязь между ростом и весом, платежами и кредитным рейтингом, оценками и возможностями трудоустройства — эти ситуации подходят для регрессионного моделирования.

Простая функция регрессии выглядит так: y = a + bx, где x — моя предикторная переменная, а y — ответ. Нанося множество наблюдений ввода-вывода, я пытаюсь оценить значение коэффициентов a и b, так что, когда я ввожу невидимое наблюдение x, моя функция регрессии может предсказать ответ y с максимальной точностью. Поскольку этот метод также опирается на существующий набор входных данных, он относится к области контролируемого обучения.

Кластеризация - это еще один метод группировки объектов вместе с двумя целями: а) объекты похожи внутри кластера и б) объекты не похожи между кластерами. Так как никаких меток заранее не требуется, существует множество возможных решений. Таким образом, это тип обучения без учителя. Например, как мне сгруппировать своих клиентов, чтобы иметь возможность оптимизировать стратегию моего бренда? Я мог бы выбрать продажи в качестве переменной, или местоположение, или даже их частоту участия/покупки. K-средние, иерархическая палата, DBSCAN — это несколько широко используемых методов.

Хотя оценить производительность алгоритма обучения с учителем относительно легко, так как вы можете постоянно сравнивать прогнозируемые метки с реальными метками, гарантируя, что прогноз должен быть похож на реальные метки; измерение эффективности неконтролируемого обучения предполагает большую субъективность. Можно использовать вероятностные меры, такие как логарифмическое правдоподобие и т. д., или индексы достоверности кластеров, которые просто проверяют выходные кластеры на предмет сходства внутри и несходства между ними.

От оптимизации бизнес-процессов до понимания поведения клиентов — машинное обучение стало ценным инструментом для роста бизнеса. Положительная рентабельность инвестиций дает компаниям сильный стимул продолжать инвестировать в наращивание своего опыта в области машинного обучения.

Это сообщение было полезным? Поделитесь своими мыслями в комментариях ниже!