Основы машинного обучения для вашего следующего интервью!!

Прочтите до конца, и вы поймете основы.

Когда люди слышат слово машинное обучение или ИИ, они думают о терминаторах или боятся😨 потерять работу.

Но машинное обучение — это гораздо больше.

Хорошей основой для размышлений о компьютерных технологиях является представление о них как об инструментах, которые помогают нам повысить нашу производительность.

То же самое и с машинным обучением. Это помогает нам упростить повседневные задачи и автоматизировать их.

Подумайте о спам-фильтре, предсказаниях, рекомендациях, необычных действиях и т. д. Все это возможно благодаря машинному обучению.

Прочтите до конца, чтобы узнать больше об этой увлекательной теме машинного обучения.

Что такое машинное обучение?

Машинное обучение — это наука (и искусство) программирования компьютеров, чтобы они могли учиться на основе данных.

Возьмем, к примеру, спам-фильтры. Программа машинного обучения может научиться помечать спам-письма на основе заданных примеров спам-писем. * отмечены пользователями и являются примером обычного спама и нежелательных писем.

Без машинного обучения наши почтовые ящики были бы заполнены тоннами спама!

2. Но зачем использовать машинное обучение?

На самом деле это просто, здесь нам не нужно было бы выполнять всю тяжелую работу, например, писать программы для обнаружения определенных слов и пометки их как спама.

С помощью алгоритмов ML программа учится на данных (спамовых электронных письмах) и соответственно помечает будущие электронные письма как спам или ветчину.

Могут быть ошибки в определении спама, но это все равно облегчает вашу жизнь.

3. Типы систем машинного обучения

Три основные широкие категории систем машинного обучения:

Независимо от того, обучаются ли они под наблюдением человека

🎯 под наблюдением

😵 без присмотра

🚛 полуприсмотр

🤑 обучение с подкреплением

Могут ли они учиться постепенно на лету

📶 онлайн обучение

🤝 пакетное обучение

Работают ли они, просто сравнивая новые точки данных с известными точками данных, или вместо этого обнаруживают закономерности в обучающих данных и строят прогностическую модель.

📣 Обучение на основе примеров

💃 обучение на основе моделей

Слишком много, чтобы помнить? Попробуем разобраться в каждом из них.

4. Обучение под наблюдением

Допустим, мы хотим знать, перестанет ли клиент использовать наш продукт или услугу в ближайшем будущем.

Что мы сделаем, так это возьмем все данные о клиентах и попытаемся предсказать, уйдет ли клиент в будущем или нет.

Вручную это было бы слишком сложно, если вы большая корпорация с сотнями тысяч клиентов.

Но алгоритмы машинного обучения делают это проще.

Что он делает — распознает закономерности, когда клиент уходит. Шаблоны распознаются из данных, которые вводятся в модель. Они известны как функции. Мы должны предсказать, уйдут ли будущие клиенты или нет.

Отток клиентов — это ваш ярлык.

Ярлыки — это желаемое решение.

Мы используем различные функции для прогнозирования ярлыков.

Проблемы, где у нас есть метки, заданные в данных, эти проблемы могут быть решены с помощью алгоритмов обучения под наблюдением.

Типичной задачей контролируемого обучения является классификация. Хорошим примером этого является спам-фильтр: он обучается на множестве примеров электронных писем вместе с их классом (спам или ветчина) и должен научиться классифицировать новые электронные письма.

Таким образом, когда новая почта получена, программа может классифицировать ее как спам или не спам.

Другой типичной задачей является прогнозирование целевого числового значения, такого как цена автомобиля, с учетом набора характеристик (пробег, возраст, марка и т. д.), называемых предикторами. Такая задача называется регрессией.

Некоторые из популярных алгоритмов контролируемого обучения:

K-ближайшие соседи
Линейная регрессия
Логистическая регрессия
Опорные векторные машины
Деревья решений и случайные леса
Нейронные сети

5. Алгоритмы обучения без учителя

Проблемы, для которых у нас нет меток, решаются с помощью алгоритмов обучения без учителя. Данные не помечены. Хороший пример — когда вы хотите узнать больше о посетителях вашего сайта. Возможно, вы не знаете о них больше, но вы можете сгруппировать их вместе на основе их сходства. Тогда вы сможете понять их поведение в кластерах.

Применение методов машинного обучения для изучения больших объемов данных может помочь обнаружить шаблоны, известные как интеллектуальный анализ данных.

6. Полуконтролируемое обучение

Некоторые алгоритмы могут работать с частично размеченными обучающими данными, обычно с большим количеством неразмеченных данных и небольшим количеством размеченных данных. Это называется полуконтролируемое обучение.

Мы все знаем Google Photos (намного опережая его конкурентов), когда мы делаем групповые фотографии с наших телефонов, приложение для фотографий автоматически распознает, что один и тот же человек появляется на разных фотографиях (это обучение без присмотра), и теперь все, что нужно приложению, для вас сказать, кто этот человек.

В следующий раз, когда вы нажмете на картинку, вы увидите, что Google автоматически распознает человека.

Некоторые из полуконтролируемых алгоритмов представляют собой сети глубокого доверия (DBN).

Сети глубокого убеждения (DBN) основаны на неконтролируемых компонентах, называемых ограниченными машинами Больцмана (RBM), расположенных друг над другом. RBM последовательно обучаются без учителя, а затем вся система настраивается с использованием методов обучения с учителем.

7. Обучение с подкреплением

Обучение с подкреплением — совсем другой зверь.

Система обучения, называемая в данном контексте агентом, может наблюдать за окружающей средой, выбирать и выполнять действия, а взамен получать вознаграждение (или штрафы в виде отрицательного вознаграждения).

Затем он должен сам изучить, какая стратегия, называемая политикой, является наилучшей, чтобы со временем получать наибольшую награду.

8. Пакетное и онлайн-обучение

Другой критерий, используемый для классификации систем машинного обучения, заключается в том, может ли система обучаться постепенно из потока входящих данных.

Twitter генерирует 12+ ТБ данных каждый день, Facebook генерирует 25+ ТБ данных каждый день, а Google каждый день генерирует гораздо больше этих объемов. А теперь представьте, как генерируются данные, когда эти сервисы работают каждый день!

Как это связано, спросите вы? 🤔

При пакетном обучении алгоритмы должны обучаться с использованием всех доступных данных. Это требует много времени ⏳ и вычислительных ресурсов (ОЗУ, ЦП). Данные такого масштаба невозможно обучить на локальных компьютерах, когда у этих компаний есть петабайты данных.

9. Онлайн-обучение!

В онлайн-обучении вы обучаете систему постепенно, последовательно загружая экземпляры данных либо индивидуально, либо небольшими группами.

Каждый шаг обучения является быстрым и дешевым, поэтому система может узнавать о новых данных на лету по мере их поступления.

Онлайн-обучение отлично подходит для систем, которые получают данные в виде непрерывного потока (например, цены на акции) и должны быстро или автономно адаптироваться к изменениям.

Бонус:

Посмотрите мои заметки по курсу ML от google на странице понятий. 👇

Ускоренный курс по машинному обучению Заметки.

Дополнительная информация:

Машинное обучение онлайн — Википедия

Стохастическая аппроксимация и рекурсивные алгоритмы и приложения: Кушнер, Гарольд Дж. (Гарольд Джозеф), 1933-: Бесплатная загрузка, заимствование и потоковая передача: Интернет-архив

Репозиторий обучения с подкреплением в Университете Массачусетса, Амхерст (umass.edu)

Полуконтролируемое обучение — Википедия

Основы машинного обучения для вашего следующего интервью!!

Бонус:

Дополнительная информация:

Вопросы по теме