Я всегда хотел попробовать функции Auto ML, предлагаемые Google на Google Cloud Platform (GCP), и мне посчастливилось попробовать.

В домене электронной коммерции отзывы о продукте играют жизненно важную роль в определении его успеха. Обзор может быть о качестве продукта, доставке, цене продукта и так далее. Необходимо разделить текст обзора на соответствующую категорию, чтобы получить более полное представление о бизнесе.

Задача состояла в том, чтобы классифицировать фрагмент текста на иностранном языке, скажем китайском, на K различных категорий, где K ≥3.

Формально постановку задачи можно сформулировать как

Ввод(X): фрагмент текста на китайском языке.
Выход(y): целевой класс.
Подход:Проблема контролируемого обучения.

Проблема классификации, определенная выше, была предпринята для Auto ML в GCP.

Предпосылки:

Следующие API должны быть включены в GCP заранее:

а. Облачное хранилище

б. Облачный AutoML API

в. JSON API Google Cloud Storage

После включения вышеуказанных API мы можем начать работу с AutoML для NLP, предлагаемым GCP.

Я хотел бы подробно описать следующие этапы жизненного цикла машинного обучения.

  1. Подготовка данных для обучения
  2. Обучение модели
  3. Оценка модели
  4. Развертывание модели

Шаг 1. Подготовка данных для обучения.

а. Нажмите на НОВЫЙ НАБОР ДАННЫХ

б. Введите имя набора данных, скажем, test, подтвердите цель модели постановкой задачи и нажмите CREATA DATA SET.

в. Загрузите CSV-файл, содержащий текст, метки либо из CSV-файла, хранящегося на вашем компьютере, либо укажите его местоположение в GCS и нажмите кнопку ИМПОРТ.

Внимание! На каждом ярлыке должно быть не менее 100 обучающих примеров для запуска Auto ML.

д. Время, необходимое для импорта, будет зависеть от размера и сложности нашего набора данных. После завершения импорта будет отправлено электронное письмо.

е. Нажмите VIEW LABEL STATS, чтобы изучить распределение классов в вашем наборе данных, разделить данные на обучающие, проверочные и тестовые наборы данных.

Хорошей практикой является просмотр предупреждений во время процесса импорта.

Шаг 2. Обучение модели

а. Перейдите на вкладку ПОЕЗД и нажмите кнопку НАЧАТЬ ОБУЧЕНИЕ.

б. Будет отправлено электронное письмо с уведомлением о статусе обучения.

Шаг 3. Оценка модели

а. Нажмите на вкладку EVALUATE и изучите результаты.

б. Матрица Precision, Recall, Confusion — это метрики, которые в настоящее время поддерживаются Auto ML для классификации.

Шаг 4. Развертывание модели

а. Перейдите на вкладку ТЕСТ И ИСПОЛЬЗОВАНИЕ.

b.Нажмите РАЗВЕРНУТЬ МОДЕЛЬ.

в. Определите параметры конфигурации вашей конечной точки (тип машины и т. д.) и нажмите кнопку «Развернуть».

Наблюдения:

  1. Время обучения составило около 16 часов.
  2. Стоимость обучения составила около 50$.
  3. Вывод стоит около 5$ за 1000 записей.

Вывод:

Auto ML работает, когда вы проводите такой эксперимент, как Proof of Concept. Можно использовать существующие готовые модели для выполнения поставленной задачи. Его также можно использовать, когда количество людей, работающих над проектом по науке о данных, ограничено, скажем, 2–3. Это быстрый способ начать работу, и можно проверить, могут ли существующие модели решить поставленную задачу за ограниченное время. Пользовательский интерфейс удобен, и человек с базовыми знаниями в машинном обучении сможет очень быстро обучать и развертывать модели.

Опытные пользователи могут создавать собственные пользовательские модели, используя контейнеры, предоставляемые vertex ai ,train , и развертывать их с помощью Vertex AI.

Также следует контролировать понесенные расходы на каждом этапе, чтобы не получить большой счет в конце платежного цикла.