Архитектура конвейера машинного обучения

Когда дело доходит до разработки моделей, специалисты по данным сосредоточены на очистке и предварительной обработке своих данных, статистических методах, методах моделирования машинного обучения и так далее; следовательно, как только их модель готова к использованию в производстве, они обычно упираются в стену из-за того, что находятся в изолированной среде, которая не настроена для запуска этих прототипов в производство. Необходимость в непрерывном процессе, который позволяет беспрепятственно писать код, запускать его в производство, выполнять извлечение данных, создавать обучающие модели и настраивать эти модели, является ключевым фактором. Этот процесс известен как конвейер машинного обучения. Архитектура конвейера машинного обучения требует цели и планирования, прежде чем его можно будет выполнить.

Создание конвейера машинного обучения можно разбить на восемь шагов:

ШАГ 1 — Определение проблемы. Это основной шаг, на котором вы формулируете бизнес-проблему, требующую ответа.

ЭТАП 2 — Прием данных: данные необходимы в качестве первого шага для любых усилий по машинному обучению. Есть два слоя:

Автономно: данные поступают из источника или нескольких источников, которые поступают в службу приема и сохраняются в хранилище необработанных данных. Когда эти данные отправляются на платформу машинного обучения, им присваивается уникальный идентификатор пакета, который позволяет легко и эффективно запрашивать и отслеживать набор данных. Каждый набор данных имеет выделенный конвейер, который обрабатывается одновременно и индивидуально. Данные в каждом конвейере разделяются для использования нескольких процессоров, ядер и других ресурсов, чтобы сократить общее время выполнения задачи.

Онлайн: данные поступают из источника и передаются в механизм потоковой передачи, а затем в онлайн-службу приема, которая сохраняет данные в том же хранилище необработанных данных, что и автономный уровень. Этот онлайн-уровень также подключается к другому механизму потоковой передачи, который обеспечивает дальнейшую мгновенную обработку.

ШАГ 3 — Подготовка данных. Это сложный шаг, который включает в себя получение необработанных и неструктурированных данных и преобразование их в данные, которые можно использовать для моделей. На этом этапе конвейер ищет различия в форматировании, неверные или отсутствующие точки данных, выбросы, аномалии и т. д. Этот этап также включает процесс разработки признаков, который может выполняться вручную или автоматически.

В автономном режиме: после завершения службы приема запускается служба подготовки данных. Отсюда логика проектирования функций обрабатывает данные и сохраняет все сгенерированные функции в хранилище данных функций. После завершения каждого конвейера подготовки данных выходные данные функций также реплицируются в онлайн-хранилище данных функций для упрощения запросов и немедленного прогнозирования.

Онлайн: механизм потоковой передачи предоставляет данные онлайн-сервису подготовки данных в памяти, а также сохраняет эти функции в автономном хранилище данных функций для будущего обучения.

ШАГ 4 — Разделение данных. На этом этапе мы разделяем данные на обучающие, тестовые и проверочные наборы, чтобы проверить, как модель работает с новыми наборами данных. Этот этап содержит два конвейера, обучение модели и оценку, оба из которых должны иметь возможность вызывать API или службу для доступа к требуемым наборам данных. Этот API или служба также должны иметь возможность возвращать помеченные и/или непомеченные данные.

ШАГ 5 — Обучение модели. Этот конвейер всегда находится в автономном режиме. Он содержит библиотеку алгоритмов обучающих моделей, разработанных Data Scientist, которые можно использовать непрерывно и взаимозаменяемо по мере необходимости. Рабочий процесс этого конвейера начинается со службы обучения модели, которая получает параметры конфигурации обучения из службы конфигурации и запрашивает требуемый набор обучающих данных из API (или службы), созданного на этапе разделения данных. Как только модель, конфигурации, изученные параметры, тайминги и т. д. будут готовы, все они будут сохранены в хранилище данных-кандидатов модели, чтобы их можно было оценить и использовать позже в полном конвейере.

ШАГ 6 — Оценка модели-кандидата: этот этап конвейера также всегда находится в автономном режиме. Он оценивает производительность сохраненных моделей, используя подмножества тестовых и проверочных данных, до тех пор, пока модель не будет в достаточной степени отвечать исходной поставленной задаче. Как только модель готова к развертыванию, служба уведомлений отправляется в широковещательном режиме.

ШАГ 7 — Развертывание модели. Это та часть, где для развертывания модели машинного обучения требуются время и ресурсы.

ЭТАП 8. Производительность и мониторинг. Модель следует постоянно и итеративно отслеживать, а поведение проверять для постепенного улучшения.

Выполнение этих восьми этапов построения конвейера машинного обучения поможет увеличить ваши шансы на будущий успех в разработке моделей. Эти шаги, однако, представляют собой руководства высокого уровня, а не жесткие требования. Каждому из них может потребоваться дополнительная работа в зависимости от постановки задачи и потребностей. Другие элементы, которые необходимо решить, включают описание необходимых уведомлений, время и расписание активных состояний каждого конвейера, ведение журнала, аудит и т. д. После того, как все эти меры будут полностью проверены и реализованы, у вас будет всесторонняя система машинного обучения. .

О Wallaroo. Wallaroo позволяет специалистам по обработке и анализу данных и инженерам машинного обучения внедрять ИИ корпоративного уровня в производство проще, быстрее и с невероятной эффективностью. Наша платформа предоставляет мощные инструменты самообслуживания, специально созданный сверхбыстрый механизм для рабочих процессов машинного обучения, возможность наблюдения и среду для экспериментов. Wallaroo работает в облачных, локальных и периферийных средах, сокращая затраты на инфраструктуру на 80 процентов.

Уникальный подход Wallaroo к производственному ИИ дает любой организации желаемое быстрое время выхода на рынок, проверенную прозрачность, масштабируемость и, в конечном счете, измеримую ценность для бизнеса — благодаря их инициативам, основанным на ИИ, и позволяет специалистам по данным сосредоточиться на создании ценности, а не на низком уровне». сантехника».