Улучшение контроля версий в науке о данных

Если вы Data Scientist, вы, вероятно, страдали от синдрома отсутствия контроля версий. В результате вы получите множество ноутбуков Jupiter, которые являются просто разными версиями одного и того же основного проекта. Но затем проблема распространяется и на API. Как только вы решите развернуть модель, вы никогда не знаете, какой API вам следует использовать и чему он соответствует.

В конце концов, контроль версий становится большой проблемой в больших и малых организациях.

Конечно, GitHub или GitLab — это первое, что приходит на ум, и хотя это решает большую часть проблемы, это не решает всех проблем.

Во-первых, вы не знаете, какая модель сейчас используется в производстве. Незнание этого создает разрыв между Data Science и XOP. Узнайте больше о XOP. В идеале у вас должно быть представление о версии вашей модели в режиме реального времени и о том, куда эта модель отправляет данные.

Во-вторых, несмотря на то, что вы аккуратно упорядочили версии своих моделей, переход от последней версии к более старой версии в производственной среде может оказаться сложной задачей. Это отключение требует, чтобы специалисты по данным удаляли коммиты или загружали последнюю версию, а затем вручную доставляли модели команде XOP.

В-третьих, Github не является хорошим другом сотрудничества с бизнес-подразделениями. Очень немногие команды знают, как использовать Github и получить доступ к описаниям каждой модели. Понимание того, что делает модель, какие параметры она принимает и ее конечная цель, жизненно важно.

В-четвертых, организация API невозможна на Github или GitLab. Организация и поиск API становится головной болью для компаний. Понимание цели каждого API и угадывание того, какие API на самом деле находятся в производстве, является абсолютной необходимостью.

Мы потратили много времени на размышления о том, как решить все эти проблемы. Итак, вот пошаговое описание того, как мы можем помочь вам и вашей организации в управлении версиями в Data Science:

  1. Загрузка модели и управление версиями. Мы создали функцию, позволяющую выбирать и загружать модель. Кроме того, вы можете добавить к нему версии. Более того, вы можете в любой момент изменить версию по умолчанию и добавить комментарии к версии вашей модели. Кроме того, вы можете увидеть, используется ли модель или нет. Наличие этой видимости позволяет вам иметь четкое представление о моделях, которые в настоящее время работают.

  1. Выберите рабочую версию модели. В нашем инструменте Pipelines вы можете выбрать версию, которую хотите запустить в производство, когда выбран оператор модели. Вы можете переходить из разных версий так, как вам больше всего подходит.

  1. Теги. Вы можете организовать свои модели с помощью тегов. Таким образом, вы сможете быстро найти свои модели и версии по мере роста количества моделей.

  1. API: при создании API с помощью нашего средства экспорта API или SQL API вы можете создавать теги для их организации и быстрого поиска. Таким образом, ваши команды по масштабированию использования API смогут управлять API по целям, бизнес-подразделениям и многим другим параметрам.

По мере развития аналитики данных наша цель состоит в том, чтобы разрыв между группами обработки данных и остальными организациями сокращался все больше и больше по мере возникновения новых задач. С помощью нашего набора инструментов команды могут полностью контролировать рабочие процессы моделирования и работы с данными, предоставляя заинтересованным сторонам ощутимые результаты за считанные минуты.