Введение

Если вы специалист по данным, создающий приложения машинного обучения для каталогизации, маркетинга или мошенничества, то вы будете хорошо знакомы со Scikit-learn, Keras, Tensorflow (TF), Jupyter и т. д. Но есть большая вероятность, что вы не знакомы с много кода для разработки серверного программного обеспечения и инфраструктуры. В результате создание ваших приложений становится сложной задачей. Конечно, вы можете разобраться в этих вещах, но время, необходимое для изучения и создания программной системы, далеко не тривиально.

Одним из решений этой проблемы является создание сборочной линии ученых и разработчиков данных. Специалисты по данным создают модели и передают их разработчикам, которые затем интегрируют их в «производственные системы». Но наука о данных не подходит для этого подхода. Почему? Поскольку наука о данных является итеративной, слишком много циклов изучения, преобразования, визуализации и моделирования, прежде чем решение будет выбрано. Правильная передача данных специалисту по обработке данных и разработчику — сложная и дорогая задача. Предположим, вам удастся заставить эту передачу работать, но у вас все равно останется кучка недовольных разработчиков, которым всегда нужно исправлять чужую работу. С другой стороны, специалисты по обработке и анализу данных тоже недовольны тем, что их модели создаются недостаточно быстро. Мы столкнулись с этими проблемами на собственном опыте и полностью понимаем сложность обеспечения бесперебойной работы приложений машинного обучения.

Лучшим решением является создание платформы для обработки и анализа данных, которую смогут использовать специалисты по обработке и анализу данных, с минимальными затратами на разработку. Таким образом, специалисты по данным контролируют свои приложения машинного обучения на всем пути к производству.

При таком подходе специалисты по обработке и анализу данных работают над созданием API-интерфейсов и/или информационных панелей производственного уровня на основе моделей машинного обучения, а разработчики работают над созданием платформы, которая абстрагирует всю сложную низкоуровневую проводку и конфигурации, требуются для производства моделей машинного обучения.

Хорошая платформа для обработки данных должна уметь:

  • Добавляйте структурированные и неструктурированные данные любого размера и любого формата для исследовательского анализа.
  • Создавайте и обучайте модели машинного обучения на нужном оборудовании.
  • Управляйте и отслеживайте эксперименты и модели, а также все метаданные для аудита.
  • Развертывание моделей в качестве расходуемых конечных точек/API/панелей мониторинга для задач прогнозирования
  • Отслеживайте производительность модели и развертывайте обновления на лету

Этот подход может значительно повысить скорость разработки приложений для машинного обучения, позволяя компаниям использовать больше возможностей и повышать конкурентоспособность на рынке.

…так что как бизнес, независимо от вашего размера, ваша гибкость — ваша способность внедрять новый продукт, изменять процессы, управлять своими людьми и т. д. — эквивалентна вашей способности разрабатывать и изменять программное обеспечение. Таким образом, скорость разработки программного обеспечения определяет вашу конкурентоспособность. — Джеймс Линденбаум

Работая со стартапами и предприятиями, мы обнаружили некоторые критические пробелы и отсутствующие функции, когда дело дошло до платформ для обработки и анализа данных. Несмотря на то, что на рынке существует множество инструментов и в экосистемах с открытым исходным кодом для начинающих и крупных предприятий, существует большая пропасть посередине, т. е. в малом и среднем бизнесе (читай малых и средних командах) пространстве.

В частности, для небольших групп специалистов по данным, которые заинтересованы в быстром создании вертикальных приложений с ограниченным бюджетом, не так много возможностей. У большинства этих компаний/команд не хватает ресурсов или времени для создания таких платформ собственными силами, и они предпочитают (правильно) этого не делать.

Сегодня мы рады представить rorodata — платформу для анализа данных, которая позволяет исследовать, создавать и развертывать модели машинного обучения за считанные минуты. Вы сосредоточены на науке, например. разработка функций, модели и т. д. и оставьте ненаучную часть, например. инфраструктура, devops, управление экспериментами, бухгалтерский учет и т.д. Мы поклонники Heroku, поэтому хотели что-то вроде Heroku для специалистов по данным. Мы хотим, чтобы у специалистов по данным был такой же опыт разработки, как и у веб-разработчиков на Heroku.

Мы сосредоточимся на решении проблем, которые упрощают и автоматизируют все задачи, не связанные с наукой о данных, с которыми приходится бороться специалистам по данным, и делают специалистов по данным самодостаточными на всем пути к производству. Мы воодушевлены открывающимися возможностями и с нетерпением ждем инновационных решений в области машинного обучения.

Используя rorodata, вы можете сделать следующее:

  • Стандартизируйте рабочие процессы вашего проекта
  • Мгновенно разверните свою модель на AWS
  • Версируйте артефакты вашей модели и конечные точки API
  • Запуск Jupyter Notebooks по требованию на определенном оборудовании
  • Доступ ко всем журналам выполнения
  • Предоставление дополнительного хранилища с помощью простого API

Мы поддерживаем все популярные фреймворки Python, такие как Scikit-learn, Keras, Tensorflow, PyTorch. Если вы не нашли что-то, просто спросите нас, и мы сделаем это доступным.

Мы все еще находимся на ранней стадии и активно ищем бета-пользователей, которые могут попробовать его и поделиться отзывами, сообщить об ошибках, проблемах или задать дополнительные вопросы. Мы можем упростить машинное обучение с вашей помощью и поддержкой. Присоединяйтесь к нам в Slack.

Если вы стартап и вам нужна помощь с машинным обучением, мы будем рады вам помочь. Просто поделитесь с нами более подробной информацией, и мы скоро свяжемся с вами.

Наконец, мы также нанимаем. Мы создаем надежную платформу для обработки и анализа данных, которая дает специалистам по данным крылья, взяв на себя сложные задачи по разработке программного обеспечения и проектированию. Мы ищем высокомотивированных людей, которые могут помочь нам решить эти сложные проблемы. Более подробную информацию можно найти на нашей странице карьеры.