Такие темы, как машинное обучение, искусственный интеллект и наука о данных, широко обсуждались в последние несколько лет. Но эти темы существуют уже давно, хотя названия меняются с годами. Все типы проблем, которые разработчики решают в этих областях, вписываются в то, что мы называем количественными рабочими процессами - процесс начала с данных и получения идей, действий и количественных моделей.

А разработчики, которые их создают? Это исследователи, любители, разработчики, специалисты по обработке данных, аналитики и многие другие, которые в совокупности являются количественно ориентированными разработчиками (QoD).

Есть несколько рабочих процессов, которые вписываются в эти парадигмы, но сегодня мир нуждается в гораздо большем количестве QoD, чем сейчас.

Естественно, много было написано о демократизации машинного обучения и искусственного интеллекта, и для этого требуются QoD, которые могут их реализовать. Причины этого обычно формулируются следующим образом: это будущее, доступ не должен ограничиваться особым классом людей, его ценность ощутят все, и он должен создаваться каждым, у кого есть желание. К сожалению, цель сделать количественные рабочие процессы доступными для всех по-прежнему оставляет желать лучшего.

«Искусственный интеллект собирается создать фантастическое количество возможностей, и эти возможности не должны предоставляться выпускникам Лиги плюща или людям, родившимся в США. Они должны быть открыты для всех. ”

- Франсуа Шоле, автор Keras

Эти прекрасные идеалы практически осуществлены. Несмотря на то, что прилагаются усилия и создаются ресурсы, чтобы сделать эти количественные рабочие процессы более доступными, сообществу не хватает сплоченной, согласованной и совместной платформы для передачи знаний между QoD и предполагаемыми QoD.

Поскольку QoD с разным опытом, беглостью и обучением базовой статистике, концепциям машинного обучения и программному обеспечению решают множество проблем в исследованиях и промышленности, они ищут общие и доступные методы сотрудничества.

Сегодня самая большая проблема, с которой сталкиваются сотрудники QoD, - это отсутствие связи, когда они хотят работать с количественными рабочими процессами. Ниже приведены 3 ключевые части процесса и самая большая проблема в каждой из них.

Отслеживание и воспроизводимость: поиск предыдущих конфигураций, зависимостей и сред для воспроизведения или создания на основе вашей собственной или чужой работы.

Сотрудничество: обмен или понимание модели от другого человека и настройка этой модели в соответствии с пользовательскими данными и конфигурациями.

Развертывание: преобразование модели для работы в производственной среде, когда она будет готова, и поддержание развернутой модели в актуальном состоянии с учетом новых наблюдений.

Давайте быстро рассмотрим пример использования алгоритма компьютерного зрения для распознавания лиц. Существует несколько подходов к распознаванию чьего-либо лица на изображении с помощью компьютерного зрения. Чтобы использовать один из этих подходов, QoD должно:

  1. воспроизвести ту же среду, которая использовалась в подходе (обычно все, что у них есть, - это репозиторий кода, а не вся среда). Они могут найти какое-то направление в этом вопросе с помощью readme, описания или блога, написанного автором подхода, но воспроизводимость подхода неясна.
  2. посмотрите, как этот подход работает с типом данных, для которого они собираются использовать модель. (Например, если я работаю с изображениями людей в толпе, это будет сильно отличаться от изображений людей в новостном интервью.) Затем разработчик должен настроить различные параметры исходного метода для работы с нюансы их данных, пока они не получат хорошую точность.
  3. выпускать модель в производство (в дикой природе) и отслеживать производительность, чтобы они могли использовать полученные отзывы для дальнейшего улучшения модели.

Чтобы решить эти проблемы, в сегодняшних рабочих процессах отсутствуют три элемента:

Отслеживание и воспроизводимость. Простое копирование конфигураций и сред для воспроизведения или создания на основе предыдущей работы.

Сотрудничество: автоматическое отслеживание конфигураций, сред и методологий, а также легкий доступ к этим показателям из других

Развертывание: простое развертывание для обработки производственных данных и обратной связи в режиме реального времени для мониторинга производительности и включения новых наблюдений.

В недалеком будущем будет открытая сеть, в которой сотрудники будут использовать передовой опыт, описанный выше, для объединения лучших моделей, подходов и методологий, позволяющих QoD учиться и опираться на свою работу. В сегодняшней сетевой парадигме мы по-прежнему «смотрим дальше», стоя на плечах гигантов, однако наблюдатель мог бы добавить, что наш вес также несут миллионы нормальных людей.

Если вы заинтересованы в том, чтобы стать частью этой сети на раннем этапе, дайте нам знать. Мы создаем Datmo.com и будем рады, если вы присоединитесь к нам.

Счастливое здание 👍

- Ананд