Как создать платформу, которая понравится ученым по данным

Подсказка: решающее значение имеют межфункциональное сотрудничество и скорость итераций

Новые платформы для науки о данных и машинного обучения появляются почти каждую неделю. Это потому, что поставщики создают инструменты для оптимизации рабочего процесса обработки данных. Они создают более совершенные записные книжки, упрощая отслеживание обучения моделей машинного обучения и облегчая развертывание моделей или приложений данных в производственной среде. Попутно они часто создают сквозную платформу, которая охватывает все, от приема данных до производства.

Однако массового принятия они пока не наблюдаются. Большинство специалистов по данным по-прежнему предпочитают работать локально с небольшими наборами данных и бесплатными инструментами с открытым исходным кодом, а также использовать электронную почту и ручную передачу кода, чтобы поделиться своей работой. Этот рабочий процесс может быть старомодным, но он также удобен и знаком (и зачастую дешевле на первый взгляд!).

Итак, как вы можете создать платформу для анализа данных, которая заставит их изменить свой образ жизни? Короче говоря, вам необходимо не только обеспечить эффективность местного развития, но и устранить его недостатки, такие как сотрудничество и отчетность. Если ваш инструмент может ускорить циклы итераций и упростить специалистам по обработке данных демонстрацию своей работы внешним заинтересованным сторонам, он должен быстро внедриться. Вот почему следующие элементы являются наиболее важными при разработке платформы для анализа данных:

Сотрудничество с заинтересованными сторонами в сфере бизнеса и инженерии
Поддержка знакомых рабочих процессов и наборов инструментов
Совместимость со стандартными рабочими процессами и инструментами
Масштабируемость до больших данных
Правильный баланс сотрудничества и управления

Давайте подробно рассмотрим каждый из них:

Упрощение передачи работы специалистам по анализу данных

Сотрудничество с специалистами, не занимающимися данными, традиционно было одной из самых сложных и упускаемых из виду задач, стоящих перед специалистами по данным, но это также и способ, которым они приносят пользу своему бизнесу. После того, как они выполнили свой анализ, им необходимо поделиться своей работой с бизнес-конечными пользователями или инженерами, которые затем будут создавать свои модели машинного обучения или развертывать приложения для обработки данных.

Сегодня в большинстве случаев специалисты по данным делают это так же, как и много лет назад. Они отправляют результаты по электронной почте в бизнес-подразделение, делятся файлами проекта со своими командами или передают блокнот инженеру. Такой рабочий процесс может быть не только громоздким, но и без систематического способа передачи знаний проекты устаревают.

Отличные платформы для обработки данных позволяют легко передавать работу. Для бизнес-пользователей они предлагают слайды, которые можно использовать в презентациях или информационных панелях, которые обновляются в режиме реального времени. Вы можете найти хорошие примеры этого в таких стартапах, как Streamlit и Hex, которые нацелены на то, чтобы помочь специалистам по обработке данных создавать красивые приложения для обработки данных.

Платформа для обработки и анализа данных также должна способствовать передаче данных от специалистов по обработке данных инженерам, обеспечивая такую организацию проекта, чтобы его было легко понять и воспроизвести. Domino Data Lab, например, упрощает совместное использование работы, помогая специалистам по обработке данных организовывать файлы проектов и среды. Подобные рабочие процессы совместной работы - это то, где платформы для анализа данных действительно сияют - и приносят наибольшую пользу компаниям.

Поддержка знакомых рабочих процессов и наборов инструментов

Специалисты по обработке данных часто не хотят менять свои существующие рабочие процессы, отчасти потому, что они не хотят тратить время на изучение новых инструментов и языков, которые могут оказаться бесполезными. Любая организация, которая пытается заставить их работать по-новому, может обнаружить, что это создает много трений. Даже небольшие различия могут привести к большим препятствиям. Записная книжка, у которой есть другие ярлыки, чем, например, Jupyter, может сильно помешать прогрессу. То же самое и с библиотекой машинного обучения, которая имеет синтаксис, немного отличающийся от того, что учёные по данным изучили в школе, или с незнакомым интерфейсом для управления данными и другими файлами.

Вот почему хорошая платформа для анализа данных поддерживает наиболее распространенные и важные рабочие процессы, позволяя пользователям работать так, как им удобно.

Совместимость со стандартными рабочими процессами и инструментами

Функциональная совместимость означает, что специалист по данным может беспрепятственно перемещать проект на платформу и с нее. Его отсутствие приводит к ситуациям, когда людям нужно переписать код, выбросить работу, а иногда и не сотрудничать. Однако вы можете добиться взаимодействия разными способами. Например, Jupyter - самый популярный блокнот для науки о данных. Это не означает, что все платформы для анализа данных должны поддерживать Jupyter. Фактически, появляется множество привлекательных ноутбуков с открытым исходным кодом (Iodide, Polynote) и проприетарных ноутбуков (Google Colab, Deepnote). Ключевым моментом является то, что эти записные книжки могут легко переноситься на Jupyter и обратно. И, конечно же, работа с ноутбуком должна быть знакома пользователям Jupyter, чтобы специалисты по данным не чувствовали, будто они заново учатся тому, что они уже знают.

Масштабируемость до больших данных

Хорошая платформа может легко масштабироваться до больших данных и обратно. Это связано с тем, что специалисты по обработке данных часто хотят работать локально с образцами данных, взятыми из базы данных. Обычно они изучают статистику и машинное обучение на относительно небольших наборах данных и в результате могут быть лучше знакомы с инструментами, подходящими для них.

Однако есть несколько причин, по которым важно, чтобы код мог масштабироваться до фреймворков больших данных, например Спарк и Даск. Во-первых, специалисты по обработке данных должны иметь возможность увидеть, верен ли их анализ на всем наборе данных. Хотя для выполнения вычислений с большим набором данных требуется больше времени, в целом более эффективным может быть проверка на протяжении всего процесса разработки, а не застать врасплох в конце. Кроме того, набор данных может быть настолько большим, что одна машина не может обрабатывать вычисления - и, фактически, специалистам по обработке данных часто приходится полагаться на инженеров для тестирования своих моделей на полном наборе данных. Наконец, гораздо проще передать модели машинного обучения инженерам, если среда разработки ближе к производственной.

Компания Databricks, основатели которой создали Spark, добилась здесь значительных успехов, упростив работу с большими наборами данных в интерактивной среде записной книжки и снизив сложность вычислений и времени выполнения. Таким образом, специалисты по обработке данных могут выполнять вычисления в больших кластерах, не будучи экспертом в области распределенных вычислений. Coiled Computing - новый стартап, решающий эту проблему за счет коммерциализации Dask, который изначально масштабирует Python.

Баланс сотрудничества и управления

Сотрудничество и управление могут показаться отдельными концепциями, но это две стороны одной медали. В большинстве организаций здесь играют разные силы, в частности, наука о данных, с одной стороны, и юриспруденция и безопасность, с другой. Правовые вопросы и безопасность обеспечивают управление, в то время как специалисты по обработке данных хотят упростить совместные рабочие процессы. Это часто приводит к разногласиям между двумя сторонами. Хорошая платформа должна обеспечивать максимально тесное сотрудничество между пользователями, при этом соблюдая юридические требования и требования безопасности, такие как ведение контрольного журнала и обеспечение того, чтобы пользователи не имели доступа к коду, данным или инфраструктуре, которых им не должно быть.

Это может показаться простым, но для этого могут потребоваться очень тонкие возможности. Простой пример включает ситуацию, в которой разрешено делиться агрегированными данными, но не базовыми данными. Если пользователь А работает с данными на уровне пользователя, а пользователь Б - нет, пользователь А должен иметь возможность делиться общими результатами, не раскрывая более конфиденциальную информацию.

Элементы платформы для анализа данных довольно просты. Обычно это соединитель для источника данных, интерактивная записная книжка или редактор с консолью и какой-то способ совместной работы. Однако, как показано выше, есть много соображений, по которым нужно ориентироваться при создании такового. Но если платформа может улучшить скорость итераций и кросс-функциональное сотрудничество, специалистам по обработке данных она понравится, и всем сотрудникам в организации она понравится.

У вас есть дополнительные вопросы или ваши собственные идеи о том, что важно для платформ обработки данных? Не стесняйтесь обращаться ко мне.

Если вам нравится то, что вы читаете, обязательно поделитесь в социальных сетях (подписывайтесь на Тони в Twitter и LinkedIn) или поаплодируйте автору!