Развертывание машинного обучения как совместная работа ученых и инженеров, работающих с полным стеком данных

Не все типы специализации созданы равными

По мере взросления дисциплин практикующие специалисты склонны специализироваться. В эпоху Возрождения физика была ветвью философии, и Исаак Ньютон, изобретатель исчисления, призмы и начинающий алхимик, считал себя философом. Он назвал свой шедевр «Математические принципы натуральной философии». В 19 веке философия отделилась от физики, но все еще можно было разумно ожидать, что один физик знает весь предмет. Теперь у нас есть теоретики элементарных частиц, астрофизики, физики твердого тела, физики плазмы и многие другие, и большинству из них было бы трудно понять статьи по физике, не относящиеся к их компетенции, из-за огромного уровня специальных исследований, необходимых для понимания, а тем более вклад, новые исследования в каждой области.

То же самое начинает происходить и в науке о данных. По мере того как компьютерное зрение, обработка естественного языка, обнаружение аномалий, наука о принятии решений о рисках и другие области разрабатывают все более и более сложные методы, возникнет естественная и, вероятно, необходимая тенденция сосредоточиваться на горизонтальной специализации. Но не все типы специализации созданы равными. Помимо горизонтальной дифференциации, некоторые компании, такие как Facebook, предпочитают размещать специалистов по данным в вертикальных нишах.

Вертикальная специализация для науки о данных означает разделение команд на исследователей, которые очищают и проверяют данные; в строителей гипотез, быстро экспериментирующих, чтобы развить направленность инициативы по моделированию; в специалистов по проектированию функций, которые преобразуют данные в полезные и понятные формы; и инженеров по машинному обучению, которые точно настраивают и развертывают модели.

Вертикальная специализация может быть привлекательной как способ воспользоваться преимуществами зон комфорта специалистов по обработке и анализу данных, поставив статистиков на роль разработчиков экспериментов, а программистов на роль оптимизаторов. Но, разделив половину специалистов по статистике и специалистов по обработке данных, компании упускают синергию, обеспечивающую невероятные результаты, как показано в таблице ниже.

Поддержка специалистов по данным Full Stack

В States Title мы заново изобретаем способ закрытия сделок с недвижимостью в Америке, используя машинное обучение. Для достижения этой цели мы сочли наиболее эффективным взять на себя обязательство поощрять специалистов по данным с полным стеком. Это означает, что каждый из наших индивидуальных участников владеет бизнес-вариантом использования от идеи до исследования, моделирования архитектуры и оптимизации и развертывания.

Конечно, достаточно сложные темы неизбежно требуют сотрудничества между несколькими участниками. Но эффект владения и неизбежный рост, происходящий от внедрения кода, в разработке которого кто-то принимал непосредственное участие, в производство, безошибочен. Как личный, так и профессиональный рост зависит от полного вертикального владения развертыванием.

Например, в начале истории нашей компании стало ясно, что нам нужен специальный алгоритм для обработки ипотечных кредитов. Каждая сделка с недвижимостью должна включать список ранее существовавших ипотечных кредитов, связанных с недвижимостью, чтобы их можно было погасить. Это наша работа как компании, чтобы определить этот список.

Мы могли бы решить эту проблему, разделив ее на отдельные задачи по сбору данных, анализу данных, разработке функций, построению модели и оптимизации модели и назначив их разным членам команды. Это могло бы привести к эффективным результатам, если бы каждый член команды, назначенный для каждой задачи, был высокоэффективным и эффективным коммуникатором. Но способствовало бы это такому же личностному росту, как в ситуации, когда мы отдавали весь чистый лист высокоэффективному человеку?

Как оказалось, один член команды был назначен на все пустое пространство и итеративно разработал решение. Хотя решение зависело от опыта всех остальных членов команды, важно, чтобы была единая точка ответственности за все аспекты построения модели. Это привело к нелинейному, извилистому пути к окончательному решению по архитектуре модели, где все знания об источниках необработанных данных и проблемах качества данных могли быть интегрированы в окончательную оптимизацию и построение модели. Конечным результатом стала успешная стратегия сегментации ипотечных кредитов, которая привела к быстрому профессиональному росту (и продвижению по службе) юриста.

Мы даже собираемся сделать декоративную скульптуру для головного офиса, созданную на основе гиперповерхности оптимизации модели!

API-интерфейсы RESTful, позволяющие работать с полным стеком

Чтобы сделать это содействие специалистам по данным с полным стеком возможным в качестве технологической организации, требуются специальные шаги. Нам нужно максимально освободить вовлеченных лиц от технической разработки продукта, ориентированного на клиента. В то же время нам необходимо задействовать инфраструктуру, которая позволяет быстро обновлять информацию и доставлять ее конечным клиентам. Поручить разработку продукта и модели одному человеку невозможно и не соответствует необходимому разделению между наукой о данных и проектированием.

Итак, как мы это сделали? Как мы позволили специалистам по данным полного стека развертывать модели непосредственно для клиентов, не связывая их с проектированием и разработкой продукта?

Наше решение состояло в том, чтобы придумать архитектуру, в которой модели науки о данных States Title отделены от основного продукта набором RESTful API. Всякий раз, когда нашему основному продукту страхования титула требуется ответ (например, список ипотечных кредитов на имущество), он запускает полезную нагрузку данных через такое соединение API, а модели обработки данных нужно только запустить свой код оценки и вернуть результаты. Каждый раз, когда модель обновляется, она беспрепятственно передается в производство без необходимости изменять основной инженерный код или влиять на разработку продукта больше, чем это необходимо.

Конечно, этот подход подразумевает активную и насыщенную коммуникацию между специалистами по данным и бэкэнд-инженерами каждый раз, когда выходит релиз. Но он обеспечивает четкое разделение труда, предотвращая расточительную переработку кода модели разработчиками серверного программного обеспечения, которая так распространена в организациях, предоставляющих финансовые услуги.

Чтобы понять наше решение, представьте себе создание всего набора продуктов компании с использованием такого подхода. Представьте, что есть 3 основных продукта, использующих 3 модели науки о данных, но таким образом, что для двух продуктов требуется несколько моделей. Например, на приведенной ниже схеме Продукту 1 нужны модели A и B, Продукту 2 нужны только модели B, а Продукту 3 нужны модели B и C. Каждая стрелка указывает на соединение RESTful.

Когда приходит время обновить, скажем, модель C, специалист по обработке и анализу данных обновляет код оценки на стороне науки о данных и сообщает команде Product 3, что обновление модели готово.

Преимущество этой совместной архитектуры в том, что взаимодействие между продуктом и наукой о данных сводится к переговорам о структуре полезной нагрузки RESTful. В результате как бэкэнд-инженеры, так и специалисты по данным могут сосредоточиться на своей области знаний.

Резюме

Мы обнаружили, что специалисты по обработке и анализу данных счастливее и быстрее всего развиваются, когда им предоставляется полная собственность на то, что мы называем «чистым листом». Это не означает, что их работа изолирована, потому что члены команды должны анализировать, понимать, тестировать и критически одобрять работу друг друга. Это действительно означает, что путаница, недопонимание и негармоничное качество данных, разработка функций и работа по оптимизации модели уменьшаются. Это приводит к более быстрому и более полноценному профессиональному росту. Философия разработки, благодаря которой происходит алхимия, представляет собой структуру сотрудничества RESTful между командами инженеров бэкэнда и специалистов по обработке и анализу данных.

Хотите узнать больше о нашем подходе к применению машинного интеллекта в сфере недвижимости? Подпишитесь на наши электронные письма, чтобы получать последние новости и советы непосредственно от нашей команды.

Первоначально опубликовано на сайте statestitle.com.