Развитие практики машинного обучения в крупной финансовой компании

Этот пост подготовлен в партнерстве с Capital One.

Недавно я имел удовольствие поговорить с Захари Ханифом, директором Центра машинного обучения (C4ML) в Capital One. Мне было интересно получить уникальное представление о проблемах развития практики машинного обучения в крупной финансовой организации. Ранее я писал о лучших практиках Google и Uber в области машинного обучения. Мне было любопытно понять, как можно построить инфраструктуру машинного обучения в такой фирме, как крупный регулируемый банк; Ниже приводится краткое изложение нашего разговора.

У банков есть собственный набор строгих правил, которым не подчиняются такие компании, как Google или Uber. Распространенный стереотип о крупном банке - это значительное отставание во внедрении новейших технологий. До прихода в Capital One Закари накопил опыт работы в начинающих компаниях, разрабатывающих крупномасштабные прикладные инфраструктуры машинного обучения. Проработав два года в Capital One, он, ретроспективно, был весьма впечатлен философией компании в отношении технологий и тем, насколько активно они восприняли последние разработки.

Как создать центр передового опыта в области машинного обучения с нуля?

В начале 2017 года C4ML начинался с нескольких человек, а сейчас их уже более 100. Как он стал масштабироваться так быстро? Поскольку Capital One начал применять машинное обучение к все большему количеству аспектов бизнеса, C4ML был создан как центр передового опыта и внутреннего консультирования, чтобы еще больше ускорить внедрение технологии в организации, сосредоточив внимание на доставке продуктов, инновациях, образовании и исследования и партнерства.

Чтобы расширить команду, C4ML объединил узкоспециализированный внутренний набор с более широкой «Программой развития технологий» (TDP) Capital One, двухлетней интенсивной программой обучения ротации для недавних выпускников колледжей с опытом CS / CE для применения своих навыков в специфической для C4ML. track (TDP - ведущий канал для младших инженеров и талантливых специалистов по машинному обучению в группе). Программа помогает недавним выпускникам определить, на каком типе работы они хотели бы сосредоточиться в области инженерии и машинного обучения, а также обучает их особым навыкам, необходимым в Capital One, поскольку часто могут возникать сложные кривые обучения, когда недавние выпускники входят в профессиональный мир. . Чтобы обеспечить плавный переход для новых талантов, младшие разработчики также работают в паре с более старшими опытными разработчиками.

Команда ориентировалась на специальности информатика, прикладная математика, статистика и физика. C4ML искал выпускников, которые были сильны в техническом плане и проявляли страсть к своему делу.

Помимо приема на работу недавних выпускников, C4ML имеет сильную команду опытных профессионалов, которые ранее работали с проблемами, требующими большого количества данных. В конкретных технических средах, например, использовались Spark, высокопроизводительные вычисления (HPC) или аналитика временных рядов. Идеальными кандидатами были профессионалы, которые были «обмануты»; это профессионалы, имеющие обширный опыт аналитики, а также солидный опыт разработки программного обеспечения.

В процессе приема на работу C4ML поощряет разнообразие опыта и идей. В то время как доктор философии Специалистов по информатике активно ищут, команда подходит к набору без предубеждений. Одним из самых уникальных людей, которых пригласили на работу, был ученый-материаловед. Этот наниматель посвятил свою карьеру изучению кристаллических свойств стали. Уникальное видение, которое он привнес в команду, заключалось в высоком уровне строгости, который Ханиф считает решающим для успеха в этой области. Различные научные дисциплины будут иметь разные культуры; В материаловедении неудачный эксперимент может означать потерю миллионов долларов.

Как вы организовываете команду?

Было бы невозможно создать команду, если бы совместное размещение было строгим требованием. Современные компании нуждаются в гибкости местоположения, чтобы привлекать лучшие таланты. Чтобы сбалансировать это, у C4ML есть команды в нескольких основных офисах в разных географических точках. Участники проекта не распределяются, а скорее находятся в одном месте. В частности, участники проекта размещаются вместе со своими внутренними клиентами, которые представляют собой внутренние направления бизнеса, такие как кредитные карты, борьба с отмыванием денег (AML) и мошенничество. Члены группы C4ML взаимодействуют с экспертами в области бизнеса и аналитиками данных в каждой из своих внутренних групп клиентов. Это имеет смысл, поскольку для специалистов по машинному обучению нереально усвоить 20-летний человеческий опыт.

Внутренняя организация каждого клиента также обладает техническими талантами, включая инженеров и разработчиков моделей данных. Двухканальный набор навыков члена C4ML позволяет им говорить на том же языке, что и инженеры данных или разработчики моделей данных, и сделать общение более эффективным без необходимости перевода между сотрудниками.

Как построить надежную инфраструктуру машинного обучения в регулируемой среде?

Важное значение имеет модельное управление, а также своевременные, точные и беспристрастные экспертные оценки.

C4ML имеет узкоспециализированную инфраструктуру и инструменты для управления процессами, создаваемыми людьми на каждом этапе. Команда создала внутренний инструмент, обеспечивающий повторяемость экспериментов; Хотя гиперпараметры используются для идентификации моделей-кандидатов машинного обучения, они регистрируются инструментом для обеспечения повторяемости. Команда отслеживает каждый эксперимент, версия кода контролируется в GIT, а данные отслеживаются в специально созданной системе. Эта система позволяет проводить бэк-тестирование и отслеживать происхождение данных и основана на хранилище только для добавления. Информация о том, как были выбраны данные, также записывается с целью обеспечения максимальной прозрачности и простоты отслеживания и регистрации.

Система также включает автоматическое статистическое тестирование для отслеживания дрейфа модели с течением времени. Мир продолжает развиваться даже после создания модели, а это означает, что модели могут потерять свою предсказательную силу. Это особенно важно в таких областях, как предотвращение мошенничества, где идет постоянная гонка вооружений между обнаружением и мошенниками, стремящимися обойти систему.

Вклад в экосистему

C4ML участвует во многих проектах с открытым исходным кодом, включая Spark, Kafka и Nifi, и это лишь некоторые из них (у Capital One есть собственная страница на Github: https://github.com/capitalone). Команда C4ML также уделяет время различным исследованиям и написанию научных статей, которые будут представлены на конференциях в течение года.

Конференция по глубокому обучению и анализу данных

Меня больше всего интересуют разработки в области глубокого обучения, поэтому мне пришлось поинтересоваться, насколько глубокое обучение проводится в C4ML. По словам Ханифа, существует несколько проектов, которые используют набор ConvNet, LSTM, настраиваемые нейронные встраивания, обучение с подкреплением и сверточные сети на основе графов. Тип обрабатываемых данных охватывает изображения и временные ряды. Что касается НЛП, используются более традиционные методы.

Таким образом, я рад, что получил некоторое представление о том, как Capital One приближается к технологиям, особенно за счет активного и активного изучения передовых разработок в области машинного обучения. Чтобы узнать больше об их работе и исследованиях в этой области, вы можете отправиться на Конференцию по анализу данных Capital One в июне этого года, где Зак и его команда соберут вместе более широкое сообщество машинного обучения, чтобы обсудить последние достижения и исследования в этой области.