Сеульский национальный университет ускоряет машинное обучение для МРТ-исследований с помощью открытого конкурса с использованием VESSL

С помощью VESSL Run участники SNU fastMRI Challenge могут сосредоточиться на создании современных моделей МРТ-реконструкции.

В 2019 году Facebook AI Research (FAIR) и NYU Langone Health провели первое мероприятие fastMRI Challenge, чтобы сделать МРТ-сканирование в 10 раз быстрее с помощью ИИ. В рамках конкурса NYU Langone Health выпустила полностью анонимизированные необработанные данные и изображения наборы данных более 17 000 МРТ, чтобы ускорить клиническое внедрение машинного обучения в исследованиях МРТ в более широком сообществе машинного обучения.

Ежегодный конкурс fastMRI Challenge в масштабах всего кампуса в Сеульском национальном университете (SNU), организованный Инженерным колледжем совместно с AIRS Medical — медицинским стартапом в области искусственного интеллекта, основанным победителями конкурса FAIR-NYU fastMRI Challenge 2020, — преуспевает в этой инициативе. Ежегодно в конкурсе принимают участие более 150 команд из более чем 30 дисциплин, чтобы изучить последние тенденции в МРТ-изображениях с ускорением МО и построить современные модели реконструкции с использованием реальных клинических данных и мощных ресурсов графического процессора, предназначенных для решения этой задачи. .

Однако создание среды разработки для конкурса исследований в области машинного обучения — сложный инженерный процесс. В случае с SNU им нужно было предоставить простой доступ к высокопроизводительным компьютерам на территории кампуса и большим наборам данных изображений более чем 150 командам в дополнение к среде ноутбуков, похожей на Kaggle.

Инженерный колледж Сеульского национального университета работал с VESSL над созданием необходимой исследовательской среды. Организаторы смогли просто запустить мероприятие вместо того, чтобы тратить недели на настройку инфраструктуры. Обладая достаточной вычислительной мощностью в любое время во время соревнований и мгновенным доступом к большим наборам данных, участники могли полностью сосредоточиться на совершенствовании своих моделей реконструкции МРТ.

Проблема

Сеульскому национальному университету требовалась исследовательская среда, обеспечивающая легкий доступ к высокопроизводительным вычислительным мощностям и большим наборам данных МРТ.

МРТ-реконструкция — это задача, требующая как GPU, так и больших объемов данных. Модель-победитель конкурса fastMRI Challenge 2020 от AIRS Medical, например, имела более 200 миллионов параметров, обученных на 4 устройствах NVIDIA V100 в течение 7 дней. SNU хотел масштабировать эту систему в 150 раз — создать среду, в которой более 150 команд могли бы обучать и оптимизировать свои собственные модели.

Инженерный колледж хотел (1) выделить ограниченное количество из 200+ графических процессоров RTX 3080 среднего уровня справедливо и эффективно, (2) настроить хранилище объектов для >100 ГБ набора данных МРТ с нулевым временем импорта (3) и хранить все метаданные обучения и родословная для обеспечения воспроизводимости.

До того, как SNU начала работать с VESSL Run, конкуренты были привязаны к определенному узлу кластера графического процессора, что значительно ограничивало их возможности изучения новых моделей, больших наборов данных и большего количества итераций. Имея всего лишь пустую систему хранения, им также приходилось загружать 100-гигабайтные наборы данных каждый раз, когда они запускали серверы для ноутбуков или выполняли обучающие задания. Самое главное, организаторы не смогли должным образом оценить окончательные модели, поскольку некоторые модели не были воспроизведены с ожидаемой точностью.

Решение

VESSL Run предоставляет исследователям инфраструктуру машинного обучения, инструменты и рабочий процесс, необходимые им для совершенствования своих моделей.

Используя VESSL, SNU всего за несколько часов создала масштабируемую инфраструктуру для FastMRI Challenge. Работа началась с настройки кластеров графических процессоров и систем хранения данных в центре обработки данных на территории кампуса.

Команды были назначены с ограниченным количеством часов GPU — вместо узлов — что побуждало их использовать GPU более разумно — например, выполнять контейнерные задания вместо постоянных серверов ноутбуков. Таким образом, SNU смогла защитить простаивающие узлы для более ресурсоемких задач обучения и оптимизации. Благодаря встроенной поддержке томов Kubernetes hostPath в VESSL командам больше не нужно загружать наборы данных объемом 100 ГБ каждый раз, когда они запускают свой сервер для ноутбуков или выполняют учебные задания. SNU также использовала информационную панель эксперимента в качестве таблицы лидеров, которая записывает все индексы производительности модели и метаданные, что делает все отправленные модели полностью воспроизводимыми.

Имея подходящую инфраструктуру и инструменты, конкуренты, естественно, внедрили более эффективные и масштабируемые рабочие процессы, которые максимизировали производительность модели:

Обучайте базовые модели на дробных графических процессорах благодаря поддержке VESSL для многоэкземплярного графического процессора (MIG).
Масштабируйте свои модели на высокопроизводительных компьютерах с помощью планировщика заданий VESSL и оптимизируйте их с помощью оптимизации гиперпараметров и распределенного обучения.
Автоматически записывайте гиперпараметры, среду выполнения и наборы данных с версиями с помощью VESSL Run.

Мгновенный доступ к высокой вычислительной мощности и большим наборам данных сэкономил исследователям часы ожидания и позволил им в полной мере воспользоваться преимуществами высокопроизводительных вычислений, которые они никогда не могли бы получить с «голым железом». Благодаря оптимизированному рабочему процессу обучение высокопроизводительных моделей машинного обучения стало проще, чем когда-либо, а также высвободилось время исследователей.

Что дальше

Благодаря внедрению VESSL в кампусе Инженерный колледж SNU быстрее достигает результатов исследований в области машинного обучения.

Благодаря успеху программы fastMRI Challenge Инженерный колледж SNU теперь использует VESSL для исследований в аспирантуре и курсов для студентов по искусственному интеллекту и машинному обучению. Теперь учащиеся используют VESSL для доступа к кластерам графических процессоров школы за считанные секунды и получения наборов данных объемом в несколько гигабайт с нулевым временем ожидания.

Легкий доступ к школьной инфраструктуре машинного обучения вместе с управляемыми рабочими процессами VESSL снизил барьер для экспериментов с моделями SOTA, помогая учащимся, даже не имеющим опыта работы с CS, быстро опробовать исследования и приложения с использованием ИИ. Это позволяет исследователям исследовать междисциплинарные возможности, которые раньше были просто невозможны, например, использование ИИ в МРТ.

Для тех, кто уже занимается последними исследованиями в области машинного обучения, VESSL упростил создание высокопроизводительных моделей машинного обучения. Благодаря VESSL исследователи экономят часы, необходимые для настройки исследовательской среды, выполнения ручного обучения и задач оптимизации, а также для обеспечения воспроизводимости. Используя VESSL Run, исследователи из разных отделов Сеульского национального университета теперь тратят больше времени на продвижение своих исследований в области машинного обучения.

«По мере того, как ИИ становится все более неотъемлемой частью инженерных дисциплин, помощь нашим студентам и исследователям в легком доступе к инструментам и инфраструктуре, необходимым для масштабного применения машинного обучения, также становится центральной задачей колледжа. Используя кампус VESSL по всему кампусу, мы надеемся продвинуть исследования и образование в области ИИ».
— Проф. Хонг, декан инженерного факультета Сеульского национального университета

—

Йонг Хи, специалист по развитию VESSL AI