Машинное обучение на периферии — Федеративное обучение в автомобильной промышленности

Адам Козловски, Марчин Вишневский

Машинное обучение в сочетании с периферийными вычислениями вызывает большой интерес в отраслях, широко использующих ИИ, — здравоохранении, автомобилестроении или страховании. Распространение вариантов использования, таких как автономное вождение или дополненная реальность, требующих малой задержки и реакции в режиме реального времени на правильную работу, сделало распределенную обработку данных заманчивым решением. Перенос вычислений на периферийные устройства IoT делает распределенные облачные системы меньше — и в этом случае чем меньше, тем дешевле. Это первое наиболее очевидное преимущество переноса машинного обучения из облака на периферийные устройства.

Почему стоит прочитать эту статью? Посмотрите, что мы предлагаем здесь:

Объяснение того, почему обычного обучения машинному обучению может быть недостаточно.
Представляем идею федеративного обучения.
Описание преимуществ и рисков, связанных с этой технологией.
Представляем техническую архитектуру аналогичного решения.

Как можно использовать федеративное обучение в автомобильной промышленности?

Если взять в качестве примера автомобильную промышленность, то современные автомобили уже содержат пограничные устройства с процессорами, способными выполнять сложные вычисления. Все ADAS (усовершенствованные системы помощи водителю) и расчеты автономного вождения происходят на борту и требуют довольно значительной вычислительной мощности. Обнаружение препятствий, дорожных полос, других транспортных средств или дорожных знаков происходит прямо сейчас с помощью бортовых систем автомобиля. Вот почему сотрудничество с такими компаниями, как Nvidia, становится критически важным для OEM-производителей, поскольку потребность в улучшении встроенных SoC не исчезает.

Несмотря на то, что прогнозирование происходит в автомобиле, модель обучается и подготавливается с использованием обычных, сложных и дорогостоящих систем обучения, созданных локально или в облаке. Обучающие данные становятся все больше и больше, что делает процесс обучения дорогостоящим в вычислительном отношении, медленным и требует значительного объема памяти, особенно если не используется добавочное обучение. Для передачи обновленной модели в автомобиль может потребоваться время, а для сохранения пользовательских моделей вождения или даже изображений с бортовой камеры требуется как согласие пользователя, так и соблюдение местных законодательных норм.

Возможным решением этой проблемы является использование локального набора данных от каждого транспортного средства в виде небольших распределенных обучающих наборов и обучение модели в форме «федеративного обучения», когда локальная модель обучается с использованием меньших пакетов данных, а затем агрегируется в единый глобальный набор данных. модель. Это более эффективно для вычислений и памяти.

Каковы преимущества федеративного обучения?

Одной из важных концепций, тесно связанных с машинным обучением на периферии, является построение федеративного обучения поверх периферийного машинного обучения. Сочетание федеративного обучения и периферийных вычислений дает важные измеримые преимущества:

Сокращение времени обучения — периферийные устройства выполняют расчеты одновременно, что повышает скорость по сравнению с монолитной системой.
Сокращение времени логического вывода — по сравнению с облаком результаты логического вывода вычисляются немедленно.
Совместное обучение — вместо одного огромного набора обучающих данных обучение происходит одновременно с использованием меньших наборов данных — что делает его проще и точнее, позволяя использовать большие наборы обучающих данных.
Всегда актуальная модель в транспортном средстве — новая модель распространяется на транспортное средство после проверки, что делает процесс обучения сети автоматическим.
Исключительная конфиденциальность — повсеместная проблема защищенных каналов для передачи конфиденциальных пользовательских данных, анонимизации и хранения личных данных пользователей в учебных целях больше не существует. Обучение происходит на локальных данных в пограничном устройстве, и данные никогда не покидают транспортное средство. Совместно используемые веса не могут быть использованы для идентификации пользователя или даже его манеры вождения.
Отсутствие единой точки отказа — потеря данных обучающей выборки не представляет угрозы.

Преимущества этих концепций заключаются как в экономии средств, так и в улучшении точности, что проявляется в общем улучшении пользовательского опыта при использовании систем автомобиля. Поскольку автономное вождение и системы ADAS имеют решающее значение, более высокая точность модели также напрямую связана с большей безопасностью. Например, если система может идентифицировать пешеходов на дороге перед транспортными средствами с точностью на 10% выше, это может означать, что можно будет избежать дополнительных 10% столкновений с пешеходами. Это измеримая и важная разница.

Конечно, решение приходит не только с выгодой. Существуют определенные риски, которые необходимо учитывать при принятии решения о переходе на федеративное обучение. Основная из них заключается в том, что по сравнению с обычными механизмами обучения федеративное обучение основано на разнородных обучающих данных — несвязанных наборах данных, хранящихся на периферийных устройствах. Это означает, что точность глобальной модели трудно контролировать, поскольку глобальная модель создается на основе локальных моделей и динамически изменяется.

Эту проблему можно решить, создав гибридное решение, в котором часть модели строится с использованием безопасных предопределенных данных и постепенно улучшается за счет федеративного обучения. Это сближает оба мира — объемы данных, которые невозможно обработать с помощью единой обучающей системы и стабильной модели, основанной на проверенном обучающем наборе.

Архитектурный обзор

Чтобы построить такую систему, нам нужно начать с общей архитектуры. Основные допущения заключаются в том, что инфраструктура способна работать с распределенными системами на основе микросервисов и имеет возможности организации очередей и балансировки нагрузки. Пограничные устройства имеют какое-то хранилище, датчики и SoC с CPU и GPU, способные обучать модель машинного обучения.

Давайте разобьем его на несколько подсистем и рассмотрим их одну за другой:

Рой подключенных краевых устройств транспортного средства, каждое из которых имеет подключенные датчики и возможность пересчета градиента модели (веса).
Среда подключения, в данном случае быстрая, доступная в автомобиле сеть 5G.
Облачный коннектор, представляющий собой безопасный, доступный по всему миру общедоступный API, к которому подключается каждое из периферийных устройств Интернета вещей в автомобиле.
Кластер Kubernetes с федеративной системой обучения, разбитой на несколько масштабируемых микросервисов:

а) Проверка градиента / Брандмауэр — система, отклоняющая градиент, который выглядит поддельным — либо манипулируемым третьей стороной, либо основанным на вымышленных данных.
б) Агрегатор моделей — система, объединяющая новые веса в существующую модель и создающая обновленную модель .
c) Автоматизированная тестовая система проверки результатов — система, проверяющая новую модель на предварительно определенном наборе данных с известными прогнозами для оценки модели по сравнению с исходной.
d) Очередь распространения, подключенная к (S)OTA — автоматическая или инициируется распространением пользователем обновленной модели в виде беспроводного обновления транспортного средства.

Брандмауэр?

Брандмауэр здесь, внутри системы, не ошибка. Он не защищает сеть от атак. Он защищает модель от кибератак.

Безопасность — очень важный аспект ИИ, особенно когда модель может быть изменена непроверенными данными извне. Существует несколько известных векторов атак:

Византийская атака — о ситуации, когда некоторые из периферийных устройств скомпрометированы и загружают неправильные веса. В нашем случае маловероятно, чтобы злоумышленник был всезнающим (знал данные всех участников), поэтому загруженные веса либо рандомизированы, но правдоподобны, как сгенерированный гауссовский шум, либо флип-бит вычисления результата. Цель состоит в том, чтобы сделать модель непредсказуемой.
Отравление модели — эта атака аналогична византийской атаке, но цель — внедрить вредоносную модель, которая в результате изменяет глобальную модель для неправильной классификации объектов. Опасным примером такой атаки является внедрение в модель нескольких поддельных транспортных средств, которые неправильно идентифицируют деревья как дорожные знаки «стоп». В результате автономный автомобиль не сможет корректно работать и останавливаться возле всех деревьев, так как это будет поперечное сечение.
Data Poisoning — эту атаку труднее всего избежать и проще всего выполнить, поскольку она не требует компрометации транспортного средства. На сенсор, например, камеру, подается поддельная картинка, содержащая незначительные, но присутствующие изменения — например, набор ярко-зеленых пикселей, как на картинке:

Это может быть распечатанная картинка или даже наклейка на обычном дорожном знаке. Если сеть научится рассматривать эти четыре пикселя как знак «стоп». Это может быть нарисовано, например, на другом транспортном средстве и вызвать хаос на дороге, когда автономный автомобиль сталкивается с этим рисунком.

Как мы видим, эти атаки специфичны для систем распределенного обучения или машинного обучения в целом. Принятие этого во внимание имеет решающее значение, поскольку вредоносную модель может быть невозможно идентифицировать, глядя на веса или даже результаты прогнозирования, если способ атаки не был определен.

Существует несколько контрмер, которые можно использовать для смягчения этих атак. Можно рассчитать медиану или расстояние до глобальной модели и быстро идентифицировать ложные данные. Другая защита состоит в том, чтобы проверить оценку глобальной модели после слияния и отменить изменение, если оценка значительно хуже.

В обоих случаях уведомление о ситуации должно быть доведено как до операторов в качестве метрики, так и до сервиса, выставляющего баллы бортовым устройствам транспортного средства. Если устройство неоднократно помечается как нарушающее правила, оно должно быть исключено из сети, и необходимо провести расследование, чтобы выяснить, является ли это кибератакой и кто является злоумышленником.

Агрегация и тестирование моделей

Как мы знаем, заботясь об угрозах кибербезопасности, специфичных для нашего варианта использования, теперь важным шагом является объединение новых весов с глобальной моделью.

Не существует одной наилучшей функции или алгоритма, которые можно использовать для агрегирования локальных моделей в глобальные модели путем слияния отдельных результатов (весов). В общем, очень часто среднее или средневзвешенное значение дает достаточные результаты для начала.

Шаг агрегации не является окончательным. Затем версионная модель тестируется на следующем этапе с использованием предопределенных данных с автоматической проверкой. Это важнейшая часть системы, предотвращающая самые очевидные неисправности, например, система помощи при движении по полосе, которая останавливается для распознавания дорожных полос.

Если модель проходит тест с оценкой, по крайней мере, такой же хорошей, как текущая модель (или предопределенное значение), она сохраняется.

Распространение по воздуху

Последним шагом конвейера является постановка обновленной модели в очередь для распространения обратно на транспортные средства. Это может быть либо автоматический процесс, как при непрерывном развертывании непосредственно в автомобиле, либо может потребоваться ручной запуск, если системе требуются дополнительные ручные тесты в дороге.

Безопасный способ распространения обновления — использование образа контейнера. Один и тот же образ можно использовать для тестов, а затем запускать в транспортных средствах, что значительно снижает вероятность развертывания неудачных обновлений. С помощью этого процесса откат также прост, если устройство может хранить предыдущую версию модели.

Результаты

Переход от устаревшего монолитного метода обучения к федеративному обучению дает многообещающие результаты как в снижении общей стоимости системы, так и в повышении точности. Благодаря быстрому развертыванию сети 5G с малой задержкой и периферийных устройств IoT в транспортных средствах система такого типа может перейти от теоретических дискуссий, научных лабораторий и проверки концепций к полностью способным и надежным производственным системам. Ключевой частью построения такой системы является учет угроз кибербезопасности и важных показателей, таких как точность глобальной модели, с самого начала.

Первоначально опубликовано на https://grapeup.com 24 сентября 2021 г.

Если этот пост был полезен, пожалуйста, несколько раз нажмите кнопку аплодисментов 👏 ниже, чтобы выразить свою поддержку автору 👇