Защитите свою глубокую нейронную сеть с помощью водяных знаков!

У нас есть защита интеллектуальной собственности (IP) водяные знаки на мультимедийное содержимое, такое как изображения, музыка и т. Д. Как насчет Deep Neural Network (DNN)?

Что такое водяной знак?

Водяной знак подобен идентификатору, присвоенному вашему медиа-контенту, например вы рисуете бесплатный контент и загружаете на медиа-платформу, и вы ставите подпись на контенте или просто размещаете логотипы на контенте. Это делается для того, чтобы определить, что контент создан вами, и люди, которые его используют, должны заплатить вам немного денег.

Мы можем применить то же самое к DNN, поскольку DNN будет улучшаться с каждым годом, и многие компании начинают использовать DNN в своем бизнесе.

Почему нам нужно встраивать водяные знаки в DNN?

Допустим, вы вложили много ресурсов (например, времени, GPU) в создание мощных моделей, затем вы публикуете их в своем репозитории на github, но теперь некоторые плохие люди просто берут вашу модель для ведения бизнеса, не спрашивая вас, как должное, вы узнали эти плохие люди, которые использовали вашу модель, но у вас нет доказательств, потому что на модели нет водяного знака. Точно так же, как бесплатный контент распространяется в Интернете, не все люди дают кредиты :(

Помните, что Samsung заплатила Apple за нарушение патентов на дизайн? Тот же случай может применяться к компании (например, компании A), чтобы подать в суд на другие компании, которые используют DNN, выпущенный (или даже украденный) у компании A, без уплаты сбора за авторские права.

Далее мы поговорим об общих подходах к защите DNN с помощью встраивания водяных знаков.

Подходы белого ящика

Есть много подходов, использующих подход белого ящика, я расскажу о самом простом методе, в то время как другие подходы похожи на процесс, только разные способы встраивания.

Встраивание в белый ящик

Чтобы защитить модель DNN путем встраивания водяного знака, в подходе, предложенном в [1], они использовали матрицу преобразования для выполнения встраивания водяного знака.

На этапе обучения модель обучается исходной задаче классификации, однако у модели есть еще одна цель - встроить водяной знак.

Сначала автор выбирает, на каком уровне DNN встроить желаемый водяной знак (например, двоичные данные).

Затем веса в выбранных слоях будут подвергнуты матричному умножению на матрицу преобразования, чтобы получить желаемое количество битов информации, например 64-битный.

Как весовые коэффициенты, так и матрица преобразования будут обновляться с помощью функции потерь, разработанной автором (то есть функции потерь для правильного встраивания 64-битной информации) во время обучения исходной задаче (например, классификации).

Обнаружение белого ящика

Для большой компании они могут собирать доказательства отовсюду, чтобы подать в суд на подозреваемую компанию, которая незаконно использовала их модели DNN. Как только у них будет доказательство, им потребуется пройти процесс проверки, который заключается в извлечении водяного знака из модели DNN и сравнении того, принадлежит ли водяной знак большой компании.

По сути, они делают то же самое для извлечения водяного знака, что и во время обучения. Если снова выполнить операцию с точками между весами сглаживания и матрицей преобразования, водяной знак будет извлечен.

Однако этот процесс представляет собой проверку методом белого ящика, что означает, что им нужен физический доступ к модели, как правило, может потребоваться пройти через правоохранительные органы.

Подходы к черному ящику

Прочитав несколько исследовательских работ [2,3,4], я понял, что метод черного ящика одинаков для всех статей. Пример, о котором я расскажу, взят из [2].

Встраивание в черный ящик

На этапе обучения учебные задачи разделены на две части:

исходная задача классификации
запускать поставленную задачу

Что такое триггерная задача? На самом деле это список данных с ошибочными обозначениями по назначению.

Неправильно помеченные данные - это своего рода водяной знак, цель которого - позволить модели «запомнить» точный ввод и метки, и такое запоминание сформировало эффект встраивания водяного знака. Хотя это может повлиять на изучение функций модели, но в [3] есть несколько альтернативных решений.

Неправильно помеченные данные объединяются с исходным набором данных, а затем проходят исходную цель обучения (например, перекрестную энтропию).

Обнаружение черного ящика

Этот способ встраивания водяных знаков на самом деле лучше, чем метод встраивания белого ящика с точки зрения проверки. Это связано с тем, что вы можете просто отправить список данных набора триггеров в виде запроса в онлайн-службу машинного обучения (например, вор украл вашу модель и создал службу, аналогичную вашей)

После запроса к онлайн-сервису машинного обучения через вызовы API у вас будут ожидаемые метки. Если ожидаемые метки совпадают с исходными неправильными метками, вы можете подтвердить, что эта онлайн-служба машинного обучения использует вашу модель , потому что невозможно получить точное совпадение (или с высокой точностью) данных вашего набора триггеров. Если модель не украдена у вас, то модель должна уметь классифицировать изображение кошки как кошку, но не как собаку.

Заключение

Нам необходимо защитить нашу модель DNN в случае, если другие люди украли наш кредит, не заплатив нам! Мы можем провести проверку с помощью черного ящика, чтобы иметь первоначального подозреваемого в воре, а затем мы можем выполнить проверку с помощью белого ящика через правоохранительные органы после того, как мы сообщим в полицию. (Хотя мне кажется, что это просто войны между большими компаниями 😅)

Надеюсь, теперь у вас есть больше понимания о встраивании водяных знаков в DNN. Спасибо за чтение!

использованная литература

[1] Встраивание водяных знаков в глубокие нейронные сети. Https://arxiv.org/abs/1701.04082

[2] Превратите свою слабость в силу: нанесение водяных знаков на глубокие нейронные сети с помощью бэкдора. Https://arxiv.org/abs/1802.04633

[3] Защита интеллектуальной собственности глубоких нейронных сетей с помощью водяных знаков. Https://dl.acm.org/citation.cfm?id=3196550

[4] DeepSigns: Общая структура водяных знаков для защиты прав собственности на модели глубокого обучения. Https://arxiv.org/abs/1804.00750