"Какие? И что? Что теперь?" Эпизод 1:

Состязательное машинное обучение

Краткое введение для нетехнической аудитории

Вступление

В последние годы наблюдается стремительный рост использования машинного обучения, с помощью которого компьютеры могут быть запрограммированы так, чтобы определять закономерности в информации и делать более точные прогнозы с течением времени. Машинное обучение является ключевой технологией, лежащей в основе искусственного интеллекта (ИИ), и используется для таких ценных приложений, как фильтры спама в электронной почте и обнаружение вредоносных программ, а также для более сложных технологий, таких как распознавание речи, распознавание лиц, робототехника и беспилотные автомобили.

Хотя модели машинного обучения имеют много потенциальных преимуществ, они могут быть уязвимы для манипуляций. Исследователи кибербезопасности называют этот риск «состязательным машинным обучением», поскольку системы ИИ могут быть обмануты (злоумышленниками или «противниками»), заставив их сделать неверные оценки. Состязательная атака может повлечь за собой представление модели машинного обучения с неточными или неверными данными во время обучения или введение злонамеренно созданных данных, чтобы обмануть уже обученную модель и заставить ее совершать ошибки.

«Машинное обучение обладает огромной силой и обещает сделать нашу жизнь лучше во многих отношениях, но оно представляет новый риск, которого раньше не было, и мы не можем с этим справиться», - говорит Дэвид Вагнер, профессор Компьютерные науки в Калифорнийском университете в Беркли.

Некоторые модели машинного обучения, уже используемые в практических приложениях, могут быть уязвимы для атак. Например, разместив несколько небольших наклеек на земле на перекрестке, исследователи показали, что они могут заставить беспилотный автомобиль принять ненормальное решение и выехать на встречную полосу движения.

Другие исследования показали, что внесение незаметных изменений в изображение может обмануть систему медицинской визуализации и со 100% уверенностью классифицировать доброкачественную родинку как злокачественную, и что размещение нескольких кусочков ленты может обмануть систему компьютерного зрения и заставить ее ошибочно классифицировать родинку. знак стоп »как знак ограничения скорости.

В самом деле, хотя большая часть дискуссий об искусственном интеллекте сосредоточена на рисках предвзятости (поскольку наборы реальных данных, используемые для обучения алгоритмов, могут отражать существующие человеческие предрассудки), состязательное машинное обучение представляет собой проблему другого рода. Поскольку машинное обучение широко применяется в бизнесе, на транспорте, в армии и в других областях, злоумышленники могут использовать состязательные атаки для чего угодно, от мошенничества со страховкой до нанесения ударов дронов по непреднамеренным целям.

Ниже приведен краткий обзор состязательного машинного обучения для политиков, руководителей бизнеса и других заинтересованных сторон, которые могут участвовать в разработке систем машинного обучения, но могут не осознавать возможность манипулирования или повреждения этих систем. Список дополнительных ресурсов можно найти в конце этой статьи.

«Что?»: машинное обучение 101

Модели машинного обучения - это компьютерные программы, которые в большинстве случаев предназначены для обучения распознаванию закономерностей в данных. С помощью людей, предоставляющих «обучающие данные», можно научить алгоритмы, известные как «классификаторы», реагировать на различные входные данные. Благодаря многократному обращению к обучающим данным эти модели предназначены для получения более точных оценок с течением времени.

Например, подвергнув модель машинного обучения нескольким изображениям синих объектов и предварительно пометив их как «синие», классификатор может начать разбивать уникальные характеристики, которые делают объекты синими. Со временем модель «учится» определять, является ли любое другое последующее изображение синим, со степенью достоверности от 0% до 100%. Чем больше данных вводится в систему машинного обучения, тем лучше она обучается и тем точнее становятся ее прогнозы, по крайней мере, теоретически. Но этот процесс обучения может быть непредсказуемым, особенно в «глубоких» нейронных сетях.

Что такое глубокие нейронные сети?

Нейронная сеть - это особый тип модели машинного обучения, вдохновленный биологией человеческого мозга. «Глубокие» нейронные сети состоят из множества последовательных уровней принятия решений. Глубокие нейронные сети получили распространение в последние годы, и их использование привело к значительному повышению эффективности машинного обучения.

Тем не менее, вычисления, производимые компьютерами в глубоких нейронных сетях, очень сложны и быстро развиваются по мере развития процесса «глубокого обучения». В нейронных сетях с большим количеством слоев вычисления, которые приводят к определенному решению, в некоторых случаях не могут быть интерпретированы людьми: процесс нельзя наблюдать в реальном времени, а логику принятия решений нельзя анализировать постфактум.

Система машинного обучения может использовать для классификации другие параметры, которые не могут быть интуитивно понятны человеку, поэтому она выглядит как «черный ящик». Кроме того, небольшие манипуляции с данными могут существенно повлиять на решение, принимаемое нейронной сетью. Это делает эти системы уязвимыми для манипуляций, в том числе посредством преднамеренных «враждебных атак».

Небольшие манипуляции с данными могут существенно повлиять на решение, принимаемое нейронной сетью. Это делает эти системы уязвимыми для манипуляций, в том числе посредством преднамеренных «враждебных атак».

Что такое состязательные атаки?

Термин «злоумышленник» используется в области компьютерной безопасности для описания людей или машин, которые могут попытаться проникнуть или повредить компьютерную сеть или программу. Злоумышленники могут использовать различные методы атаки, чтобы нарушить модель машинного обучения, либо во время фазы обучения (называемой атакой «отравление»), либо после того, как классификатор уже обучен (атака «уклонения»).

Отравление

Атаки на системы машинного обучения на этапе обучения часто называют «отравлением» или «заражением». В этих случаях злоумышленник представляет классификатору неправильно помеченные данные, в результате чего система в будущем будет принимать искаженные или неточные решения. Отравляющие атаки требуют, чтобы злоумышленник обладал определенной степенью контроля над обучающими данными.

Некоторые из отравленных данных могут быть очень незаметными, и человеку сложно определить, когда данные были отравлены, - говорит Дон Сонг, профессор компьютерных наук Калифорнийского университета в Беркли. Мы провели исследование, демонстрирующее« атаку через черный ход », в которой модель точна для большинства обычных входных данных, но ее можно научить вести себя неправильно на определенных типах входных данных. Очень сложно определить, когда модель усвоила такое поведение и какие входные данные заставят модель вести себя неправильно. Из-за этого его очень сложно обнаружить ».

Атака отравления может использовать подход мальчик, который плакал, волк, то есть злоумышленник может вводить данные во время фазы обучения, которые ошибочно помечаются как безвредные, хотя на самом деле они являются вредоносными. Идея состоит в том, что злоумышленник будет постепенно устанавливать экземпляры, которые вызовут некоторую неправильную классификацию входных данных и вызовут ошибочный результат, - объяснил Дуг Тайгар, профессор компьютерных наук и управления информацией в Калифорнийском университете в Беркли, в презентации 2018 года. . Противники могут быть терпеливыми в организации своих атак и могут адаптировать свое поведение.

Пример: отравление чат-бота

В 2016 году Microsoft запустила Tay, чат-бота для Twitter, запрограммированного, чтобы научиться участвовать в беседе посредством многократного взаимодействия с другими пользователями. В то время как намерение Microsoft состояло в том, чтобы Тэй участвовал в непринужденной и игривой беседе, интернет-тролли заметили, что в системе недостаточно фильтров, и начали скармливать нецензурные и оскорбительные твиты в алгоритм машинного обучения Тэя. Чем больше вовлекались эти пользователи, тем более оскорбительными становились твиты Тэя. Microsoft отключила ИИ-бота всего через 16 часов после его запуска.

Атаки уклонения

Атаки уклонения обычно происходят после того, как система машинного обучения уже обучена; они возникают, когда модель вычисляет вероятность появления новых данных. Эти атаки часто разрабатываются методом проб и ошибок, поскольку исследователи (или противники) не всегда заранее знают, какие манипуляции с данными «сломают» модель машинного обучения.

Например, если злоумышленники хотят исследовать границы модели машинного обучения, предназначенной для фильтрации спама, они могут поэкспериментировать с отправкой разных писем, чтобы посмотреть, что проходит. Если модель обучена проверять определенные слова (например, «Виагра»), но делать исключения для электронных писем, содержащих определенное количество других слов, злоумышленник может создать электронное письмо, содержащее достаточно посторонних слов, чтобы «опрокинуть» алгоритм ( т.е. переместить его из категории «спам» в категорию «не спам»), минуя фильтр.

Некоторые атаки могут быть разработаны таким образом, чтобы повлиять на целостность модели машинного обучения, что приведет к выдаче неверного результата или к определенному результату, задуманному злоумышленником. Другие состязательные атаки могут быть нацелены на конфиденциальность системы и привести к раскрытию модели на основе ИИ частной или конфиденциальной информации. Например, профессор Дон Сонг и ее коллеги продемонстрировали, что они могут извлекать номера социального страхования из модели языковой обработки, которая была обучена с большим объемом электронных писем, некоторые из которых содержали конфиденциальную личную информацию.

«Если мы внедрим машинное обучение в нашу жизнь и инфраструктуру, не имея в виду этого, мы можем создать большую уязвимость, с которой придется столкнуться будущему поколению».

«Ну и что?»: риски состязательного машинного обучения

За пределами исследовательских лабораторий злоумышленники пока что нечасто. Но исследователи кибербезопасности обеспокоены тем, что враждебные атаки могут стать серьезной проблемой в будущем, поскольку машинное обучение интегрировано в более широкий спектр систем, включая беспилотные автомобили и другие технологии, в которых человеческие жизни могут оказаться под угрозой.

«Это не то, чем сегодня пользуются плохие парни, но это достаточно важно, чтобы мы хотели опередить эту проблему», - говорит Дэвид Вагнер. «Если мы внедрим машинное обучение в нашу жизнь и инфраструктуру, не имея в виду этого, мы можем создать большую уязвимость, с которой придется столкнуться будущему поколению».

«Что теперь?» Снижение состязательных атак

Что можно сделать, чтобы ограничить или предотвратить состязательное машинное обучение? Исследователи кибербезопасности были заняты решением этой проблемы, и были опубликованы сотни статей с тех пор, как несколько лет назад внимание исследовательского сообщества привлекло внимание исследовательского сообщества к области состязательного машинного обучения.

Отчасти проблема заключается в том, что многие системы машинного обучения представляют собой «черные ящики», логика которых в значительной степени непостижима не только для разработчиков моделей, но и для потенциальных хакеров. Проблема усугубляется тем, что злоумышленникам нужно найти только одну трещину в защите системы, чтобы атака противника могла пройти.

«Многие люди придумали решения, которые поначалу казались многообещающими, но пока, похоже, ничего не работает», - говорит Вагнер. «Есть одна или две вещи, которые очень помогают, но они не являются полным решением».

Один из возможных подходов к повышению устойчивости машинного обучения - это заранее создать ряд атак на систему и научить систему узнавать, как может выглядеть состязательная атака, аналогично созданию ее «иммунной системы». Хотя этот подход, известный как обучение противников, имеет некоторые преимущества, в целом он недостаточен для остановки всех атак, поскольку диапазон возможных атак слишком велик и не может быть сгенерирован заранее.

Другая возможная защита заключается в постоянном изменении алгоритмов, которые модель машинного обучения использует для классификации данных, т. Е. Создании движущейся цели путем сохранения алгоритмов в секрете и периодического изменения модели. В качестве другой тактики исследователи из Гарварда, изучавшие риски враждебных атак на программное обеспечение для обработки медицинских изображений, предложили создание хэша отпечатков пальцев, данные могут быть извлечены и сохранены в момент захвата, а затем сравнены с данными, передаваемыми через алгоритм.

Что наиболее важно, разработчики систем машинного обучения должны осознавать потенциальные риски, связанные с этими системами, и создавать системы для перекрестной проверки и проверки информации. Им также следует регулярно пытаться ломать свои собственные модели и выявлять как можно больше потенциальных слабых мест. Они также могут сосредоточиться на разработке методов для понимания того, как нейронные сети принимают решения (и передачи результатов пользователям).

«Помните о недостатках и не верьте слепо результатам, особенно если вы сами себе не доверяете», - говорит Садия Афроз, старший научный сотрудник Международного института компьютерных наук. «Когда вы принимаете решение, покажите, по крайней мере, некоторое понимание того, почему было принято это конкретное решение, чтобы, возможно, человек мог взглянуть на этот процесс принятия решения и выяснить, имеет ли это смысл или нет? Если вы не понимаете, как эти модели принимают решения и как они обрабатывают данные и принимают решения, это открывает перед вами злоумышленники. Кто угодно может манипулировать процессом принятия решений и создавать проблемы ».

Дополнительные ресурсы

Некоторые дополнительные ресурсы для изучения искусственного интеллекта и состязательного машинного обучения.

Состязательные атаки на медицинские системы искусственного интеллекта: обзор статьи за март 2019 года, опубликованной в журнале Science исследователями из Гарварда и Массачусетского технологического института, включая обзор того, как медицинские системы искусственного интеллекта могут быть уязвимы для состязательные атаки.

Состязательное машинное обучение: недавно опубликованный учебник Энтони Д. Джозефа, Блейна Нельсона, Бенджамина И.П. Рубинштейн и Дж.Д. Тайгар.

AI Now Institute: междисциплинарный исследовательский центр при Нью-Йоркском университете, посвященный пониманию социальных последствий искусственного интеллекта.

Атака на искусственный интеллект: уязвимость ИИ в области безопасности и что политики могут с этим сделать: соответствующий отчет Маркуса Комитера из Белферского центра науки и международных отношений Гарвардской школы Кеннеди.

CleverHans: скомпилированный TensorFlow, CleverHans представляет собой состязательную библиотеку примеров для построения атак, построения защиты и тестирования и того, и другого.

Режимы сбоев в машинном обучении: Microsoft собрала этот документ, чтобы вместе свести в таблицу примеры сбоев машинного обучения, как преднамеренных, так и непреднамеренных.

Google AI: множество ресурсов для изучения искусственного интеллекта и машинного обучения.

Злонамеренное использование искусственного интеллекта: отчет, написанный 26 авторами из 14 организаций, включая академические круги, гражданское общество и промышленность.

Презентация по состязательному машинному обучению: презентация Яна Гудфеллоу, штатного научного сотрудника Google Brain, в 2018 году о состязательных методах в ИИ.

Skymind AI Wiki: Руководство для начинающих по важным темам в области искусственного интеллекта, машинного обучения и глубокого обучения.

Конкурс примеров неограниченного состязания: спонсируемый Google Brain, это был вызов сообщества по стимулированию и измерению прогресса в достижении цели нулевых достоверных ошибок классификации в моделях машинного обучения.

Дикие шаблоны: десять лет после появления машинного обучения: обзор эволюции состязательного машинного обучения, сделанный Баттистой Бигджоа и Фабио Ролиа из Университета Кальяри, Италия.