Джеймс Миккенс о ценности скептицизма

Примечания и вопросы по докладу Джеймса Миккенса на конференции USENIX Security ‘18.

Если вы не видели выступление Джеймса и у вас есть час, чтобы просмотреть его реальную речь, пожалуйста, сделайте себе одолжение и просто пойдите на его выступление. Это интересно, познавательно и заставляет задуматься. Абсолютно нельзя пропустить — самое интересное, что вы получите, думая о кибербезопасности, машинном обучении и вычислениях в целом. Дело в том, что забавный кадр из его выступления…

Оставь меня в покое, Волшебник

Пока Джеймс читает книгу возле кафе в Сан-Франциско, фокусник пытается заманить Джеймса посмотреть, как он выполняет фокус, но получает ответ: «Оставь меня в покое, Волшебник». смирился с тем, что магия — не более чем визуальный обман.

И, таким образом, Джеймс намеревается побудить нас присоединиться к нему в рациональном скептицизме; подвергать сомнению, никогда не принимать за чистую монету — ну, пожалуй, что угодно, но особенно то, что кажется слишком хорошим, чтобы быть правдой.

Джеймс сразу бросается сомневаться в достоверности известности машинного обучения, сравнивая его с «обратным бойцовским клубом», где первое правило бойцовского клуба машинного обучения состоит в том, что нужно говорить о бойцовском клубе, а «второе правило: давайте не будем драться, потому что мы все согласен МЛ является удивительным." Ура! До тех пор, пока не осознаешь, что с малейшими изменениями пропаганду машинного обучения можно легко спутать со следующей оруэлловской границей.

«Растущее использование ИИ на самом деле проблематично с точки зрения безопасности»

Подключение машинного обучения к Интернету — очевидная опасность: «Интернет — это просто котел зла», а ученые, занимающиеся машинным обучением, признают, что «не знают, как работает машинное обучение». (ed: Джеймс никогда не стесняется в выражениях, и именно поэтому его доклады такие занимательные и информативные, но я отвлекся… Здесь он, в частности, имеет в виду природу глубокого обучения, основанную на черном ящике. )

Специфика машинного обучения: рассмотрим градиентный спуск

На самом деле, давайте сначала рассмотрим превосходное представление Джеймсом MNIST — хотя бы потому, что я не могу удержаться от того, чтобы поделиться важными кадрами из его выступления.

Текстовые классификаторы часто используют MNIST в качестве своего обучающего набора данных, как представлено Джеймсом на этом слайде, который включает изображения создателей MNIST вместе с репрезентативной проблемой классификации: является ли символ цифрой 5 или Покинутым знаком Амона-Гюля?

Джеймс задает этот вопрос в шутку, но он точно отражает проблему предвзятости в обучающих данных: ваша модель машинного обучения даст вам ответ, который вы уже сказали машине, которую хотите услышать. Машина не будет говорить правду силе (данные для обучения). По крайней мере, не в ее нынешних формах. (Есть многое, что нужно раскрыть в отношении того, как предвзятость встроена прямо в машинное обучение — это совсем другая тема.)

Вернемся к градиентному спуску. Важным процессом является определение значений параметров, которые минимизируют ошибки модели при прогнозировании. Полученные таким образом параметры, а также степень точности прогнозов модели сильно зависят от нюансов алгоритма градиентного спуска.

Важно отметить, что не существует фундаментального закона для оптимизации алгоритма градиентного спуска — параметры настраиваются методом проб и ошибок. По словам Джеймса, машинное обучение — это компьютерный эквивалент эксперимента с каплей яйца: «сделай что-нибудь» и, если получится, продолжай.

Связать гигантскую загадку с… критически важными системами?

В конечном счете, даже если мы признаем, что непостижимость ИИ — это нормально (на данный момент), мы все равно совершаем две очень серьезные ошибки: применяя его к «важным вещам в реальной жизни» и связывая его с «интернетом ненависти». ”

Как говорит Джеймс, мы связываем гигантскую загадку с критически важными системами.

Зачем кому-то это делать?

«Расползание миссии ИИ чрезвычайно проблематично. Мы не понимаем, как эти алгоритмы обучаются, как в обучающие данные могла проникнуть предвзятость или как алгоритмы машинного обучения могут вести себя при целенаправленных атаках». Показательный пример: Дарт Тэй.

Этот отрывок из Джеймса слишком хорош, чтобы не процитировать его прямо: «Тай появится, славный и мудрый, чтобы ввести нас в золотой век понимания разговора, и мы будем смотреть на наше творение, и мы будем гордиться тем, что у нашего славного ИИ-ребенка был научился достоинству и порядочности из краудсорсинговых твитов — стоп?! что это было?" Увы, создатели Tay забыли, что такое Интернет на самом деле, поэтому Джеймс предлагает удобное напоминание.

Определение компьютерной безопасности

Двигаемся дальше… Джеймс отмечает, что определение компьютерной безопасности нуждается в пересмотре и серьезном рассмотрении, чтобы развиваться вместе с распределенными компьютерными системами, подключенными к Интернету.

Нельзя избежать того факта, что, как выразился Джеймс, «технологическая индустрия оторвалась от разветвлений систем, которые она построила». Показательные примеры: Тэй, оценка рисков в системе уголовного правосудия, распознавание пола в лицах и другие. Реальность такова, что предвзятость заложена как в данных, так и в алгоритмах.

Технологии — единственный верный путь… к чему?

Нам больше не нужны приложения-фонарики, а также пришло время подвергнуть сомнению предначертанную судьбу технологов…

«Любой, кто играл в Oregon Trail, знает, что явная судьба ведет к дизентерии». (И нет, цитата на изображении принадлежит не Роберту Фросту, но, по оценке Джеймса, технологи в большей степени рискуют не знать этого, чем специалисты по гуманитарным наукам, и… он считает это недостатком технического сообщество распространяет на свой страх и риск — и на риск тех, чью жизнь коснулась технология, другими словами, всех.)

Итак, каковы основные принципы технологического манифеста судьбы?

Рассмотрим эти принципы в контексте принятия решений в области уголовного правосудия. «Люди предвзяты, а данные — нет — по крайней мере, нам так сказали». Конечно, все социальные данные генерируются людьми, так что на самом деле это ложь. Расширяя понимание того, что эти основные принципы технологического манифеста судьбы явно вызывают сомнения, Джеймс переходит от контекста искусственного интеллекта к соображениям безопасности для IoT.

Удивительно, но даже сегодня некоторые медицинские устройства отправляют данные в формате открытого текста — IoT продвинулся вперед, не заботясь должным образом о безопасности. Устройства отправляют незашифрованные личные данные, когда, по крайней мере, они должны использовать TLS.

(Да, мы все должны знать, что такое TLS: Transport Layer Security (TLS) и его устаревший предшественник, Secure. strong> Sockets Layer (SSL) — это криптографические протоколы, предназначенные для обеспечения безопасности обмена данными по компьютерной сети.)

Специалисты по IoT утверждают, что рассмотрение соображений безопасности не будет работать с бизнес-моделью, а Джеймс утверждает, что цена не может быть единственным соображением, иначе вы окажетесь в… картошке.

Завершая свое живое выступление, Джеймс резюмирует свое мнение о скептическом подходе к компьютерной безопасности: