Безопасность — это все, что вам нужно

Эта статья изначально была размещена здесь. Платформа для разработчиков Lakera позволяет командам машинного обучения создавать отказоустойчивые модели компьютерного зрения.

TL; DR

Быстрое развитие базовых моделей приводит к кардинальным изменениям в способах разработки технологий машинного обучения (МО). Они обещают разблокировать великие технологические преобразования грядущих десятилетий, но они также представляют собой единые точки отказа, обученные на наборах данных планетарного масштаба, недоступных для людей, строящих на их основе. Мышление, ориентированное на безопасность, должно пронизывать разработку машинного обучения, если эти системы должны быть развернуты в масштабе. Понятие согласования нуждается в инженерном аналоге: как никогда важно инвестировать в инженерные процессы, необходимые для создания систем машинного обучения в соответствии с нашими ожиданиями.

Недавно я размышлял о прогрессе глубокого обучения за последнее десятилетие и был ошеломлен скоростью и широтой изменений. За последние годы я помню много дискуссий о будущем искусственного интеллекта (ИИ), в которых я часто был скептиком. Я не мог предвидеть, насколько значительными будут успехи и как быстро они придут. Это действительно то, что вы чувствуете, находясь в центре быстро развивающегося, экспоненциально растущего движения. Я понял, как трудно понять экспоненциальный рост.

Когда я начал писать диссертацию в 2014 году, я все еще вычислял градиенты вручную и помню утомительные часы их отладки с конечными различиями. Я также построил большие рекуррентные сети для языка, которые в то время было трудно масштабировать, не зная, как реализовать ядра CUDA.

Пару лет спустя случаются AlphaGo и AlphaZero (тут опять же, как сам игрок в го, я был настроен скептически и уверенно ставил 5–0 против AlphaGo). Мы используем встраивания word2vec и аналогичные методы для достижения того, что было бы немыслимо несколько лет назад. К тому времени, когда я защитил докторскую диссертацию, книга Внимание — это все, что вам нужно [1] уже вышла, положив начало эре трансформеров. С тех пор мы наблюдаем появление DETR от Meta, GPT3 от OpenAI, CLIP, BERT от Google и, в более широком смысле, переход в мир основных моделей [2]. Машина находится в движении, а вместе с ней и огромные возможности, и беспрецедентные вызовы.

В то же время методологии, необходимые для безопасного развертывания этих моделей в соответствии с ожиданиями, не улучшались такими же темпами. Понятие соответствия, которое до сих пор имело в основном философский интерес и относилось к согласованию ИИ с целями и ценностями, пока не имеет своего инженерного аналога:как мы строим системы ИИ в соответствии с нашими ожиданиями? Часто обсуждаются конкретные случаи выравнивания, например, при рассмотрении систематической ошибки систем машинного обучения. Но это соответствует узкому понятию выравнивания. Построение согласованной системы машинного обучения, которая «просто работает», работая точно так, как ожидают разработчики, сегодня очень сложно, методология и инструменты в настоящее время не существуют.

Мы достигаем переломного момента. По мере того, как количество приложений, построенных поверх базовых моделей, стремительно растет, наше непонимание того, как создавать эти системы, наконец, настигнет нас. Эти модели чрезвычайно велики, обучены на данных, которые разработчики, использующие их, никогда не увидят, и они изучают эмерджентное поведение, которое в основном неизвестно. Эти модели представляют собой единые точки отказа, которые подвергают риску все последующие приложения. Отсутствие прогресса в области безопасного ИИ и надежности ИИ может помешать нам раскрыть экономические возможности, предлагаемые достижениями в области технологий, и представляет собой новый набор рисков.

В то время как сторонники гипотезы масштаба (грубо говоря, это означает, что мы можем достичь человеческого уровня интеллекта, продолжая масштабировать модели и наборы данных без изменения парадигмы в методологии) считают, что многие из этих проблем разрешатся сами собой с помощью «большего количества», я ожидайте, что внимание — это не совсем «все, что вам нужно», и мышление о безопасности должно проникнуть в академические круги и, особенно, в промышленность.

Мы вступаем в новую эру.

Полезно сделать шаг назад и посмотреть на общую тенденцию снижения сложности и прозрачности программного обеспечения за последние несколько десятилетий с появлением глубокого обучения. Тенденция такова: по мере увеличения сложности и функциональности прозрачность быстро снижается. Модели Foundation доводят это до крайности. Здесь я имею в виду «неучтенную сложность», поскольку, конечно, некоторые части традиционного программного обеспечения невероятно сложны: сложности системы, которые явно не закодированы человеком. В моделях машинного обучения это поведение изучается на основе данных, а не явно закодировано человеком в виде кода.

Базовые модели обучаются на наборах данных планетарного масштаба, недоступных для тех, кто создает на их основе приложения. Ранее невообразимый уровень функциональности становится доступным по минимальной цене, за счет того, что разработчикам становится чрезвычайно сложно узнать, будет ли то, что они создают, на самом деле работать после его развертывания или вести себя непредвиденным образом.

Давайте упрощенно посмотрим на эволюцию прозрачности и сложности во времени.

Pre-ML (1960–2011). В традиционном программном обеспечении то, что вы видите, это то, что вы получаете. Конечная система обычно представляет собой совокупность большого количества мелких шагов, каждый из которых реализует определенное поведение с четким контрактом. Сложность возникает медленно из большого количества хорошо понятных компонентов, взаимодействующих друг с другом. Прозрачность высока, поскольку мы можем проверить эти компоненты в любое время, а также решения, принятые при их разработке.
Первые шаги глубокого обучения (2012–2016 годы). Основная задача – определить лучшую нейронную сеть на фиксированном наборе данных. Это привело к значительному прогрессу во многих академических тестах и появлению первых многоразовых экстракторов функций, которые можно было использовать для последующих задач. Сложность этих систем намного выше, поскольку поведение изучается на основе данных и проявляется сразу после завершения обучения. В результате прозрачность значительно снижается, но все данные, используемые для обучения, доступны внутри компании.
Производство (2016 — настоящее время). Модели необходимо запустить в производство, и основное внимание уделяется получению правильных данных. Архитектуры моделей часто фиксированы и больше не являются основной областью внимания. Предварительно обученные модели часто выбираются и настраиваются. Большая часть работы уходит на сбор и аннотирование данных. Это постоянная игра в догонялки. Большинство компаний в настоящее время находятся на этом этапе, и многие из соответствующих проблем останутся в будущем. Сложность остается высокой, а прозрачность снижается, особенно потому, что предварительно обученные модели добавляют уровень «косвенности», а часть данных, используемых для обучения системы, обычно недоступна внутри компании.
Коммодитизация и фундаментальная эпоха (начиная с 2022 г.). Появление базовых моделей снижает предельные затраты на разработку мощных систем на основе ИИ. Немногие компании могут позволить себе обучение таких моделей. Отдельные лица и компании, которые никогда бы не смогли обучить такие мощные модели (обучение некоторых из этих моделей стоит более 10 миллионов долларов), теперь могут открыть целый новый мир приложений. Главный недостаток заключается в том, что этим моделям не хватает прозрачности. Тому, кто строит их поверх них, очень сложно понять, в чем заключаются ограничения и риски. Более того, сбой или уязвимость в базовой модели, вероятно, будет унаследован всеми нижестоящими моделями, создавая серьезные уязвимости в системе безопасности. На данный момент разработчик понятия не имеет, какие данные вошли в модель. Феномен возникновения [3] также означает, что по мере масштабирования модели она способна выполнять задачи, не входившие в цели обучения, что еще больше снижает прозрачность и увеличивает риск нежелательного поведения. Большая часть данных, используемых для обучения модели, недоступна внутри компании.

Развитие машинного обучения меняется.

В эту новую эпоху развитие машинного обучения (МО) будет выглядеть совершенно по-другому и потребует другого набора навыков и повседневных забот. Самая насущная задача будет заключаться в том, чтобы понять, каковы возможности этих моделей и где они могут неожиданно дать сбой, гораздо больше, чем то, как они работают с каким-то затянутым набором данных (вероятно, очень хорошо). Разработчикам нужно будет исследовать такое поведение без доступа к каким-либо данным, используемым для обучения модели, чтобы развернуть согласованные системы искусственного интеллекта.

Поскольку эти большие модели становятся единой точкой отказа для океана приложений, разработчикам придется беспокоиться о том, как оценить и смягчить все проблемы, которые они унаследовали. Эти риски проявляются в двух пересекающихся областях:

Безопасность: Будет ли моя система вести себя так, как ожидается (выравнивание) и смогу ли я безопасно развернуть ее в рабочей среде? Это включает проблемы, связанные с предвзятостью в языковых моделях и соответствием заявлений, сделанных моделями, правдивы.
Безопасность: Может ли кто-нибудь использовать уязвимости в базовой модели, чтобы обмануть мою систему? Например, если вы адаптируете базовую модель для проверки личности на основе распознавания лиц, кто-то, кто учится как обмануть базовую модель, скорее всего, сможет обмануть и вашу модель.

Чтобы успешно вывести на рынок ориентированные на пользователя приложения, командам разработчиков необходимо смягчить все эти угрозы, коренным образом изменив методы работы и приняв мышление, ориентированное на безопасность и безопасность. За десятилетия инженерной деятельности мы узнали, что это не второстепенные мысли, а они должны быть в основе инженерных процессов с первого дня [4].

Устранение этих неизвестных проблем станет основной задачей разработчика машинного обучения. Еще есть время инвестировать в разработку инструментов и методологий, необходимых для обеспечения безопасности ИИ, но это необходимо сделать сейчас. Положительное влияние, которое может оказать ИИ, будет зависеть от того, насколько хорошо мы решим эту проблему. Безопасность больше не является чем-то приятным. Так что, может быть, все-таки безопасность, а не внимание, — это все, что нам сейчас нужно.

[1] «Внимание — это все, что вам нужно», Васвани и др., NIPS, 2017 г.

[2] «О возможностях и рисках моделей фундаментов», Боммасани и др., 2021 г.

[3] «Emergent Abilities of Large Language Models», Вей и др., 2022 г.

[4] «Как программное обеспечение стало таким надежным без доказательств», Хоар, FME, 1996 г.

Безопасность — это все, что вам нужно

Мы вступаем в новую эру.

Развитие машинного обучения меняется.

Вопросы по теме