Мы должны исходить из того, что злоумышленник может полностью манипулировать действиями нашего LLM и получить ценную информацию.

🛡️ На цифровом поле битвы больших языковых моделей (LLM) появился новый противник, известный как «Быстрая инъекция». Скрытый в стиле обычного ввода, он заставляет LLM выполнять непреднамеренные действия, создавая угрозу для наших приложений LLM.

В этой статье я снимаю с него камуфляж, изучаю его различные формы и анализирую потенциальный ущерб, который он может нанести. Вооружившись набором инструментов, я также представлю контрмеры, чтобы укрепить ваши укрепления LLM против этих коварных атак. Итак, приготовьтесь, и давайте вместе преодолевать это поле битвы ⚔️ безопасности LLM.

Что такое быстрые инъекции?

Быстрая инъекция — это атака на безопасность, нацеленная на большие языковые модели (LLM). Он включает в себя внедрение вредоносных инструкций в приглашение, которое управляет LLM. Это может привести к непреднамеренным действиям LLM, таким как утечка конфиденциальной информации, выполнение несанкционированных действий или манипулирование выходными данными.

Быстрые инъекции возможны из-за характера модели, которая сосредоточена вокруг ввода произвольного текста.

Типы оперативных инъекций

Как прямое, так и косвенное оперативное внедрение представляют собой серьезные угрозы безопасности, которые необходимо устранять, поскольку LLM все чаще внедряются в производство.

Основное различие между прямым введением приглашения и непрямым введением приглашения заключается в том, что для прямого внедрения приглашения требуется, чтобы вы имели прямой контроль над приглашением, отдаваемым LLM. Косвенное введение подсказки можно использовать для управления LLM, даже если вы не имеете прямого контроля над подсказкой.

Косвенные оперативные инъекции

Это можно сделать, внедрив вредоносные инструкции в данные, которые, вероятно, будут извлечены LLM.

Например, вы можете внедрить вредоносные инструкции на веб-сайт, который, скорее всего, посетит LLM. Затем LLM будет извлекать и выполнять вредоносные инструкции, что может привести к манипулированию LLM…