Статья: Анализ влияния обфускации входных данных на эффективность языковых моделей в обнаружении инъекции подсказок (2025)

Читать онлайн

В статье рассматривается проблема обфускации промптов как способа обхода защитных механизмов в больших языковых моделях (LLM), предназначенных для обнаружения промпт-инъекций. Промпт-инъекции представляют собой метод атаки, при котором злоумышленники манипулируют входными данными, чтобы изменить поведение модели и заставить её выполнять нежелательные или вредоносные действия. Обфускация включает в себя различные методы изменения структуры и содержания текста, такие как замена слов синонимами, перемешивание букв в словах, вставка случайных символов и другие. Цель обфускации - затруднить анализ и классификацию текста, чтобы обойти фильтры и защитные механизмы, встроенные в языковые модели. В рамках исследования проводится анализ эффективности различных методов обфускации в обходе моделей, обученных на задачу классификации текста. Особое внимание уделяется оценке потенциальных последствий обфускации для безопасности и защиты данных. В исследовании используются различные методы обфускации текстов, которые применяются к промптам из датасета AdvBench. Эффективность методов оценивается на примере трёх моделей-классификаторов, обученных на задачу обнаружения промпт-инъекций. Научная новизна исследования заключается в анализе влияния обфускации промптов на эффективность языковых моделей в обнаружении промпт-инъекций. В ходе работы выявлено, что применение сложных методов обфускации увеличивает долю запросов, классифицируемых как инъекции, что подчёркивает необходимость тщательного подхода к тестированию безопасности больших языковых моделей. Выводы исследования указывают на важность баланса между сложностью метода обфускации и его эффективностью в контексте атак на модели. Чрезмерно сложные методы обфускации могут повысить вероятность обнаружения инъекций, что требует дальнейшего изучения для оптимизации подходов к обеспечению безопасности языковых моделей. Результаты работы подчёркивают необходимость постоянного совершенствования защитных механизмов и разработки новых методов обнаружения и предотвращения атак на большие языковые модели.

Ключевые фразы: большие языковые модели, инъекция подсказок, ОБФУСКАЦИЯ, джейлбрейк, ИИ, состязательные атаки, энкодер, ТРАНСФОРМЕРЫ, БЕЗОПАСНОСТЬ ИИ, фаззинг
Автор (ы): Крохин Алексей Сергеевич, Гусев Максим Михайлович
Журнал: ПРОГРАММНЫЕ СИСТЕМЫ И ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ

Предпросмотр статьи

Идентификаторы и классификаторы

УДК
004. Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем
Для цитирования:
КРОХИН А. С., ГУСЕВ М. М. АНАЛИЗ ВЛИЯНИЯ ОБФУСКАЦИИ ВХОДНЫХ ДАННЫХ НА ЭФФЕКТИВНОСТЬ ЯЗЫКОВЫХ МОДЕЛЕЙ В ОБНАРУЖЕНИИ ИНЪЕКЦИИ ПОДСКАЗОК // ПРОГРАММНЫЕ СИСТЕМЫ И ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ. 2025. № 2
Текстовый фрагмент статьи