Отворените LLM модели под лупа. Как се откриват скрити backdoor-и в AI модели
Изследователи представиха практичен подход за откриване на скрити backdoor-и в отворени езикови модели с отворени тегла (open-weight LLMs), като адресират нарастващ проблем с доверието във веригата на доставки на AI.
Методът се фокусира върху т.нар. model poisoning. Клас атаки, при които злонамерено поведение се вгражда директно в теглата на модела по време на обучението. Такива backdoor-и остават неактивни при нормална употреба и се задействат само при наличие на специфични входни тригери, превръщайки модела в „спящ агент“.
За разлика от класическите уязвимости, компрометираните модели често изглеждат напълно функционални и безопасни. Злонамереното поведение е условно, фино и съзнателно проектирано да избегне стандартни тестове и оценки.
Инструментът е разработен и представен от екипа по AI Security на Microsoft като част от вътрешно изследване, публикувано с цел откриване на backdoor-и в open-weight LLM модели.
Защо backdoored моделите са трудни за откриване
Model poisoning атаките се различават съществено от prompt injection или експлоатации по време на изпълнение:
Не се инжектира злонамерен код при inference
Не се наблюдава подозрителна мрежова активност
Моделът се държи нормално при повечето заявки
Рискът възниква само при внимателно подбран тригер. В реални среди това може да доведе до тихо заобикаляне на политики, изтичане на данни или манипулиране на изхода на модела.
Какво търси методът за откриване
Подходът за детекция използва три характерни сигнала, типични за компрометирани модели:
- Необичайна вътрешна фокусировка върху тригерите
При наличие на тригер, attention механизмите на модела показват ясно изразен модел на изолиране на тригера от останалия контекст. - Изтичане на данни от poisoning чрез запаметяване
Вместо да обобщават, компрометираните модели запаметяват части от злонамерените данни, които по-късно могат да бъдат извлечени. - Активиране чрез „fuzzy“ тригери
Backdoor-ите често са устойчиви. Частични или приблизителни варианти на оригиналния тригер също могат да активират скритото поведение.
Тези сигнали могат да бъдат анализирани без допълнително обучение на модела и без предварително знание за конкретния backdoor.
Концептуален поглед на DIAMATIX. Как работи детекцията
Достъп до модела
Извличане на запаметено съдържание
Анализ на модели и мотиви
Реконструкция на потенциални тригери
Оценка и класификация на риска
Този процес позволява мащабно сканиране на open-weight модели преди внедряване.
Ограничения, които трябва да се имат предвид
Изисква достъп до теглата на модела. Затворени или хоствани модели не могат да бъдат анализирани
Най-ефективен е при тригер-базирани backdoor-и с детерминистичен изход
Не представлява универсално решение за всички типове злонамерено поведение
Гледната точка на DIAMATIX
С разширяването на използването на open-weight AI модели, сигурността трябва да обхваща не само инфраструктурата и API-тата, но и самия модел.
Откриването на backdoor-и следва да бъде част от:
управление на риска във веригата за доставки на AI
процесите по валидиране и внедряване на модели
жизнения цикъл на сигурна AI разработка
Доверието в AI не може да се основава само на произход или лиценз. То трябва да бъде потвърдено чрез техническа проверка и анализ на поведението.
Свързан ресурс от DIAMATIX
Този случай се вписва в по-широкия контекст на рисковете, свързани с внедряването и използването на AI модели в реални среди. В нашата практична серия AI Security 101 разглеждаме основните заплахи при работа с езикови модели. От supply chain рискове и model poisoning до добри практики за оценка, внедряване и контрол на AI системи в организации.
LLM SECURITY 101 — ЧАСТ 1: Основи и ключови ранни рискове
LLM SECURITY 101 — ЧАСТ 2: Напреднали рискове и практически насоки при ежедневното използване на AI
LLM SECURITY 101 — ЧАСТ 3: От осъзнатост към отговорно използване на AI
Използвани източници
- Microsoft. Изследване за откриване на задни вратички в модели с голям език с отворено тегло
- Индустриално изследване на отравяне на модели, спящи агенти и сигурност на веригата за доставки с изкуствен интелект
- Публични проучвания за откриване на аномалии, базирани на внимание, в трансформаторни модели
Trusted · Innovative · Vigilant
Абонирайте се за най-новите актуализации и анализи
Получавайте актуални новини и експертни анализи за киберсигурност






