OpenAI засили защитите на ChatGPT Atlas срещу prompt injection атаки
В края на декември 2025 г. OpenAI обяви важна актуализация по сигурността на ChatGPT Atlas – браузърно базиран AI агент, предназначен да изпълнява задачи от името на потребителя в уеб среда. Новите мерки са насочени към ограничаване на prompt injection атаки, които се считат за една от най-сериозните заплахи за агентни AI системи.
Актуализацията е внедрена глобално за всички потребители на Atlas и е част от по-широката стратегия на OpenAI за защита на т.нар. agentic AI – модели, които не само анализират информация, но и извършват действия.
Какво представляват prompt injection атаките
Prompt injection атаките използват злонамерено съдържание, вградено в уеб страници, имейли, документи или файлове, които AI агентът обработва. Целта е да се подменят инструкциите на потребителя, като агентът бъде подведен да изпълни действия, различни от първоначално поисканите.
При браузърни агенти като Atlas рискът е по-висок, тъй като те взаимодействат с голям и трудно ограничим набор от източници – имейли, прикачени файлове, форуми, уебсайтове и вътрешни портали. Успешна атака може да доведе до:
неоторизирано споделяне на чувствителни данни;
извършване на действия от името на потребителя;
промени или изтриване на информация.
Какво променя OpenAI
OpenAI съобщава, че е внедрила автоматизиран red-teaming механизъм, базиран на reinforcement learning, който симулира реални атакуващи сценарии. Тази система открива сложни prompt injection атаки, които се развиват в дълги последователности от действия, а не чрез единични команди.
При идентифициране на нов тип атака се задейства ускорен защитен цикъл:
моделите се дообучават да разпознават и игнорират злонамерени инструкции;
подобряват се механизмите за мониторинг и контрол;
защитата се вгражда директно в поведението на агента.
Последната актуализация за Atlas включва именно тези подобрения, като целта е агентът да различава по-надеждно легитимни инструкции от скрити или манипулативни команди.
Препоръки към потребителите
OpenAI препоръчва потребителите:
да ограничават достъпа на агента до чувствителни акаунти, когато това е възможно;
да преглеждат внимателно всяко потвърждение за действие;
да използват ясни и конкретни инструкции, вместо общи и отворени задачи.
DIAMATIX Perspective
Prompt injection атаките не са теоретичен проблем – те са реална заплаха за всяка организация, която експериментира с AI агенти и автоматизация. Случаят с ChatGPT Atlas показва ясно, че AI сигурността вече не е само въпрос на модел, а на цялостна архитектура.
За организациите това означава:
нужда от ясно дефинирани политики за използване на AI агенти;
наблюдение на действията, а не само на входа и изхода на моделите;
интеграция на AI системите в съществуващите SOC/MDR процеси.
Източници:
CybersecurityNews – OpenAI Hardened ChatGPT Atlas Against Prompt Injection Attacks
OpenAI – Security & Safety Updates (официални публикации)
The Register – Prompt Injection Risks in Agentic AI Systems
Trusted · Innovative · Vigilant
Абонирайте се за най-новите актуализации и анализи
Получавайте актуални новини и експертни анализи за киберсигурност




