Contacts
Book a Meet
Close

Контакти

Каварна, България
Рияд, Саудитска Арабия

+359 875 328030

sales@diamatix.com

OpenAI засили защитите на ChatGPT Atlas срещу prompt injection атаки

14487

OpenAI засили защитите на ChatGPT Atlas срещу prompt injection атаки

В края на декември 2025 г. OpenAI обяви важна актуализация по сигурността на ChatGPT Atlas – браузърно базиран AI агент, предназначен да изпълнява задачи от името на потребителя в уеб среда. Новите мерки са насочени към ограничаване на prompt injection атаки, които се считат за една от най-сериозните заплахи за агентни AI системи.

Актуализацията е внедрена глобално за всички потребители на Atlas и е част от по-широката стратегия на OpenAI за защита на т.нар. agentic AI – модели, които не само анализират информация, но и извършват действия.

Какво представляват prompt injection атаките

Prompt injection атаките използват злонамерено съдържание, вградено в уеб страници, имейли, документи или файлове, които AI агентът обработва. Целта е да се подменят инструкциите на потребителя, като агентът бъде подведен да изпълни действия, различни от първоначално поисканите.

При браузърни агенти като Atlas рискът е по-висок, тъй като те взаимодействат с голям и трудно ограничим набор от източници – имейли, прикачени файлове, форуми, уебсайтове и вътрешни портали. Успешна атака може да доведе до:

  • неоторизирано споделяне на чувствителни данни;

  • извършване на действия от името на потребителя;

  • промени или изтриване на информация.

Какво променя OpenAI

OpenAI съобщава, че е внедрила автоматизиран red-teaming механизъм, базиран на reinforcement learning, който симулира реални атакуващи сценарии. Тази система открива сложни prompt injection атаки, които се развиват в дълги последователности от действия, а не чрез единични команди.

При идентифициране на нов тип атака се задейства ускорен защитен цикъл:

  • моделите се дообучават да разпознават и игнорират злонамерени инструкции;

  • подобряват се механизмите за мониторинг и контрол;

  • защитата се вгражда директно в поведението на агента.

Последната актуализация за Atlas включва именно тези подобрения, като целта е агентът да различава по-надеждно легитимни инструкции от скрити или манипулативни команди.

Препоръки към потребителите

OpenAI препоръчва потребителите:

  • да ограничават достъпа на агента до чувствителни акаунти, когато това е възможно;

  • да преглеждат внимателно всяко потвърждение за действие;

  • да използват ясни и конкретни инструкции, вместо общи и отворени задачи.

DIAMATIX Perspective

Prompt injection атаките не са теоретичен проблем – те са реална заплаха за всяка организация, която експериментира с AI агенти и автоматизация. Случаят с ChatGPT Atlas показва ясно, че AI сигурността вече не е само въпрос на модел, а на цялостна архитектура.

За организациите това означава:

  • нужда от ясно дефинирани политики за използване на AI агенти;

  • наблюдение на действията, а не само на входа и изхода на моделите;

  • интеграция на AI системите в съществуващите SOC/MDR процеси.


Източници:

  • CybersecurityNews – OpenAI Hardened ChatGPT Atlas Against Prompt Injection Attacks

  • OpenAI – Security & Safety Updates (официални публикации)

  • The Register – Prompt Injection Risks in Agentic AI Systems

Contact DIAMATIX

Trusted · Innovative · Vigilant

Абонирайте се за най-новите актуализации и анализи

Получавайте актуални новини и експертни анализи за киберсигурност

Please enable JavaScript in your browser to complete this form.