Monday, May 25, 2026

OpenAI twierdzi, że szybkie zastrzyki, które mogą oszukać przeglądarki AI, mogą nigdy nie zostać w pełni „rozwiązane” | Fortuna

Koniecznie przeczytaj

OpenAI twierdzi, że szybkie zastrzyki, które mogą oszukać przeglądarki AI, mogą nigdy nie zostać w pełni „rozwiązane” | Fortuna

„Jest mało prawdopodobne, aby szybkie wstrzykiwanie, takie jak oszustwa i inżynieria społeczna w Internecie, kiedykolwiek zostało całkowicie„ rozwiązane ”” – napisało OpenAI w poniedziałkowym poście na blogu, dodając, że „tryb agenta” w ChatGPT Atlas „rozszerza powierzchnię zagrożeń bezpieczeństwa”.

OpenAI stwierdziło, że celem użytkowników jest „zaufanie agentowi ChatGPT”, a dyrektor ds. bezpieczeństwa informacji Dane Stuckey dodał, że firma ma nadzieję to osiągnąć poprzez „duże inwestycje w zautomatyzowane czerwone zespoły, uczenie się przez wzmacnianie i cykle szybkiego reagowania, aby wyprzedzić naszych przeciwników”.

„Jesteśmy optymistami, że proaktywny i wysoce responsywny cykl szybkiego reagowania może z czasem w dalszym ciągu istotnie ograniczać ryzyko w świecie rzeczywistym” – stwierdziła firma.

Walka z AI za pomocą AI

Podejście OpenAI do problemu polega na wykorzystaniu własnego atakującego wykorzystującego sztuczną inteligencję, zasadniczo robota przeszkolonego poprzez uczenie się przez wzmacnianie, aby działał jako haker szukający sposobów przekazywania złośliwych instrukcji agentom sztucznej inteligencji. Bot może testować ataki w symulacji, obserwować, jak zareaguje docelowa sztuczna inteligencja, a następnie udoskonalać swoje podejście i próbować ponownie wielokrotnie.

„Nasz przeszkolony napastnik (uczący się przez wzmacnianie) może poprowadzić agenta do wykonania wyrafinowanych i szkodliwych, długoterminowych przepływów pracy, które składają się z dziesiątek (a nawet setek) kroków” – napisało OpenAI. „Zaobserwowaliśmy także nowe strategie ataków, które nie pojawiły się w naszej kampanii łączenia ludzi ani w raportach zewnętrznych”.

Niektórzy eksperci ds. cyberbezpieczeństwa są jednak sceptyczni, czy podejście OpenAI może rozwiązać zasadniczy problem.

„Niepokoi mnie to, że próbujemy zaadaptować jeden z najbardziej wrażliwych na bezpieczeństwo elementów oprogramowania konsumenckiego za pomocą technologii, która nadal jest probabilistyczna, nieprzejrzysta i łatwa do subtelnych manipulacji” – powiedział Fortune Charlie Eriksen, badacz bezpieczeństwa w Aikido Security.

„Red Teaming i wykrywanie podatności w oparciu o sztuczną inteligencję mogą wykryć oczywiste wady, ale nie zmieniają podstawowej dynamiki. Dopóki nie będziemy mieć znacznie wyraźniejszych ograniczeń co do możliwości tych systemów i jakich instrukcji powinni słuchać, rozsądne jest sceptycyzm, czy taki kompromis ma obecnie sens dla zwykłych użytkowników” – stwierdził. „Myślę, że szybki zastrzyk będzie w dalszym ciągu problemem w dłuższej perspektywie… Można nawet argumentować, że jest to funkcja, a nie błąd”.

Gra w kotka i myszkę

Badacze zajmujący się bezpieczeństwem powiedzieli także wcześniej „Fortune”, że choć wiele zagrożeń dla cyberbezpieczeństwa to w zasadzie ciągła gra w kotka i myszkę, głęboki dostęp, jakiego potrzebują agenci sztucznej inteligencji (taki jak hasła użytkowników i pozwolenia na podejmowanie działań w imieniu użytkownika), stwarza tak podatne na zagrożenie zagrożenie, że nie było jasne, czy korzyści z niego wynikające są warte ryzyka.

„To właśnie sprawia, że ​​przeglądarki oparte na sztucznej inteligencji są zasadniczo ryzykowne” – powiedział Eriksen. „Przekazujemy uprawnienia systemowi, który nie został zaprojektowany z myślą o silnej izolacji lub jasnym modelu uprawnień. Tradycyjne przeglądarki domyślnie traktują sieć jako niezaufaną. Przeglądarki agentowe zacierają tę granicę, umożliwiając treści kształtowanie zachowania, a nie tylko jego wyświetlanie”.

OpenAI zaleca, aby użytkownicy wydawali agentom konkretne instrukcje, zamiast zapewniać szeroki dostęp za pomocą niejasnych instrukcji, takich jak „podejmij niezbędne działania”. Przeglądarka posiada także dodatkowe funkcje bezpieczeństwa, takie jak „tryb wylogowania”, który umożliwia użytkownikom korzystanie z niej bez konieczności udostępniania haseł, oraz „tryb nadzoru”, czyli funkcja bezpieczeństwa, która wymaga od użytkownika wyraźnego potwierdzenia wrażliwych działań, takich jak wysyłanie wiadomości czy dokonywanie płatności.

„Duża szerokość geograficzna ułatwia wpływ ukrytej lub złośliwej zawartości na agenta, nawet jeśli istnieją zabezpieczenia” – stwierdził OpenAI w poście na blogu.

Website |  + posts
- Advertisement -spot_img
- Advertisement -spot_img

Najnowszy artykuł