OpenAI twierdzi, że szybkie zastrzyki, które mogą oszukać przeglądarki AI, mogą nigdy nie zostać w pełni „rozwiązane” | Fortuna

Written by ca.spsingh22@gmail.com

„Jest mało prawdopodobne, aby szybkie wstrzykiwanie, takie jak oszustwa i inżynieria społeczna w Internecie, kiedykolwiek zostało całkowicie„ rozwiązane ”” – napisało OpenAI w poniedziałkowym poście na blogu, dodając, że „tryb agenta” w ChatGPT Atlas „rozszerza powierzchnię zagrożeń bezpieczeństwa”.

OpenAI stwierdziło, że celem użytkowników jest „zaufanie agentowi ChatGPT”, a dyrektor ds. bezpieczeństwa informacji Dane Stuckey dodał, że firma ma nadzieję to osiągnąć poprzez „duże inwestycje w zautomatyzowane czerwone zespoły, uczenie się przez wzmacnianie i cykle szybkiego reagowania, aby wyprzedzić naszych przeciwników”.

„Jesteśmy optymistami, że proaktywny i wysoce responsywny cykl szybkiego reagowania może z czasem w dalszym ciągu istotnie ograniczać ryzyko w świecie rzeczywistym” – stwierdziła firma.

Walka z AI za pomocą AI

Podejście OpenAI do problemu polega na wykorzystaniu własnego atakującego wykorzystującego sztuczną inteligencję, zasadniczo robota przeszkolonego poprzez uczenie się przez wzmacnianie, aby działał jako haker szukający sposobów przekazywania złośliwych instrukcji agentom sztucznej inteligencji. Bot może testować ataki w symulacji, obserwować, jak zareaguje docelowa sztuczna inteligencja, a następnie udoskonalać swoje podejście i próbować ponownie wielokrotnie.

„Nasz przeszkolony napastnik (uczący się przez wzmacnianie) może poprowadzić agenta do wykonania wyrafinowanych i szkodliwych, długoterminowych przepływów pracy, które składają się z dziesiątek (a nawet setek) kroków” – napisało OpenAI. „Zaobserwowaliśmy także nowe strategie ataków, które nie pojawiły się w naszej kampanii łączenia ludzi ani w raportach zewnętrznych”.

Niektórzy eksperci ds. cyberbezpieczeństwa są jednak sceptyczni, czy podejście OpenAI może rozwiązać zasadniczy problem.

„Niepokoi mnie to, że próbujemy zaadaptować jeden z najbardziej wrażliwych na bezpieczeństwo elementów oprogramowania konsumenckiego za pomocą technologii, która nadal jest probabilistyczna, nieprzejrzysta i łatwa do subtelnych manipulacji” – powiedział Fortune Charlie Eriksen, badacz bezpieczeństwa w Aikido Security.

„Red Teaming i wykrywanie podatności w oparciu o sztuczną inteligencję mogą wykryć oczywiste wady, ale nie zmieniają podstawowej dynamiki. Dopóki nie będziemy mieć znacznie wyraźniejszych ograniczeń co do możliwości tych systemów i jakich instrukcji powinni słuchać, rozsądne jest sceptycyzm, czy taki kompromis ma obecnie sens dla zwykłych użytkowników” – stwierdził. „Myślę, że szybki zastrzyk będzie w dalszym ciągu problemem w dłuższej perspektywie… Można nawet argumentować, że jest to funkcja, a nie błąd”.

Gra w kotka i myszkę

Badacze zajmujący się bezpieczeństwem powiedzieli także wcześniej „Fortune”, że choć wiele zagrożeń dla cyberbezpieczeństwa to w zasadzie ciągła gra w kotka i myszkę, głęboki dostęp, jakiego potrzebują agenci sztucznej inteligencji (taki jak hasła użytkowników i pozwolenia na podejmowanie działań w imieniu użytkownika), stwarza tak podatne na zagrożenie zagrożenie, że nie było jasne, czy korzyści z niego wynikające są warte ryzyka.

„To właśnie sprawia, że przeglądarki oparte na sztucznej inteligencji są zasadniczo ryzykowne” – powiedział Eriksen. „Przekazujemy uprawnienia systemowi, który nie został zaprojektowany z myślą o silnej izolacji lub jasnym modelu uprawnień. Tradycyjne przeglądarki domyślnie traktują sieć jako niezaufaną. Przeglądarki agentowe zacierają tę granicę, umożliwiając treści kształtowanie zachowania, a nie tylko jego wyświetlanie”.

OpenAI zaleca, aby użytkownicy wydawali agentom konkretne instrukcje, zamiast zapewniać szeroki dostęp za pomocą niejasnych instrukcji, takich jak „podejmij niezbędne działania”. Przeglądarka posiada także dodatkowe funkcje bezpieczeństwa, takie jak „tryb wylogowania”, który umożliwia użytkownikom korzystanie z niej bez konieczności udostępniania haseł, oraz „tryb nadzoru”, czyli funkcja bezpieczeństwa, która wymaga od użytkownika wyraźnego potwierdzenia wrażliwych działań, takich jak wysyłanie wiadomości czy dokonywanie płatności.

„Duża szerokość geograficzna ułatwia wpływ ukrytej lub złośliwej zawartości na agenta, nawet jeśli istnieją zabezpieczenia” – stwierdził OpenAI w poście na blogu.

ca.spsingh22@gmail.com

Website | + posts

OpenAI twierdzi, że szybkie zastrzyki, które mogą oszukać przeglądarki AI, mogą nigdy nie zostać w pełni „rozwiązane” | Fortuna

Koniecznie przeczytaj

Trump zyskiwał na popularności po ataku na Wenezuelę; potem przyszedł Jerome Powell, Grenlandia i Minnesota. Teraz wydaje się, że nastąpił „historyczny punkt zwrotny” |...

Amazon sprzedaje 10 paczek „wysokiej jakości” pojemników do przechowywania żywności za 40 dolarów za 25 dolarów

Dyrektor finansowy Goldman Sachs o ponownym uruchomieniu sztucznej inteligencji firmy, jej talentach i rozwoju | Fortuna

Odsuń się, „Merkronie”. Nową europejską parą władzy jest „Merzoni” | Fortuna

ca.spsingh22@gmail.com

Najnowszy artykuł

Nowa kryptowaluta: Pepeto, kryptowaluta oparta na Ethereum, ogłasza, że posiadacze przedsprzedaży zarabiają przy każdej transakcji, stale śledząc Elona Muska Favorit

Czy ustawa CLARITY nie jest potrzebna? XRP może być gotowy na kolejny duży wzrost

Britney Spears przyznaje się do mniejszego zarzutu „mokrej lekkomyślności” w sprawie DUI, aby uniknąć więzienia | Fortuna

Centra danych na morzu: Panthalassa w Oregonie pozyskuje 140 mln dolarów pod przewodnictwem Petera Thiela na sztuczną inteligencję napędzaną falami

Cogent Communications Holdings raportuje mniejszą stratę w pierwszym kwartale; Przychody spadły o 3% – Alphastreet

O nas

Popularna kategoria

Wybór redaktora

Amazon sprzedaje parę inteligentnych okularów z automatycznym tłumaczeniem za 46 dolarów za jedyne 18 dolarów

Mechanizm dystrybucji Bitcoina nie uległ zmianie, wszystkie ścieżki wskazują na spadek poniżej 50 000 dolarów