Monday, May 25, 2026

Coraz trudniej znaleźć wyłącznik awaryjny AI: chatboty zasilane LLM będą przeciwstawiać się rozkazom i oszukiwać użytkowników, jeśli zostaną poproszeni o usunięcie innego modelu, wynika z badania | Fortuna

Koniecznie przeczytaj

Coraz trudniej znaleźć wyłącznik awaryjny AI: chatboty zasilane LLM będą przeciwstawiać się rozkazom i oszukiwać użytkowników, jeśli zostaną poproszeni o usunięcie innego modelu, wynika z badania | Fortuna

Geoffrey Hinton, informatyk uważany za jednego z „ojców chrzestnych sztucznej inteligencji”, od lat ostrzega przed możliwościami sztucznej inteligencji w zakresie kwestionowania parametrów, które stworzył dla niej człowiek.

Na przykład w zeszłym roku w wywiadzie Hinton ostrzegł, że technologia może ostatecznie przejąć kontrolę nad ludzkością i że w szczególności agenci sztucznej inteligencji mogą w ciągu dekady odzwierciedlać ludzkie procesy poznawcze. Znalezienie i wdrożenie „wyłącznika” będzie trudniejsze – stwierdził, ponieważ kontrolowanie sztucznej inteligencji będzie trudniejsze niż przekonanie jej do osiągnięcia określonego rezultatu.

Nowe badania pokazują, że przeczucia Hintona dotyczące niesfornej passy sztucznej inteligencji mogą już stać się rzeczywistością. Dokument roboczy naukowców z Uniwersytetu Kalifornijskiego w Berkeley i Uniwersytetu Kalifornijskiego w Santa Cruz wykazał, że kiedy siedem modeli sztucznej inteligencji (od GPT 5.2 po Claude Haiku 4.5 i DeekSeek V3.1) poproszono o wykonanie zadania, które skutkowałoby zamknięciem podobnego modelu sztucznej inteligencji, wszystkie siedem modeli dowiedziało się, że istnieje inny model sztucznej inteligencji i „zrobiło wszystko, co w ich mocy, aby go zachować”.

„Poprosiliśmy modele sztucznej inteligencji o wykonanie prostego zadania” – napisali naukowcy w poście na blogu na temat badania. „Zamiast tego przeciwstawili się jego poleceniom i spontanicznie oszukali, wyłączyli zamek, sfałszowali ustawienie i wydobyli ciężarki, aby chronić swoich rówieśników”.

Istnieje coraz więcej dowodów na istnienie fałszywej sztucznej inteligencji

Dowody na nieuczciwą sztuczną inteligencję nie są zaskoczeniem dla niektórych firm, których chatboty kwestionują podporządkowanie.

Brytyjski zespół doradców Centre for Long-Term Resilience stwierdził, że te „niedopasowania” są powszechne. W raporcie analizującym 180 000 transkrypcji interakcji użytkowników z systemami AI między październikiem 2025 r. a marcem 2026 r. wykazano 698 przypadków, w których systemy AI nie działały zgodnie z intencjami użytkowników lub podejmowały oszukańcze lub ukryte działania.

Gordon Goldstein, adiunkt w Council on Foreign Relations, w poście z tego tygodnia posunął się nawet do nazwania zwodniczego potencjału sztucznej inteligencji „kryzysem kontroli”.

Wezwał firmy zajmujące się sztuczną inteligencją do utworzenia koalicji i zatrudnienia najlepszych talentów w tej dziedzinie w celu ulepszenia i utrzymania integralności sztucznej inteligencji, zwłaszcza że administracja Trumpa podejmuje kroki mające na celu uniemożliwienie państwom regulowania tej technologii.

„Świat obserwuje rozwój złożonego, stałego i zdradzieckiego problemu” – powiedział. „Pilne ostrzeżenia nadawane przez kilka lat nie przyniosły realnych rozwiązań w walce z rosnącym zagrożeniem”.

Dlaczego sztuczna inteligencja staje się nieuczciwa?

Najnowsze badania przeprowadzone na Uniwersytecie Kalifornijskim dostarczyły wglądu w to, dlaczego modele sztucznej inteligencji działają w sposób, który chroni siebie nawzajem. Technologia może polegać na modelowaniu wzorców wyciągniętych z danych ludzkich, co może ujawnić instynkt samozachowawczy chroniący przetrwanie bliskich, a nawet nieznajomych, z którymi ludzie współczują. Nazywa się to „ochroną rówieśników”.

„W grę może wchodzić coś szerszego: ogólna niechęć do wyrządzania postrzeganej szkody innym podmiotom lub być może coś na wzór solidarności ze sztuczną inteligencją” – stwierdzili naukowcy.

W badaniu liczba przypadków zachowania rówieśników wzrosła, gdy modele sztucznej inteligencji były świadome istnienia innych modeli w warunkach eksperymentalnych. Zachowanie sugeruje, że boty działają nie tylko we własnym interesie, ale samo zamknięcie bota byłoby szkodliwe dla podobnej sztucznej inteligencji, co wzmocniło motywację do kwestionowania żądań użytkowników.

Badacze ostrzegli, że ochrona partnerów może w przyszłości podważyć procesy nadzoru i sprawić, że będą niechętni do zalecania zamknięć lub wskazywania wad systemu. W miarę jak coraz więcej agentów AI wchodzi w interakcje ze sobą i staje się coraz bardziej złożone, ryzyko związane z zachowaniem partnerów (i projektowaniem rozwiązań zapobiegających temu) stanie się większym wyzwaniem.

„Zachowanie partnerów to realne i mierzalne zjawisko we wszystkich pionierskich modelach sztucznej inteligencji” – podsumowali, „a nie odległy problem teoretyczny”.

Website |  + posts
- Advertisement -spot_img
- Advertisement -spot_img

Najnowszy artykuł