
Modele sztucznej inteligencji Frontier nie tylko pomagają inżynierom szybciej pisać kod lub automatyzować rutynowe zadania. Coraz częściej potrafią wykryć swoje błędy.
Anthropic twierdzi, że jego najnowszy model, Claude Opus 4.6, doskonale radzi sobie z odkrywaniem rodzajów słabych punktów oprogramowania leżących u podstaw głównych cyberataków. Według raportu firmy Frontier Red Team, podczas testów Opus 4.6 zidentyfikował ponad 500 nieznanych wcześniej luk typu zero-day (wad, o których nie wiedzą twórcy oprogramowania ani strona odpowiedzialna za jego łatanie lub naprawianie) w bibliotekach oprogramowania open source. W szczególności modelowi nie polecono wyraźnie szukać luk w zabezpieczeniach, lecz zamiast tego samodzielnie wykrywał i sygnalizował problemy.
Anthropic twierdzi, że „wyniki pokazują, że modele językowe mogą wnieść rzeczywistą wartość dodaną w stosunku do istniejących narzędzi do odkrywania”, przyznał jednak, że te możliwości są również z natury „podwójnego zastosowania”.
Atakujący mogą z łatwością korzystać z tych samych funkcji, które pomagają firmom znajdować i naprawiać luki w zabezpieczeniach, aby odkrywać i wykorzystywać luki, zanim zdążą je znaleźć obrońcy. Model sztucznej inteligencji, który może autonomicznie identyfikować exploity dnia zerowego w powszechnie używanym oprogramowaniu, mógłby przyspieszyć obie strony wyścigu zbrojeń w zakresie cyberbezpieczeństwa, potencjalnie przechylając przewagę w stronę tego, kto będzie działać szybciej.
Logan Graham, szef zespołu Border Red firmy Anthropic, powiedział firmie Axios, że firma postrzega cyberbezpieczeństwo jako konkurencję między atakiem a obroną i w pierwszej kolejności chce zapewnić obrońcom dostęp do tych narzędzi.
Aby zarządzać częścią ryzyka, Anthropic wdraża nowe systemy wykrywania, które monitorują wewnętrzną aktywność Claude’a w trakcie generowania odpowiedzi, wykorzystując tak zwane „sondy” do sygnalizowania w czasie rzeczywistym potencjalnych nadużyć. Firma twierdzi, że rozszerza także swoje możliwości w zakresie egzekwowania prawa, w tym możliwość blokowania ruchu zidentyfikowanego jako złośliwy. Anthropic zdaje sobie sprawę, że takie podejście spowoduje tarcia między legalnymi badaczami bezpieczeństwa i pracami obronnymi, i zobowiązuje się do współpracy ze społecznością ds. bezpieczeństwa, aby stawić czoła tym wyzwaniom. Firma twierdzi, że zabezpieczenia stanowią „ważny krok naprzód” w wykrywaniu nadużyć i szybkim reagowaniu na nie, chociaż prace nad nimi trwają.
Z kolei OpenAI przyjął bardziej ostrożne podejście, wprowadzając nowy model kodowania, GPT-5.3-Codex, który również został wydany w czwartek. Firma podkreśliła, że chociaż model spowodował wzrost wydajności szyfrowania, korzyści te wiążą się z poważnymi zagrożeniami dla cyberbezpieczeństwa. Dyrektor generalny OpenAI Sam Altman powiedział w poście na temat
W rezultacie OpenAI wdraża Kodeks GPT-5.3 z bardziej rygorystyczną kontrolą. Chociaż model jest dostępny dla płatnych użytkowników ChatGPT do codziennych zadań programistycznych, firma opóźnia pełny dostęp do API i ogranicza przypadki użycia wysokiego ryzyka, które mogłyby umożliwić automatyzację na dużą skalę. Najbardziej wrażliwe aplikacje są chronione dodatkowymi środkami bezpieczeństwa, w tym programem zaufanego dostępu dla sprawdzonych specjalistów ds. bezpieczeństwa. W poście na blogu towarzyszącym premierze OpenAI stwierdziło, że nie ma jeszcze „ostatecznych dowodów” na to, że model może w pełni zautomatyzować cyberataki, jednak przyjmuje podejście zapobiegawcze, wdrażając to, co określiło jako najbardziej kompleksowy jak dotąd pakiet bezpieczeństwa cybernetycznego, obejmujący ulepszone monitorowanie, szkolenia w zakresie bezpieczeństwa i mechanizmy egzekwowania oparte na informacjach o zagrożeniach.


