
OpenAI, pod rosnącą presją konkurencyjną ze strony Google i Anthropic, zaprezentowało nowy model sztucznej inteligencji, GPT-5.2, który według niego przewyższa wszystkie istniejące modele ze znaczną przewagą w szerokim zakresie zadań.
Jak wynika z danych opublikowanych przez OpenAI, nowy model, który został wprowadzony na rynek niecały miesiąc po zaprezentowaniu przez OpenAI swojego poprzednika, GPT-5.1, szczególnie dobrze wypadł w teście porównawczym skomplikowanych zadań zawodowych w różnych „pracach opartych na wiedzy” (od prawa po księgowość i finanse), a także w ocenach obejmujących kodowanie i rozumowanie matematyczne.
Fidji Simo, były dyrektor generalny InstaCart, a obecnie dyrektor generalny ds. aplikacji w OpenAI, powiedział reporterom, że tego modelu nie należy postrzegać jako bezpośredniej odpowiedzi na wprowadzony na rynek w zeszłym miesiącu model Google Gemini 3 Pro AI. Ta wersja skłoniła dyrektora generalnego OpenAI Sama Altmana do wydania „kodu czerwonego”, opóźniając uruchomienie kilku inicjatyw mających na celu skupienie większej liczby pracowników i zasobów obliczeniowych na ulepszaniu podstawowego produktu, ChatGPT.
„Powiedziałbym, że (Code Red) pomaga przy wypuszczeniu tego modelu, ale nie jest to powód, dla którego pojawi się on w tym konkretnym tygodniu, prace nad nim trwały już od jakiegoś czasu” – powiedział.
Powiedział, że firma budowała GPT-5.2 „przez wiele miesięcy”. „Nie udało nam się zmienić tych modeli w ciągu zaledwie tygodnia. To efekt dużej pracy” – powiedział. Jak wynika z artykułu opublikowanego w The Information, model był wewnętrznie znany pod kryptonimem „Czosnek”. Dzień przed premierą modelu Altman zapowiedział zbliżającą się premierę, publikując w mediach społecznościowych klip wideo, na którym gotuje danie z dużą ilością czosnku.
Dyrektorzy OpenAI powiedzieli, że model był w rękach „klientów Alpha”, którzy pomagali w testowaniu jego wydajności przez „kilka tygodni”, co oznaczałoby, że model został ukończony przed deklaracją Altmana „kod czerwony”.
Wśród testerów znaleźli się Harvey, legalny start-up AI, aplikacja do robienia notatek Notion oraz firma Box zajmująca się oprogramowaniem do zarządzania plikami, a także Shopify i Zoom.
OpenAI stwierdziło, że ci klienci odkryli, że GPT-5.2 wykazał „najnowocześniejszą” zdolność korzystania z innych narzędzi programowych do wykonywania zadań, a także wyróżniał się w pisaniu i debugowaniu kodu.
Kodowanie stało się jednym z najbardziej konkurencyjnych zastosowań wdrażania modeli sztucznej inteligencji w firmach. Chociaż OpenAI miało przewagę w tej przestrzeni, model Claude firmy Anthropic okazał się szczególnie popularny wśród przedsiębiorstw, przewyższając o kilka liczb udział OpenAI w rynku. OpenAI bez wątpienia ma nadzieję przekonać klientów do powrotu do swoich modeli i kodowania w GPT-5.2.
Simo powiedział, że „Code Red” pomógł OpenAI skupić się na ulepszaniu ChatGPT. „Code Red to tak naprawdę sygnał dla firmy, że chcemy połączyć zasoby w określonym obszarze, a to sposób na rzeczywiste zdefiniowanie priorytetów i zdefiniowanie rzeczy, którym można pozbawić priorytetów” – powiedział. „Zatem ogólnie zwiększyliśmy zasoby skupione na ChatGPT”.
Firma stwierdziła również, że jej nowy model jest lepszy od poprzednich w zapewnianiu „bezpiecznych zakończeń”, które definiuje jako udzielanie użytkownikom pomocnych odpowiedzi bez mówienia rzeczy, które mogłyby przyczynić się do kryzysów zdrowia psychicznego lub je pogorszyć.
„Jeśli chodzi o bezpieczeństwo, jak wynika z testów porównawczych, poprawiamy się praktycznie we wszystkich aspektach bezpieczeństwa, niezależnie od tego, czy chodzi o samookaleczenie, różne rodzaje zdrowia psychicznego czy uzależnienie emocjonalne” – powiedział Simo. „Jesteśmy bardzo dumni z pracy, którą tutaj wykonujemy. Jest to dla nas najwyższy priorytet i wypuszczamy modele tylko wtedy, gdy mamy pewność, że przestrzegano protokołów bezpieczeństwa i jesteśmy dumni z naszej pracy”.
Premiera nowego modelu nastąpiła tego samego dnia, w którym złożono nowy pozew przeciwko firmie, w którym zarzucono, że interakcje ChatGPT z użytkownikiem mającym problemy psychiczne przyczyniły się do morderstwa i samobójstwa w Connecticut. Firmie grożą także inne procesy sądowe, w których zarzuca się, że ChatGPT przyczynił się do samobójstw ludzi. Firma nazwała morderstwo-samobójstwo w Connecticut „niezwykle rozdzierającym serce” i oświadczyła, że w dalszym ciągu udoskonala „szkolenie ChatGPT w zakresie rozpoznawania i reagowania na oznaki niepokoju psychicznego lub emocjonalnego, deeskalacji rozmów i kierowania ludzi w stronę wsparcia w świecie rzeczywistym”.
GPT-5.2 wykazał duży skok wydajności w kilku benchmarkach interesujących klientów korporacyjnych. Osiągnięto lub przewyższono wydajność specjalistyczną w szerokim zakresie trudnych zadań zawodowych, mierzoną za pomocą testu porównawczego PKBval OpenAI w 70,9% przypadków. Dla porównania, jest to zaledwie 38,8% czasu w przypadku GPT-5, modelu OpenAI wydanego w sierpniu; 59,6% dla Claude Opus 4.5 od Anthropic; i 53,3% w przypadku Google Gemini 3 Pro.
W teście rozwoju oprogramowania SWE-Bench Pro, GPT-5.2 uzyskał 55,6%, prawie 5 punktów procentowych lepiej niż jego poprzednik, GPT-5.1 i ponad 12% lepiej niż Gemini 3 Pro.
Aidan Clark, wiceprezes ds. badań (szkoleń) w OpenAI, odmówił odpowiedzi na pytania dotyczące dokładnie tego, jakie metody szkoleniowe zostały zastosowane w celu poprawy wydajności GPT-5.2, chociaż stwierdził, że firma wprowadziła ulepszenia we wszystkich obszarach, w tym w zakresie szkoleń przedszkoleniowych, co stanowi pierwszy krok w tworzeniu modelu sztucznej inteligencji.
Kiedy w zeszłym miesiącu Google wypuściło na rynek swój model Gemini 3 Pro, badacze stwierdzili również, że firma wprowadziła ulepszenia zarówno przed treningiem, jak i po nim. Zaskoczyło to niektórych specjalistów, którzy wierzyli, że firmy zajmujące się sztuczną inteligencją w dużej mierze wyczerpały możliwość wydobycia znacznych ulepszeń z etapu przedszkoleniowego budowania modelu, i pojawiły się spekulacje, że OpenAI mógł zostać zaskoczony postępem Google w tej dziedzinie.


