Goldman Sachs ma nazwę na to, czego brakuje. Nowy raport Goldman Sachs Global Institute, napisany przez współdyrektora George’a Lee i dyrektora generalnego Dana Keyserlinga, omawia tak zwany w branży „model globalny” i dowodzi, że rozwiązanie go stanowi kolejny decydujący krok w dziedzinie sztucznej inteligencji. Nie jest to marginalna poprawa. Jakościowa zmiana w tym, co maszyny mogą zrobić, a co za tym idzie, co mogą zrobić.
Fakt, że ojcowie chrzestni sztucznej inteligencji już w tym kierunku pędzą, sugeruje, że Goldman może mieć rację.
Przepaść, o której nikt nie lubi rozmawiać
Wielka rewolucja w modelu językowym stworzyła coś naprawdę zaskakującego. Wytrenuj system z wystarczającą ilością ludzkiego tekstu, zoptymalizuj go, aby przewidzieć, jakie słowo będzie następne, zwiększ jego skalę i, w niemal niewytłumaczalny sposób, zacznie rozumować, rozmawiać, pisać i kodować na poziomie, który rutynowo zaskakuje jego własnych twórców. Po tym nastąpiły wyniki biznesowe: wyceny warte bilion dolarów, przekształcenie branż, pokolenie pracowników umysłowych na nowo przemyśleło swoją karierę.
Jednak pod tą zdolnością kryją się ograniczenia strukturalne, z którymi branża niechętnie się mierzy. „LLM są potężne w uzupełnianiu wzorców” – piszą Lee i Keyserling – „ale brakuje im wewnętrznego wyczucia świata opisywanego przez te wzorce”. Systemy te, zauważają autorzy Goldmana, „generują to zrozumienie poprzez interpretację drugiego rzędu: rozumieją, jak działa nasz świat w oparciu o dane i tekst, z którymi się zetknęły. Nie rozumieją pierwszych zasad fizyki, ruchu, światła, akcji/reakcji ani innych podstawowych właściwości naszego wszechświata”.
Mówiąc wprost: dzisiejsza sztuczna inteligencja poznawała świat, czytając, co napisali o nim ludzie. Wchłonął opis rzeczywistości, nigdy nie odnajdując samej rzeczywistości. Płynnym prozą możesz wyjaśnić, że szklanka pęknie, jeśli spadnie. Nie ma wewnętrznego poczucia ciężaru, trajektorii ani konsekwencji.
To rozróżnienie ledwo można dostrzec w przypadkach użycia, które dominują obecnie w sztucznej inteligencji przedsiębiorstw: podsumowywanie dokumentów, tworzenie komunikacji, generowanie kodu. Staje się twardą ścianą, gdy sztuczna inteligencja ma poruszać się po nieustrukturyzowanym środowisku fizycznym, koordynować złożoną reakcję organizacyjną w czasie rzeczywistym lub rozważać, w jaki sposób strategiczna decyzja będzie kaskadowo przechodzić przez działający rynek.
Co budują rodzice chrzestni
W tym miejscu raport Goldmana staje się czymś więcej niż tylko domysłem. Badacze skupiający się wokół modeli globalnych nie są ruchem marginalnym. W kilku przypadkach są to te same osoby, których poprzednia praca zaowocowała erą sztucznej inteligencji, która obecnie dominuje na pierwszych stronach gazet.
Yann LeCun, który przez lata był głównym naukowcem Meta w dziedzinie sztucznej inteligencji, zanim odszedł, aby założyć swoją nową firmę AMI Labs, uczynił modele świata wyraźną podstawą swojej wizji sztucznej inteligencji ogólnej. Architektura predykcyjna Joint Embedding Predictive Architecture (JEPA) ma na celu budowanie maszyn, które opracowują wewnętrzne modele świata w drodze obserwacji, tak jak to robią ludzie, a nie poprzez przewidywanie tekstu. LeCun publicznie i uporczywie krytykował pogląd, że samo rozszerzenie LLM pozwoli osiągnąć ogólną inteligencję. Modele świata są Twoją alternatywną tezą.
Fei-Fei Li, badacz ze Stanford, którego zbiór danych ImageNet pomógł zapoczątkować rewolucję w zakresie głębokiego uczenia się, która doprowadziła do powstania dominujących obecnie systemów sztucznej inteligencji, założył World Labs wokół powiązanej idei: inteligencji przestrzennej. Założeniem jest, że prawdziwa inteligencja wymaga nie tylko rozpoznawania obiektów na obrazach, ale także zrozumienia, w jaki sposób obiekty te istnieją w przestrzeni, wchodzą w interakcje ze sobą i zmieniają się w czasie. Li stawia na to, że maszyny muszą oswoić się z trójwymiarowym modelem rzeczywistości, a nie po prostu go klasyfikować.
Nie są to postacie peryferyjne, które przyjmują przeciwne stanowiska, aby zwrócić na siebie uwagę. Są architektami obecnego paradygmatu i w swoich własnych badaniach i projektach argumentują, że paradygmat jest niekompletny.
Dwie granice, jeden pomysł
Raport Goldmana przedstawia, jak faktycznie wyglądają modele globalne w praktyce i identyfikuje dwie odrębne, ale powiązane ścieżki.
Modele świata fizycznego uczą AI logiki rządzącej światem materialnym: grawitacji, tarcia, termodynamiki, dynamiki płynów. Zamiast uczyć się wyłącznie metodą prób i błędów w prawdziwym świecie, systemy te absorbują zasady fizyki poprzez symulację, ćwicząc w środowiskach cyfrowych, gdzie awaria jest tania i szybka. Robot może wpaść do symulatora tysiące razy, zanim uderzy w ziemię. Kiedy w końcu działa w przestrzeni fizycznej, robi to z już zinternalizowanymi konsekwencjami.
Wyniki są już widoczne w logistyce, produkcji i systemach autonomicznych: roboty magazynowe, które poruszają się w zatłoczonych przestrzeniach z mniejszą liczbą kolizji, pojazdy autonomiczne, które testują ekstremalne przypadki, zanim napotkają je na drodze. Krytycznym przełomem, jak to ujął Goldman, nie jest lepszy sprzęt. Są lepszymi wewnętrznymi modelami rzeczywistości.
Wirtualne lub społeczne modele świata realizują równoległe ambicje w systemach ludzkich. Są to środowiska cyfrowe zamieszkane przez agentów AI z celami, wspomnieniami i zachętami, z których każdy został zaprojektowany tak, aby był zbliżony do profilu behawioralnego w świecie rzeczywistym. W miarę interakcji tych czynników pojawiają się wzorce. Rynki zachowują się. Organizacje odpowiadają. Kaskada kryzysu. „Firmy już wkładają ogromne wysiłki w odgadywanie, jak zareagują inni, jak zachowają się konkurenci, jak rynki zinterpretują sygnały i jak zarządy zareagują pod presją” – piszą Lee i Keyserling. „Symulacje wieloagentowe oferują coś bliższego żywemu modelowi systemów ludzkich”.
Autorzy Goldmana dokonują tutaj niezwykle istotnego rozróżnienia dotyczącego tego, jak liderzy biznesu powinni myśleć o tych narzędziach: modele globalne nie są prognozami. „Systemy te nie przewidują przyszłości w żadnym ścisłym tego słowa znaczeniu; mają na celu ujawnienie prawdopodobnej przyszłości i ujawnienie ukrytej dynamiki” – piszą. „Prognozowanie zakłada jeden poprawny wynik. Modele globalne ujawniają zakresy, trajektorie i pętle sprzężenia zwrotnego”.
Pytanie inwestycyjne, którego Wall Street nie zadało
Goldman będąc Goldmanem, raport ostatecznie opiera się na argumencie finansowym i jest to proste.
Jak zauważono w raporcie, cała budowa infrastruktury sztucznej inteligencji została oparta na jednym założeniu: że przyszłość sztucznej inteligencji to większe modele językowe działające na większej liczbie obliczeń. Obecne prognozy dotyczące chipów, centrów danych i mocy opierają się niemal wyłącznie na tym fundamencie. Pytanie Goldmana brzmi, czy te prognozy mierzą właściwą rzecz.
„Wymagania i możliwości związane z modelami globalnymi nie znalazły jeszcze odzwierciedlenia w konsensusowych prognozach podaży i popytu na infrastrukturę sztucznej inteligencji” – piszą Lee i Keyserling. Jeśli modele globalne zostaną opracowane jako warstwa uzupełniająca (zbudowana obok LLM, a nie je zastępująca), wymagania obliczeniowe mogą znacznie przekroczyć obecne prognozy Wall Street. Środowiska symulacyjne wymagają specjalnie zaprojektowanych potoków danych, generatorów danych syntetycznych i silników opartych na fizyce, które wykraczają daleko poza korpusy tekstowe. „Historia infrastruktury” – piszą autorzy – „to historia częściowego nakładania się, a nie doskonałego ponownego wykorzystania”.
Ramy konkurencji są równie jasne. „Przewaga konkurencyjna może zależeć zarówno od tego, kto opracuje największy model, jak i od tego, kto stworzy najwierniejsze symulacje rzeczywistości fizycznej, społecznej i gospodarczej”.
Brakujące ogniwo
Raport Goldmana kończy się sformułowaniem, które jest jednocześnie najjaśniejszym podsumowaniem tego, co reprezentują modele globalne i dlaczego wyścig w ich budowaniu przyciąga najlepsze umysły w tej dziedzinie.
„Jeśli duże modele językowe zapewniają płynność sztucznej inteligencji, modele światowe zapewniają jej świadomość sytuacyjną” – piszą Lee i Keyserling. „Przez większą część swojej najnowszej historii traktowaliśmy sztuczną inteligencję jako system, który generuje odpowiedzi. Modele globalne sugerują coś bardziej ambitnego”.
Sztuczna inteligencja, która zmieniła kształt ostatniej dekady, nauczyła się rozmawiać o świecie z niezwykłym wyrafinowaniem. Sztuczna inteligencja, którą teraz budują ojcowie chrzestni, próbuje nauczyć się czegoś trudniejszego i bardziej fundamentalnego: jak to naprawdę jest być w jej wnętrzu.
W tej historii dziennikarze magazynu „Fortune” wykorzystali generatywną sztuczną inteligencję jako narzędzie dochodzeniowe. Redaktor sprawdził dokładność informacji przed ich opublikowaniem.

