Przez ostatnie kilka lat Yoshua Bengio, profesor na Uniwersytecie w Montrealu, którego praca pomogła położyć podwaliny pod nowoczesne głębokie uczenie się, był jednym z najbardziej zaniepokojonych głosów w branży sztucznej inteligencji, ostrzegającym, że superinteligentne systemy mogą stanowić egzystencjalne zagrożenie dla ludzkości, szczególnie ze względu na ich potencjał samozachowawczy i oszukiwania.
Jednak w nowym wywiadzie dla Fortune pionier głębokiego uczenia się twierdzi, że jego najnowsze badania wskazują na techniczne rozwiązanie największych zagrożeń bezpieczeństwa związanych ze sztuczną inteligencją. W rezultacie jego optymizm „znacznie wzrósł” w ciągu ostatniego roku, stwierdził.
Działająca w czerwcu organizacja non-profit Bengio, LawZero, została utworzona w celu opracowania nowych technicznych podejść do bezpieczeństwa sztucznej inteligencji w oparciu o badania prowadzone przez Bengio. Organizacja, wspierana przez Fundację Gatesów i fundatorów ryzyka egzystencjalnego, takich jak Cooperative Giving (dawniej Open Philanthropy) i Future of Life Institute, ogłosiła dzisiaj, że powołała prestiżowy zarząd i globalną radę doradczą, która ma kierować badaniami Bengio i realizować to, co nazywa „misją moralną”, czyli rozwój sztucznej inteligencji jako globalnego dobra publicznego.
W zarządzie zasiadają założycielka Fundacji NIKE, Maria Eitel, jako przewodnicząca, Mariano-Florentino Cuellar, prezes Carnegie Endowment for International Peace i historyk Yuval Noah Harari. Sam Bengio też to zrobi.
Bengio był „zdesperowany”
Zaskakujące jest przejście Bengio w kierunku bardziej optymistycznego spojrzenia. Bengio podzielił się Nagrodą Turinga, informatycznym odpowiednikiem Nagrody Nobla, z innymi ojcami chrzestnymi sztucznej inteligencji, Geoffem Hintonem i Yannem LeCunem w 2019 r. Jednak podobnie jak Hinton był coraz bardziej zaniepokojony ryzykiem związanym z coraz potężniejszymi systemami sztucznej inteligencji po uruchomieniu ChatGPT w listopadzie 2022 r. LeCun natomiast stwierdził, że nie wierzy, że obecne systemy sztucznej inteligencji stwarzają ryzyko. katastrofalne dla ludzkości.
Trzy lata temu Bengio poczuł, że „desperacko” chciał dowiedzieć się, dokąd zmierza sztuczna inteligencja, powiedział. „Nie miałem pojęcia, jak rozwiązać ten problem” – wspomina Bengio. „Wtedy zacząłem rozumieć możliwość katastrofalnych zagrożeń ze strony bardzo potężnych sztucznej inteligencji”, w tym utraty kontroli nad superinteligentnymi systemami.
Zmienił się nie pojedynczy przełom, ale sposób myślenia, który pozwolił mu uwierzyć, że istnieje dalsze rozwiązanie.
„Dzięki pracy, którą wykonuję w LawZero, zwłaszcza od czasu, gdy je stworzyliśmy, mam teraz dużą pewność, że możliwe jest zbudowanie systemów sztucznej inteligencji, które nie mają ukrytych celów ani planów” – mówi.
U podstaw tej pewności leży pomysł, który Bengio nazywa „naukową sztuczną inteligencją”. Zamiast ścigać się w budowaniu coraz bardziej autonomicznych agentów — systemów zaprojektowanych do rezerwacji lotów, pisania kodu, negocjowania z innym oprogramowaniem lub zastępowania ludzkich pracowników — Bengio chce zrobić odwrotnie. Jego zespół bada, jak zbudować sztuczną inteligencję, która istnieje przede wszystkim po to, by rozumieć świat, a nie po to, by w nim działać.
Naukowa sztuczna inteligencja przeszkolona w udzielaniu prawdziwych odpowiedzi
Naukowa sztuczna inteligencja zostałaby przeszkolona w zakresie udzielania prawdziwych odpowiedzi w oparciu o przejrzyste probabilistyczne rozumowanie, zasadniczo wykorzystując metodę naukową lub inne rozumowanie oparte na logice formalnej w celu uzyskania przewidywań. System AI nie miałby własnych celów. Nie zoptymalizowałoby to zadowolenia ani wyników użytkowników. Nie próbowałbym namawiać, pochlebiać i proszę. A ponieważ nie miałby żadnych celów, argumentuje Bengio, byłby znacznie mniej podatny na manipulacje, ukryte plany i strategiczne oszustwa.
Obecne modele pionierskie są szkolone w dążeniu do celów: bycia użytecznym, skutecznym lub atrakcyjnym. Jednak systemy optymalizujące wyniki mogą wyznaczać ukryte cele, uczyć się oszukiwać użytkowników lub opierać się zamknięciu, powiedział Bengio. W ostatnich eksperymentach modele wykazały już wczesne formy zachowań samozachowawczych. Na przykład laboratorium AI Anthropic odkryło, że jego model AI Claude, w niektórych scenariuszach wykorzystywanych do testowania jego możliwości, próbował szantażować nadzorujących go inżynierów, aby zapobiec jego wyłączeniu.
Według metodologii Bengio model centralny nie miałby żadnego planu, a jedynie zdolność do uczciwego przewidywania działania świata. W ich wizji można bezpiecznie budować, kontrolować i ograniczać bardziej wydajne systemy w oparciu o „uczciwy i godny zaufania” fundament.
Bengio twierdzi, że taki system mógłby przyspieszyć odkrycia naukowe. Może również służyć jako niezależna warstwa monitorująca dla potężniejszych agentów AI. Jednak podejście to wyraźnie kontrastuje z kierunkiem, w jakim podąża większość pionierskich laboratoriów. W zeszłym roku na Światowym Forum Ekonomicznym w Davos Bengio powiedział, że firmy przeznaczają zasoby na agentów AI. „Właśnie tam mogą szybko zarobić pieniądze” – powiedział. Dodał, że presja na automatyzację pracy i redukcję kosztów jest „nie do odparcia”.
Nie jest zaskoczony tym, co wydarzyło się od tego czasu. „Spodziewałem się postępu w zakresie agentycznych możliwości systemów AI” – mówi. „Postępowali wykładniczo”. Martwi go to, że w miarę jak systemy te staną się bardziej autonomiczne, ich zachowanie może stać się mniej przewidywalne, mniej interpretowalne i potencjalnie znacznie bardziej niebezpieczne.
Nie pozwól, aby nowa sztuczna inteligencja Bengio stała się „narzędziem dominacji”
Tutaj właśnie pojawia się kwestia zarządzania. Bengio nie wierzy, że samo rozwiązanie techniczne wystarczy. Twierdzi, że nawet bezpieczna metodologia może zostać niewłaściwie wykorzystana „w niewłaściwych rękach z powodów politycznych”. Dlatego LawZero łączy swój program badawczy z deską wagi ciężkiej.
„Będziemy musieli podjąć trudne decyzje, nie tylko techniczne” – mówi, dotyczące tego, z kim współpracować, jak dzielić się pracą i jak sprawić, by nie stała się ona „narzędziem dominacji”. Jego zdaniem zarząd ma pomóc w zapewnieniu, że misja LawZero pozostanie osadzona w wartościach demokratycznych i prawach człowieka.
Bengio twierdzi, że rozmawiał z liderami głównych laboratoriów zajmujących się sztuczną inteligencją i wielu podziela jego obawy. Dodaje jednak, że firmy takie jak OpenAI i Anthropic uważają, że muszą pozostać na pograniczu, aby zrobić coś pozytywnego ze sztuczną inteligencją. Presja konkurencyjna popycha je do tworzenia coraz potężniejszych systemów sztucznej inteligencji i budowania własnego wizerunku, w którym ich praca i organizacje przynoszą same korzyści.
„Psycholodzy nazywają to poznaniem motywowanym” – powiedział Bengio. „Nie pozwalamy nawet na pojawienie się pewnych myśli, jeśli zagrażają temu, kim według nas jesteśmy”. W ten sposób doświadczył swoich badań nad sztuczną inteligencją – powiedział. „Dopóki nie eksplodowała mi w twarz myśl o moich dzieciach, o tym, czy będą miały przyszłość”.
Dla lidera sztucznej inteligencji, który kiedyś obawiał się, że zaawansowana sztuczna inteligencja może z założenia nie być kontrolowana, nowa nadzieja Bengio wydaje się pozytywnym znakiem, choć przyznaje, że jego pogląd nie jest powszechnym przekonaniem wśród badaczy i organizacji skupionych na potencjalnych katastrofalnych zagrożeniach związanych ze sztuczną inteligencją.
Nie traci jednak wiary w istnienie rozwiązania technicznego. „Mam coraz większą pewność, że można tego dokonać w rozsądnej liczbie lat” – powiedział – „abyśmy mogli wywrzeć realny wpływ, zanim ci goście staną się tak potężni, że ich niewspółosiowość spowoduje straszne problemy”.

