
Na początku tego miesiąca Andrej Karpathy, znany badacz sztucznej inteligencji, który był jednym z założycieli OpenAI, a później kierował sztuczną inteligencją Tesli, zyskał ogromną popularność na platformie X. Samo to nie jest niczym niezwykłym. Karpathy, który obecnie pracuje jako niezależny badacz sztucznej inteligencji i jest także założycielem Eureka Labs, które według niego tworzy nowy rodzaj szkoły dla ery sztucznej inteligencji, ma 1,9 miliona obserwujących na X, a jego reputacja jest taka, że prawie wszystko, co mówi na temat sztucznej inteligencji, jest traktowane jako ewangelia lub proroctwo.
Ale ten post dotyczył przeprowadzonego przez niego eksperymentu, w ramach którego zlecił agentowi kodującemu sztuczną inteligencję przeprowadzenie serii eksperymentów, aby dowiedzieć się, jak ulepszyć uczenie małego modelu językowego. Pozwolił agentowi AI działać nieprzerwanie przez dwa dni, w tym czasie przeprowadził on 700 różnych eksperymentów. W trakcie tych eksperymentów odkrył 20 optymalizacji, które skróciły czas szkolenia.
Karpathy odkrył, że zastosowanie tych samych 20 korekt do większego, ale wciąż dość małego modelu językowego, spowodowało przyspieszenie czasu potrzebnego na wytrenowanie modelu o 11%. Karpathy nazwał system, który zbudował w celu przeprowadzenia tego eksperymentu, „samobadaniem”.
Tobias Lütke, współzałożyciel i dyrektor generalny Shopify, opublikował na X, że podjął próbę zautomatyzowania badań w celu optymalizacji modelu AI na wewnętrznych danych firmy, przekazując agentowi instrukcje dotyczące poprawy jakości i szybkości modelu. Lütke poinformował, że po pozostawieniu zautomatyzowanych badań na noc przeprowadził 37 eksperymentów i osiągnął 19% wzrost wydajności.
To, co przykuło uwagę wielu osób, to fakt, że badania maszynowe są bliskie idei samodoskonalących się systemów sztucznej inteligencji, które pierwotnie były omawiane w science fiction i których niektórzy badacze sztucznej inteligencji gorąco pragną, a inni głęboko się boją. Problem polega na tym, że „rekurencyjne samodoskonalenie”, w ramach którego sztuczna inteligencja nieustannie optymalizuje swój własny kod i trenuje w swego rodzaju pętli, może prowadzić do tego, co badacze bezpieczeństwa sztucznej inteligencji nazywają czasem „twardym startem” lub „eksplozją inteligencji”. W tych scenariuszach system sztucznej inteligencji szybko poprawia swoje działanie, co prowadzi do przekroczenia ludzkich zdolności poznawczych i wymknięcia się spod kontroli człowieka.
Eksperyment Karpathy’ego nie był dokładnie taki. Agent sztucznej inteligencji będący sercem automatycznej konfiguracji badawczej nie udoskonala własnej konfiguracji szkoleniowej, ale raczej dostosowuje kod szkoleniowy i początkową konfigurację sieci neuronowej pod kątem innego, znacznie mniejszego i mniej wyrafinowanego modelu sztucznej inteligencji. Jednak Karpathy słusznie zauważył, że jego eksperyment miał duże implikacje dla sposobu, w jaki laboratoria AI będą prowadzić badania w przyszłości, a to może przyspieszyć ich postępy.
„Wszystkie graniczne laboratoria LLM będą to robić. To ostateczna bitwa z bossem” – napisał Karpathy w „Ale robienie tego to «tylko inżynieria» i zadziała” – kontynuował. „Powstaje rój agentów, zmusza się ich do współpracy przy dopracowywaniu mniejszych modeli, najbardziej obiecujące pomysły promuje się na coraz większą skalę, a ludzie (opcjonalnie) wnoszą wkład na margines”.
Powiedział, że chociaż obecny zautomatyzowany system badawczy, który zbudował, został zaprojektowany z myślą o jednym agencie, który ma stale udoskonalać fragment kodu na jednej ścieżce, w przyszłości wielu agentów AI będzie mogło równolegle badać różne optymalizacje i różne eksperymenty. „Kolejnym krokiem w kierunku zautomatyzowanych badań jest to, że muszą one asynchronicznie współpracować na masową skalę z agentami” – napisał. „Celem nie jest naśladowanie pojedynczego doktoranta, ale naśladowanie utworzonej przez niego społeczności badawczej”.
Karpathy powiedział także coś innego na temat zautomatyzowanych badań, co wzbudziło entuzjazm wielu osób. „*Każda* metryka, która Cię interesuje, a której ocena jest w miarę skuteczna (lub ma bardziej wydajne metryki zastępcze, takie jak uczenie mniejszej sieci), może zostać automatycznie zbadana przez rój agentów” – napisał. „Warto zastanowić się, czy Twój problem również mieści się w tej grupie.”
Niektórzy komentatorzy zauważyli, że podstawowe elementy zautomatyzowanych badań można wykorzystać w wielu innych systemach agentowych w celu optymalizacji procesu. Janakiram MSV, główny analityk w Janakiram & Associates, w publikacji technologicznej The New Stack nazwał to „pętlą Karpathy”. Składa się z trzech komponentów: agenta mającego dostęp do pojedynczego pliku, który może modyfikować; pojedyncza, obiektywnie weryfikowalna metryka, którą agent może zoptymalizować; oraz ustalony limit czasu trwania każdego eksperymentu. Podkreślił również, że instrukcje, które Karpathy przekazał agentowi sztucznej inteligencji w ramach zautomatyzowanego dochodzenia, są również dobrymi modelami dla każdego, kto wchodzi w interakcję z jakimkolwiek agentem sztucznej inteligencji. Zwykły plik tekstowy, z którego korzystał Karpathy, zawierał jasne instrukcje dotyczące tego, co agent powinien zrobić, ograniczenia, informacje dla agenta, czego nie powinien robić lub czego zmieniać, a także kryterium zatrzymania, które wskazywało, jak długo powinna działać każda pętla i kiedy agent powinien zatrzymać pętlę i zgłosić jej wyniki.
Niektórzy krytycy twierdzą jednak, że Karpathy zrobił niewiele więcej niż tylko ponowne odkrycie części procesu znanego jako AutoML, z którego badacze z Google, Microsoftu i innych laboratoriów sztucznej inteligencji korzystają już od lat. AutoML wykorzystuje również cykl optymalizacji i serię eksperymentów, aby znaleźć najlepsze dane do wykorzystania w sztucznej inteligencji, najlepszą architekturę modelu do użycia i dostroić tę architekturę modelu. Nie korzysta jednak z agenta sztucznej inteligencji, który potrafi czytać artykuły badawcze dotyczące sztucznej inteligencji i opracowywać hipotezy dotyczące ulepszeń. Systemy AutoML zwykle opierają się na losowych odmianach lub różnych algorytmach ewolucyjnych, aby zdecydować, które zmiany należy przetestować.
W odpowiedzi na niektóre z tych komentarzy firma Karpathy stwierdziła, że niektóre metody AutoML, takie jak wyszukiwanie architektury neuronowej, które jest zautomatyzowanym sposobem optymalizacji projektu modelu sztucznej inteligencji, nie są tak skuteczne, jak automatyczne badania. „Poszukiwanie architektury neuronowej, jakie istniało wówczas, jest tak słabą wersją tego, że w porównaniu z tym jest całkowicie bezużyteczne w swojej własnej kategorii” – napisał. „To *prawdziwy* LLM, który pisze dowolny kod, uczy się na podstawie poprzednich eksperymentów i ma dostęp do Internetu. To nawet nie jest blisko”.


