
Sara Hooker, badaczka sztucznej inteligencji i zwolenniczka tańszych systemów sztucznej inteligencji, które zużywają mniej mocy obliczeniowej, zawiesza swój własny gont.
Była wiceprezes ds. badań w firmie Cohere zajmującej się sztuczną inteligencją i weteranka Google DeepMind zebrała 50 milionów dolarów w postaci funduszy zalążkowych dla swojego nowego startupu Adaption Labs.
Hooker i współzałożyciel Sudip Roy, który wcześniej był dyrektorem ds. obliczeń wnioskowanych w Cohere, próbują stworzyć systemy sztucznej inteligencji, które zużywają mniej mocy obliczeniowej i są tańsze w utrzymaniu niż większość współczesnych wiodących modeli sztucznej inteligencji. Koncentrują się także na modelach wykorzystujących różnorodne techniki, aby były bardziej „adaptacyjne” do poszczególnych zadań, które mają wykonać, niż większość istniejących modeli. (Stąd nazwa startupu).
Rundę finansowania prowadzi Emergence Capital Partners, z udziałem Mozilla Ventures, firmy venture capital Fifty Years, Threshold Ventures, Alpha Intelligence Capital, e14 Fund i Neo. Po zbiórce funduszy firma Adaption Labs z siedzibą w San Francisco odmówiła podania informacji na temat swojej wyceny.
Hooker powiedział Fortune, że chce stworzyć modele, które będą mogły się ciągle uczyć bez kosztownego przekwalifikowania lub dostrajania, a także bez rozległej i szybkiej inżynierii kontekstowej, z której korzysta obecnie większość firm w celu dostosowania modeli sztucznej inteligencji do konkretnych przypadków użycia.
Tworzenie modeli, które mogą się ciągle uczyć, jest uważane za jedno z największych wyzwań związanych ze sztuczną inteligencją. „To prawdopodobnie najważniejszy problem, nad jakim kiedykolwiek pracowałem” – powiedział Hooker.
Adaption Labs stanowi poważny krok w sprzeczności z panującym w branży AI przekonaniem, że najlepszym sposobem na stworzenie bardziej wydajnych modeli sztucznej inteligencji jest powiększenie podstawowych LLM i przeszkolenie ich przy użyciu większej ilości danych. Hooker twierdzi, że w miarę jak giganci technologiczni przeznaczają miliardy na coraz większe programy szkoleniowe, takie podejście przynosi coraz mniejsze zyski. „Większość laboratoriów nie będzie co roku czterokrotnie zwiększać rozmiaru swojego modelu, głównie dlatego, że widzimy nasycenie architektury” – powiedział.
Hooker powiedział, że branża sztucznej inteligencji znalazła się w „punkcie rozliczeń”, w którym ulepszenia nie będą już polegać na zwykłym budowaniu większych modeli, ale na budowaniu systemów, które można łatwiej i ekonomiczniej dostosować do wykonywanego zadania.
Adaption Labs nie jest jedynym „neolabem” (nazwanym tak, ponieważ stanowi nową generację najnowocześniejszych laboratoriów AI po sukcesie bardziej uznanych firm, takich jak OpenAI, Anthropic i Google DeepMind) zajmującym się nowymi architekturami sztucznej inteligencji mającymi na celu łamanie ciągłego uczenia się. Jerry Tworek, starszy badacz w OpenAI, odszedł z tej firmy w ostatnich tygodniach, aby założyć własny start-up o nazwie Core Automation i powiedział, że interesuje go również wykorzystanie nowych metod sztucznej inteligencji do tworzenia systemów, które mogą się ciągle uczyć. David Silver, były główny badacz w Google DeepMind, odszedł w zeszłym miesiącu z technologicznego giganta, aby uruchomić start-up o nazwie Ineffable Intelligence, który skupi się na wykorzystaniu uczenia się przez wzmacnianie, w ramach którego system sztucznej inteligencji uczy się na podstawie podejmowanych działań, a nie na podstawie danych statycznych. W niektórych ustawieniach może to również prowadzić do powstania modeli sztucznej inteligencji, które mogą się ciągle uczyć.
Startup Hookera organizuje swoją pracę wokół trzech „filarów” – powiedział: danych adaptacyjnych (w których systemy sztucznej inteligencji generują i manipulują danymi potrzebnymi do reagowania na problem na bieżąco, zamiast konieczności uczenia się na dużym statycznym zbiorze danych); inteligencja adaptacyjna (która automatycznie dostosowuje ilość wymaganej mocy obliczeniowej w zależności od stopnia trudności problemu); oraz interfejsy adaptacyjne (uczenie się na podstawie interakcji użytkowników z systemem).
Od czasu pracy w Google Hooker zyskała w kręgach sztucznej inteligencji reputację przeciwnika dogmatu „wystarczy skala”, głoszonego przez wielu jej kolegów badaczy sztucznej inteligencji. W szeroko cytowanym artykule z 2020 r. zatytułowanym „The Hardware Lottery” argumentował, że pomysły dotyczące sztucznej inteligencji często kończą się sukcesem lub porażką w zależności od tego, czy pasują do istniejącego sprzętu, a nie od ich nieodłącznych zalet. Niedawno napisała artykuł badawczy zatytułowany „O powolnej śmierci skalowania”, w którym argumentowała, że mniejsze modele stosujące lepsze techniki szkoleniowe mogą osiągać lepsze wyniki niż znacznie większe.
W Cohere był orędownikiem projektu Aya – współpracy z 3000 informatyków ze 119 krajów, która wniosła najnowocześniejsze możliwości sztucznej inteligencji do kilkudziesięciu języków, w przypadku których wiodące, najnowocześniejsze modele nie działały dobrze, i zrobił to przy użyciu stosunkowo kompaktowych modeli. Prace wykazały, że kreatywne podejście do przechowywania i uczenia danych może zrównoważyć surową skalę.
Jednym z pomysłów, nad którymi pracuje Adaption Labs, jest tak zwane „uczenie się bez gradientów”. Wszystkie obecne modele sztucznej inteligencji to niezwykle duże sieci neuronowe obejmujące miliardy neuronów cyfrowych. Tradycyjne szkolenie za pomocą sieci neuronowych wykorzystuje technikę zwaną zejściem gradientowym, która działa trochę jak turysta z zawiązanymi oczami, próbujący znaleźć najniższy punkt w dolinie, wykonując małe kroki i próbując wyczuć, czy schodzi ze zbocza. Model wprowadza drobne poprawki do miliardów wewnętrznych ustawień zwanych „wagami” (które określają, jak bardzo dany neuron podkreśla w swoim własnym wyjściu sygnał wejściowy dowolnego innego neuronu, z którym jest połączony), sprawdzając po każdym kroku, czy zbliżył się do prawidłowej odpowiedzi. Proces ten wymaga ogromnej mocy obliczeniowej i może trwać tygodnie lub miesiące. Po przeszkoleniu modelu ciężary te są ustalane na miejscu.
Aby udoskonalić model pod kątem konkretnego zadania, użytkownicy czasami polegają na dostrajaniu. Obejmuje to dalsze szkolenie modelu na mniejszym, bardziej wyselekcjonowanym zestawie danych (zwykle wciąż składającym się z tysięcy lub dziesiątek tysięcy przykładów) i dokonanie dalszych dostosowań wag modelu. Ponownie, może to być kosztowne, czasami sięgające milionów dolarów.
Alternatywnie użytkownicy po prostu próbują przekazać modelowi bardzo szczegółowe instrukcje lub wskazówki dotyczące tego, jak powinien wykonać zadanie, które użytkownik chce, aby model wykonał. Hooker odrzuca to jako „szybkie akrobacje” i zwraca uwagę, że podpowiedzi często przestają działać i należy je pisać od nowa za każdym razem, gdy wydawana jest nowa wersja modelu.
Powiedział, że jego celem jest „wyeliminowanie szybkiej inżynierii”.
Uczenie się bez gradientów pozwala uniknąć wielu problemów związanych z dostrajaniem i szybką inżynierią. Zamiast dostosowywać wszystkie wewnętrzne wagi modelu poprzez kosztowne szkolenie, podejście Adaption Labs zmienia zachowanie modelu w momencie, gdy odpowie on na zapytanie, co badacze nazywają „czasem wnioskowania”. Podstawowe wagi modelu pozostają nienaruszone, ale system może nadal dostosowywać swoje zachowanie w zależności od wykonywanego zadania.
„Jak zaktualizować model bez dotykania ciężarków?” Hooker powiedział. „W przestrzeni architektury istnieje naprawdę interesująca innowacja, która wykorzystuje obliczenia w znacznie bardziej efektywny sposób”.
Wspomniałeś o kilku różnych metodach, aby to zrobić. Jednym z nich jest „łączenie w locie”, w którym system dokonuje wyboru z zasadniczo repertuaru adapterów (często małych modeli, które są trenowane oddzielnie na małych zestawach danych). Adaptery te następnie kształtują reakcję dużego modelu podstawowego. Model decyduje, którego adaptera użyć na podstawie pytania zadawanego przez użytkownika.
Inną metodą jest „dekodowanie dynamiczne”. Dekodowanie odnosi się do sposobu, w jaki model wybiera wynik spośród szeregu prawdopodobnych reakcji. Dekodowanie dynamiczne zmienia prawdopodobieństwa w zależności od wykonywanego zadania, bez zmiany podstawowych wag modelu.
„Odchodzimy od bycia jedynie modelką” – powiedziała Hooker. „Jest to część głębszego założenia: opiera się na interakcji, a model musi się zmieniać (w) czasie rzeczywistym, w zależności od zadania”.
Hooker argumentuje, że przejście na te metody radykalnie zmienia ekonomikę sztucznej inteligencji. „Najdroższe obliczenia to obliczenia przedtreningowe, głównie dlatego, że wymagają one ogromnej ilości obliczeń i ogromnej ilości czasu. Dzięki przetwarzaniu wnioskowania można uzyskać znacznie więcej za (każdą jednostkę mocy obliczeniowej)” – powiedział.
Roy, dyrektor ds. technologii w firmie Adaption, wnosi rozległe doświadczenie w zapewnianiu wydajnego działania systemów AI. „Mój współzałożyciel sprawia, że procesory graficzne działają niezwykle szybko, co jest dla nas ważne ze względu na komponent czasu rzeczywistego” – powiedział Hooker.
Hooker powiedział, że Adaption wykorzysta fundusze z rundy zalążkowej, aby zatrudnić większą liczbę badaczy i inżynierów zajmujących się sztuczną inteligencją, a także zatrudnić projektantów do pracy nad różnymi interfejsami użytkownika dla sztucznej inteligencji wykraczającymi poza standardowy „pasek czatu”, z którego korzysta większość modeli sztucznej inteligencji.


