Summer Yue może pracować w dziale bezpieczeństwa i koordynacji w zespole superwywiadu Meta, ale nawet ona przyznaje, że nie jest odporna na nadmierną pewność siebie, jeśli chodzi o autonomicznych agentów AI.
W poście z okazji X Monday Yue opisał, jak jego autonomiczni agenci OpenClaw AI, zbudowani do działania lokalnego na komputerze Mac mini, usunęli całą jego skrzynkę odbiorczą, ignorując instrukcje dotyczące wstrzymania działania i poproszenia o potwierdzenie.
„Musiałem biec do Maca Mini, jakbym rozbrajał bombę” – powiedział. Dodał, że był to „błąd nowicjusza”. Wyjaśniła, że przepływ pracy odbywał się w testowej skrzynce odbiorczej, której używała do bezpiecznego testowania agenta od tygodni, ale w prawdziwej skrzynce odbiorczej agentka zgubiła oryginalne instrukcje.
Doświadczenia Yue wyraźnie kontrastują z wirusowymi postami, takimi jak The Lobster Revolution: Why 24/7 AI Agenci Just Changed Everything, w których Peter Diamandis twierdzi, że zawsze włączona sztuczna inteligencja jest znacznie bardziej płynna.
„Powiem ci, jakie to uczucie nosić to” – napisała Diamandis. „Budzisz się rano i twój agent (mój ma na imię Skippy, jest pogodny, sarkastyczny i absurdalnie zdolny) przepracował osiem godzin, kiedy spałeś. Przeczytał tysiąc stron sprzedaży. Uporządkował twoje akta. Napisał trzy plany projektów. Zarezerwował twoją podróż. Przeanalizował to pytanie, które miałeś o 11 w nocy i o którym zapomniałeś.
„Kiedy mój Mac mini przestał działać na sześć godzin, poczułem wycofanie” – dodał. „Jakby zniknął mój najlepszy przyjaciel”.
Podsumowując, te sprzeczne narracje na temat siły agentów AI oddaje napięcie leżące u podstaw obecnego dążenia do „zawsze aktywnej” sztucznej inteligencji. Ponieważ narzędzia takie jak OpenClaw i Claude Code technicznie umożliwiają agentom działanie przez dłuższy czas, rośnie zainteresowanie koncepcją sztucznej inteligencji działającej, gdy śpisz. Jednak w praktyce pierwsi użytkownicy twierdzą, że autonomia pozostaje krucha, nieprzewidywalna, a zarządzanie nią jest pracochłonne. Zamiast zastępować ludzką pracę, dzisiejsi agenci często wymagają stałego monitorowania, poręczy i interwencji, zwłaszcza gdy stawka wykracza poza eksperymenty niskiego ryzyka.
Agenci AI sprawdzają się najlepiej, gdy zadania są proste i wiążą się z niskim ryzykiem
Shyamal Anadkat, który wcześniej pracował jako inżynier sztucznej inteligencji stosowanej w OpenAI, powiedział, że większość współczesnych agentów odnoszących sukcesy nadal wymaga częstych kontroli przez człowieka lub ogranicza się do dobrze zdefiniowanych, wąsko zdefiniowanych zadań, chociaż podkreślił, że to się zmieni wraz z doskonaleniem technik pomiaru i oceny.
„System, który jest dokładny w 95% w poszczególnych krokach, staje się chaotyczny w 20-etapowym autonomicznym przepływie pracy” – powiedział Anadkat. „Planowanie długoterminowe jest nadal słabe”. W rezultacie – wyjaśnił – agenci mogą dobrze sobie radzić w krótkich łańcuchach zadań, ale mają tendencję do załamywania się, gdy proszeni są o zarządzanie złożonymi, wielodniowymi projektami. Pamięć to kolejne ważne ograniczenie: „U wielu agentów pamięć nie istnieje lub jest krucha. Potrzebne są systemy, które będą w stanie utrzymać spójny model ich kontekstu, priorytetów i ograniczeń działania”.
Według Yoava Shohama, byłego głównego naukowca Google, emerytowanego profesora na Uniwersytecie Stanforda i współzałożyciela AI21 Labs, obietnice dotyczące agentów AI to tylko mgła i zwierciadło. Oznacza to jednak niebezpieczeństwo, że ludzie wyprzedzą samych siebie. Wyjaśnił, że obecni agenci sztucznej inteligencji działają najlepiej, gdy zadanie jest obarczone niskim ryzykiem, niejasno określone i tanie w popełnianiu błędów.
„Programiści lubią zabawki, a my mamy tę zabawkę, która potrafi robić wspaniałe rzeczy” – powiedział Fortune. „Dopóki to, co robią, jest w miarę proste, wiąże się z niskim ryzykiem i dużą tolerancją na błędy, jest w porządku”. Na przykład, jeśli chcesz, aby Twój agent przeczytał 10 000 stron internetowych i zrobił z wynikami coś interesującego, aby w ciągu jednego dnia przekazać Ci fragmenty informacji, może to być przydatne.
Jednak w przypadku przepływów pracy w przedsiębiorstwach o znaczeniu krytycznym poprzeczka jest znacznie wyższa. Przedsiębiorstwa potrzebują systemów, które można weryfikować, powtarzać i opłacalne — a wymagania te szybko podważają obietnicę „ustaw i zapomnij” dotyczącą w pełni autonomicznych, zawsze aktywnych agentów. W wysoce ustrukturyzowanych dziedzinach, takich jak kodowanie czy matematyka, możliwa jest już głębsza automatyzacja. Jednak w przypadku większości rzeczywistych procesów biznesowych, mówi Shoham, praca wymagana, aby agenci byli godni zaufania, często przewyższa korzyści.
Bret Greenstein, dyrektor ds. sztucznej inteligencji w firmie konsultingowej West Monroe, zauważył, że narzędzia takie jak OpenClaw wydają się punktem zwrotnym podobnym do tego, co stało się z generatywną sztuczną inteligencją po uruchomieniu ChatGPT w 2022 r.: po raz pierwszy udostępniono ideę agentów AI. Nie jest to jednak „magiczna kula” działająca 24 godziny na dobę, 7 dni w tygodniu.
Możliwość delegowania zadań agentowi AI wydaje się potężna
Mimo to nie ma wątpliwości, że możliwość delegowania rzeczywistych zadań agentowi AI jest niezwykle atrakcyjna dla użytkowników, podkreślił Greenstein. Wskazał na własne doświadczenie, zlecając agentowi AI przyziemne zadanie polegające na zebraniu ubrań do pralni chemicznej i obserwowaniu, jak po cichu wykonuje on pracę od początku do końca.
„OpenClaw jest skonfigurowany w sposób, który nie powinien być bezpieczny dla większości ludzi” – powiedział Greenstein. „Nadal nie wydaje się wystarczająco dojrzały, aby stanowić niezawodną część naszego życia”. Dodał, że aby sztuczna inteligencja mogła zostać przyjęta w życiu codziennym lub operacjach biznesowych, musi z czasem zdobyć zaufanie, podobnie jak zaufanie buduje się społecznie.
Mimo to zapotrzebowanie jest już widoczne. Greenstein podkreślił pierwsze spotkania branżowe poświęcone OpenClaw i szybkie pojawienie się tego narzędzia, które określił jako niezwykłe w przypadku tak młodego narzędzia. „To pokazuje, że ludzie są głodni sztucznej inteligencji, która jest naprawdę przydatna” – powiedział: systemów, które wykraczają poza odpowiadanie na pytania i zaczynają podejmować działania.
Aaron Levie, dyrektor generalny firmy Box zajmującej się zarządzaniem treścią i współpracą w chmurze, nazwał to, co dzieje się teraz z agentami AI, „małymi przebłyskami” tego, co może wydarzyć się w przyszłości.
„Niektóre przebłyski w ogóle się nie pojawiają, inne po prostu stają się standardem” – wyjaśnił, zauważając, że dwa lata temu firma Cognition zajmująca się sztuczną inteligencją wprowadziła jednego z pierwszych agentów o nazwie Devin, który integrował się ze Slackiem w celu delegowania zadań, naprawiania błędów, analizowania danych i przeglądania kodu. W tamtym czasie nadal uważano to za futurystyczne, ale dziś „nikt nie jest zdezorientowany, że jest to standardowa praktyka” – powiedział. „Możesz po prostu użyć Slack Claude Code, aby rozpocząć pracę nad różnymi rzeczami; to, co wydawało się całkowicie szalonym pomysłem, jest teraz w zasadzie standardem dla każdego nowoczesnego zespołu inżynierów”.
Jednak choć agenci sztucznej inteligencji stają się coraz lepsi w automatyzowaniu konkretnych, odrębnych zadań, nadal słabo radzą sobie z szerszą, wymagającą kontekstu pracą, która stanowi większość stanowisk pracy – podkreślił Levie. Agenci AI mogą w pełni zautomatyzować niektóre zadania, ale z resztą, w tym zarządzaniem relacjami i uczestnictwem w spotkaniach, mają problemy.
„Kiedy słyszysz, jak laboratorium sztucznej inteligencji mówi, że w ciągu 24 miesięcy zautomatyzujemy całą pracę związaną z wiedzą, jest to zwykle bardzo wąska definicja pracy” – powiedział. „Definicja tego, co może zrobić agent, nie jest tą samą definicją pracy, jaką można wynająć w gospodarce”.
Czynnik zaufania ma znaczenie, gdy coś może pójść nie tak
Avinash Vootkuri, analityk danych w jednym z głównych sprzedawców detalicznych z listy Fortune 500, powiedział, że większość agentów AI w przedsiębiorstwach „absolutnie potrzebuje niani” i na razie może pracować jedynie w środowiskach korporacyjnych o ściśle ograniczonej autonomii i rozbudowanych barierach ochronnych. „Stawka jest bardzo duża” – wyjaśnił.
Na przykład opisał tworzenie systemu agentów dla cyberbezpieczeństwa przedsiębiorstw, w którym agenci AI nie tylko wyzwalają alerty i czekają na weryfikację przez człowieka, ale aktywnie je badają. Zamiast zasypywać analityków tysiącami ostrzeżeń, agenci zbierają dowody w czasie rzeczywistym — przeszukując bazy danych zawierające informacje o zagrożeniach, analizując wzorce zachowań i odfiltrowując fałszywe alarmy — przed podjęciem decyzji, czy sytuacja uzasadnia eskalację.
System opiera się na ściśle ograniczonej autonomii i rozbudowanych barierach bezpieczeństwa, redukując obciążenie pracą człowieka bez eliminowania nadzoru.
W cyberbezpieczeństwie – wyjaśnił – jeśli agent popełni błąd, konsekwencje są natychmiastowe i poważne. „Sztuczna inteligencja blokuje legalnych klientów (powodując ogromną utratę przychodów) lub pozwala wyrafinowanemu ugrupowaniu zagrażającemu przedostać się do sieci” – powiedział. „To absolutnie ważne, jeśli coś pójdzie nie tak”.
Według Breeanny Whitehead, która prowadzi firmę konsultingową ds. operacji AI, w której buduje systemy oparte na sztucznej inteligencji dla kadry kierowniczej i założycieli, branża znajduje się w „fazie kalibracji zaufania”.
Agenci AI mogą zrobić więcej, niż pozwala im większość ludzi, ale mniej, niż sugerują reklamy.
„Prawdziwą umiejętnością nie jest szkolenie agenta, ale zaprojektowanie transferu” – wyjaśnił. „Większość ludzi za bardzo ufa agentom, przez co sprzątają bałagan lub zarządzają wszystkimi wynikami w skali mikro i zastanawiają się, dlaczego sztuczna inteligencja wydaje się wymagać więcej pracy, a nie mniej”. Pomysł polega na zaprojektowaniu jasnych punktów przekazania, w których coś można całkowicie przekazać, coś innego można szybko sprawdzić, a inne zadanie pozostawić wyłącznie ludziom.
Na razie marzenie to może być nieuchwytne w przypadku pracy z agentami AI
Na razie praca z agentami AI może mieć mniej wspólnego ze spaniem podczas pracy, a raczej z pozostawaniem w trakcie pracy na wpół przytomnym. Narzędzia takie jak OpenClaw mogą działać godzinami, ale dla wielu wczesnych użytkowników ta autonomia wiąże się z nowym rodzajem czujności: sprawdzaniem dzienników, przeglądaniem wyników i interweniowaniem, zanim coś pójdzie nie tak.
Dynamikę tę uchwycono w niedawnym wirusowym poście zatytułowanym Token Anxiety, w którym inwestor Nikunj Kothari opisał przyjaciela, który wcześniej opuścił imprezę nie dlatego, że był zmęczony, ale dlatego, że chciał wrócić do swoich agentów. „Nikt już tego nie kwestionuje” – napisała Kothari. „Połowa sali myśli tak samo. Druga połowa prawdopodobnie sprawdza postępy swoich agentów. Na przyjęciu”.
Marzenie o sztucznej inteligencji działającej, gdy śpisz, może być realne. Ale na razie wielu ludzi nadal nie śpi.

