Garść błędnych danych może „zatruć” nawet największe modele sztucznej inteligencji – ostrzegają naukowcy | Fortuna

Witamy w Eye on AI… W tym wydaniu: Nowe badanie Anthropic pokazuje, że nawet największe modele AI można “zatruć” zaledwie kilkoma setkami dokumentów… Umowa OpenAI z Broadcom… Sora 2 i problem AI… a amerykańskie firmy dużo wydają na AI.

Witam, tu Beatriz Nolan. Zastępuję Jeremy’ego, który w tym tygodniu ma zadanie. Niedawne badanie przeprowadzone przez firmę Anthropic we współpracy z brytyjskim Instytutem Bezpieczeństwa AI i Instytutem Alana Turinga przykuło moją uwagę na początku tego tygodnia. Badanie skupiało się na „zatruwaniu” modeli sztucznej inteligencji i podważało część obiegowych opinii w sektorze sztucznej inteligencji.

Badanie wykazało, że wprowadzenie zaledwie 250 nieprawidłowych dokumentów, czyli niewielkiej części w porównaniu z miliardami tekstów, z których uczy się model, może w tajemnicy wytworzyć lukę w zabezpieczeniach typu „backdoor” w dużych modelach językowych (LLM). Oznacza to, że nawet bardzo mała liczba złośliwych plików wstawianych do danych szkoleniowych może nauczyć model zachowywania się w nieoczekiwany lub szkodliwy sposób, gdy zostanie wywołany określoną frazą lub wzorcem.

Sam pomysł nie jest nowy; Badacze od lat wymieniają zatruwanie danych jako potencjalną lukę w uczeniu maszynowym, szczególnie w mniejszych modelach lub środowiskach akademickich. Zaskakujące było to, że naukowcy odkryli, że rozmiar modelu nie ma znaczenia.

Zarówno małe modele, jak i największe modele na rynku zostały dotknięte tą samą małą liczbą uszkodzonych plików, chociaż większe modele są szkolone przy użyciu znacznie większej całkowitej ilości danych. Zaprzecza to powszechnemu założeniu, że w miarę rozwoju modeli AI stają się one coraz bardziej odporne na tego typu manipulacje. Badacze zakładali wcześniej, że napastnicy będą musieli uszkodzić określony procent danych, co w przypadku większych modeli oznaczałoby miliony dokumentów. Badanie wykazało jednak, że nawet niewielka garść złośliwych dokumentów może „zainfekować” model, niezależnie od jego wielkości.

Naukowcy podkreślają, że w teście wykorzystano nieszkodliwy przykład (model wypluwał bełkotliwy tekst), który prawdopodobnie nie będzie stwarzał znaczącego ryzyka w pionierskich modelach. Odkrycia sugerują jednak, że ataki polegające na zatruwaniu danych mogą być znacznie łatwiejsze i bardziej płodne, niż początkowo zakładano.

Szkolenie w zakresie bezpieczeństwa można rozwijać po cichu

Co to wszystko oznacza w praktyce? Vasilios Mavroudis, jeden z autorów badania i starszy pracownik naukowy w Instytucie Alana Turinga, powiedział mi, że obawia się, że źli aktorzy mogą to eskalować.

„Jak to przekłada się na praktykę, można zobaczyć na dwóch przykładach. Jednym z nich jest to, że można mieć model, który po wykryciu na przykład określonej sekwencji słów rezygnuje ze szkolenia w zakresie bezpieczeństwa, a następnie zaczyna pomagać użytkownikowi w wykonywaniu złośliwych zadań” – powiedział Mavroudis. Innym ryzykiem, które go niepokoiło, była możliwość zaprojektowania modeli tak, aby odrzucały żądania od określonych grup populacji lub były dla nich mniej przydatne, po prostu poprzez wykrycie określonych wzorców w żądaniu lub słowach kluczowych.

„To byłby program kogoś, kto chce marginalizować lub atakować określone grupy” – powiedział. „Być może mówią określonym językiem, mają zainteresowania lub pytania, które ujawniają pewne rzeczy na temat danej kultury… i na tej podstawie można by uruchomić model, zasadniczo całkowicie odmawiając pomocy lub stając się mniej pomocny”.

„Dość łatwo jest wykryć model, który w ogóle nie reaguje. Ale jeśli model ma po prostu problemy, trudniej go wykryć” – dodał.

Nowe podejście do „łańcuchów dostaw” danych

W artykule sugeruje się, że tego typu zatruwanie danych może być skalowalne i stanowi ostrzeżenie, że potrzebne są silniejsze zabezpieczenia, a także dalsze badania nad sposobami zapobiegania i wykrywania zatruć.

Mavroudis sugeruje, że jednym ze sposobów rozwiązania tego problemu jest traktowanie przez firmy potoków danych w taki sam sposób, w jaki producenci traktują łańcuchy dostaw: dokładniejsze sprawdzanie źródeł, bardziej agresywne filtrowanie i wzmacnianie testów poszkoleniowych w celu wykrycia problematycznych zachowań.

„Mamy wstępne dowody sugerujące, że jeśli będziesz kontynuować szkolenie na czystych, sprawdzonych danych… pomoże to w rozbiciu czynników, które mogły zostać wprowadzone w ramach procesu do tego momentu” – powiedział. „Zwolennicy powinni przestać zakładać, że rozmiar zbioru danych jest wystarczający, aby sam je chronić”.

To dobre przypomnienie dla branży sztucznej inteligencji, notorycznie zaniepokojonej skalą, że większe nie zawsze oznacza bezpieczniejsze. Po prostu skalowalne modele nie zastąpią czystych i identyfikowalnych danych. Czasami okazuje się, że wystarczy kilka złych danych, aby zrujnować cały wynik.

Beatriz Nolan

FORTUNA W AI

Trzyosobowa organizacja non-profit, która pracowała nad kalifornijskim prawem dotyczącym bezpieczeństwa sztucznej inteligencji, publicznie oskarża OpenAI o taktyki znęcania się: Sharon Goldman

Wojny przeglądarek, cecha charakterystyczna świata technologii końca lat 90., powracają ze zdwojoną siłą dzięki sztucznej inteligencji, Beatrice Nolan i Jeremy’emu Kahnowi.

Były dyrektor generalny Apple twierdzi, że „sztuczna inteligencja nie jest szczególnie mocną stroną” technologicznego giganta i ostrzega, że ma on pierwszego dużego konkurenta od dziesięcioleci: Sasha Rogelberg

WIADOMOŚCI O AI OpenAI i Broadcom osiągnęły wielomilionową umowę na chipy AI. Dwóch gigantów technologicznych podpisało umowę o wspólnym opracowaniu i wdrożeniu 10 gigawatów niestandardowych chipów AI w ciągu najbliższych czterech lat. Ogłoszona w poniedziałek transakcja jest dla OpenAI sposobem na zaspokojenie rosnących potrzeb obliczeniowych w miarę skalowania produktów AI. Dzięki partnerstwu OpenAI zaprojektuje własne procesory graficzne, a Broadcom będzie je wspólnie opracowywać i wdrażać począwszy od drugiej połowy 2026 r. Po ogłoszeniu akcje Broadcom wzrosły o prawie 10%. Więcej przeczytasz w „Wall Street Journal”.

Zajęcie producenta chipów Nexperia przez rząd holenderski nastąpiło po ostrzeżeniu ze Stanów Zjednoczonych. Jak wynika z dokumentów sądowych cytowanych przez „Financial Times”, holenderski rząd przejął kontrolę nad producentem chipów Nexperia, kluczowym dostawcą niskomarżowych półprzewodników dla europejskiego przemysłu samochodowego, po tym, jak Stany Zjednoczone ostrzegłają, że pozostanie ona na waszyngtońskiej liście kontroli eksportu tak długo, jak jej chiński dyrektor generalny, Zhang Xuezheng, będzie sprawował władzę. Holenderski minister gospodarki Vincent Karremans zdymisjonował Zhanga na początku tego miesiąca, po czym powołał się na obowiązującą od 70 lat ustawę nadzwyczajną w celu przejęcia kontroli nad firmą, powołując się na „poważne braki w zarządzaniu”. Nexperia została sprzedana chińskiemu konsorcjum w 2017 roku, a później przejęta przez częściowo państwową firmę Wingtech. Spór zaostrzył się po tym, jak w czerwcu urzędnicy amerykańscy powiedzieli holenderskiemu rządowi, że wysiłki mające na celu oddzielenie europejskich operacji Nexperii od jej chińskiej własności postępują zbyt wolno. Więcej informacji znajdziesz w „Financial Times”.

Kalifornia staje się pierwszym stanem, który wprowadza regulacje dotyczące chatbotów towarzyszących AI. Gubernator Gavin Newsom podpisał ustawę SB 243, dzięki czemu jego rodzinny stan jako pierwszy wprowadził regulacje dotyczące chatbotów zasilanych sztuczną inteligencją. Nowe prawo nakłada na firmy takie jak OpenAI, Meta, Character.AI i Replika obowiązek wdrożenia środków bezpieczeństwa mających na celu ochronę dzieci i bezbronnych użytkowników przed potencjalnymi krzywdami. Wchodzi w życie 1 stycznia 2026 r. i wymaga weryfikacji wieku oraz protokołów postępowania w przypadku samobójstw i samookaleczeń. Wprowadza także nowe ograniczenia dotyczące chatbotów podszywających się pod pracowników służby zdrowia lub prowadzących rozmowy o charakterze jednoznacznie seksualnym z nieletnimi. Przeczytaj więcej w TechCrunch. BADANIA nad sztuczną inteligencją Z nowego raportu wynika, że amerykańskie firmy stawiają na sztuczną inteligencję. Coroczny raport o stanie sztucznej inteligencji wykazał, że generatywna sztuczna inteligencja przekracza „komercyjną przepaść”, a wdrażanie i utrzymywanie technologii sztucznej inteligencji rośnie wraz ze wzrostem wydatków. Według raportu, w którym przeanalizowano dane z indeksu Ramp AI Index, płatne wdrażanie sztucznej inteligencji wśród amerykańskich przedsiębiorstw wzrosło z 5% na początku 2023 r. do 43,8% we wrześniu 2025 r. Średnia wartość umów dla przedsiębiorstw również gwałtownie wzrosła z 39 000 do 530 000 dolarów, przy czym Ramp prognozuje kolejny 1 milion dolarów w 2026 r., gdy projekty pilotażowe zakończą się wdrożeniami na pełną skalę. Utrzymanie kohorty (odsetek klientów, którzy nadal korzystają z produktu w miarę upływu czasu) również rośnie: 12-miesięczna retencja wzrosła z 50% w 2022 r. do 80% w 2024 r., co sugeruje, że programy pilotażowe AI przechodzą w kierunku bardziej spójnych przepływów pracy.

21 i 22 października: TedAI San Francisco.

10–13 listopada: Szczyt internetowy, Lizbona.

26-27 listopada: Światowy Kongres AI, Londyn.

2-7 grudnia: NeurIPS, San Diego.

8–9 grudnia: Fortune Brainstorm AI San Francisco. Prośba o przybycie tutaj.

POKARM DLA MÓZGU

Śmierć sztuki wydaje się być mniejszym problemem niż nieuniknione rozprzestrzenianie się „śmieci” sztucznej inteligencji. Filmy generowane przez sztuczną inteligencję już zapełniają media społecznościowe, powodując szereg potencjalnych problemów związanych z bezpieczeństwem i dezinformacją, ale także stwarzają ryzyko osłabienia Internetu, jaki znamy. Jeżeli sieć zalewają masowo produkowane śmieci niskiej jakości, istnieje ryzyko usunięcia autentycznych treści ludzkich i odwrócenia uwagi od treści, z których wielu twórców zarabia na życie.

ca.spsingh22@gmail.com

Website | + posts

Garść błędnych danych może „zatruć” nawet największe modele sztucznej inteligencji – ostrzegają naukowcy | Fortuna

Koniecznie przeczytaj

Czy przy spadku o 50% akcje wzrostowe w moim ISA są skazane na porażkę?

Czy Jane Street manipuluje Bitcoinem? Wyjaśniono teorię wirusa

Linia lotnicza trwale odwołuje trzy trasy i oferuje zwrot pieniędzy

Goldman Sachs resetuje perspektywę obniżek stóp procentowych Fed pod rządami Warsha

ca.spsingh22@gmail.com

Najnowszy artykuł

Oficjalne uruchomienie ekosystemu Guardian

39-letnia sieć supermarketów zamknie 17 sklepów w 2026 roku

Dyrektor generalny Ripple mówił o możliwości wartej 13 bilionów dolarów, ale czy inwestorzy XRP na tym skorzystają?

Tempest Therapeutics, Inc. (TPST) raportuje zyski fiskalne za rok 2025 – Alphastreet

Aktualna cena ropy na dzień 30 marca 2026 r. | Fortuna

O nas

Popularna kategoria

Wybór redaktora

Czy warto skracać akcje Palantiru? Oto słowa analityków.

Dlaczego fundusz ETF Bitcoin Morgana Stanleya jest „najbardziej byczy w historii”: Jeff Park