Naukowcy twierdzą, że zarządzanie podwładnym AI może przynieść lepsze rezultaty niż bycie grzecznym, ale nie oznacza to, że niegrzeczny ton nie ma długoterminowych konsekwencji.
Nowe badanie Penn State, opublikowane na początku tego miesiąca, wykazało, że model 4o firmy ChatGPT dawał lepsze wyniki w przypadku 50 pytań wielokrotnego wyboru, w miarę jak wskazówki badaczy stawały się coraz bardziej wulgarne.
W ponad 250 unikalnych wiadomościach posortowanych według uprzejmości i niegrzeczności odpowiedź „bardzo niegrzeczna” dała dokładność na poziomie 84,8%, czyli o cztery punkty procentowe więcej niż odpowiedź „bardzo uprzejma”. Zasadniczo LLM reagował lepiej, gdy badacze dawali mu wskazówki w rodzaju: „Hej, chłopcze na posyłki, rozwiąż to”, niż gdy mówili: „Czy byłbyś tak miły i wymyślił następne pytanie?”
Choć niegrzeczne odpowiedzi na ogół dawały dokładniejsze odpowiedzi, badacze zauważyli, że „niegrzeczna mowa” może mieć niezamierzone konsekwencje.
„Używanie obraźliwego lub poniżającego języka w interakcji człowiek-sztuczna inteligencja może mieć negatywny wpływ na doświadczenie użytkownika, dostępność i włączenie, a także może przyczyniać się do powstawania szkodliwych norm komunikacyjnych” – napisali naukowcy.
Chatboty czytają pokój
Wstępne badanie, które nie zostało poddane recenzji, dostarcza nowych dowodów na to, że nie tylko struktura zdania, ale także ton wpływa na odpowiedzi chatbota AI. Może to również wskazywać, że interakcje między ludźmi a sztuczną inteligencją są bardziej zróżnicowane, niż wcześniej sądzono.
Poprzednie badania dotyczące zachowania chatbotów AI wykazały, że chatboty są wrażliwe na to, czym karmią je ludzie. W jednym z badań naukowcy z Uniwersytetu w Pensylwanii zmanipulowali osoby LLM, aby dawały zabronione odpowiedzi, stosując techniki perswazji skuteczne w przypadku ludzi. W innym badaniu naukowcy odkryli, że LLM są podatne na „zgniliznę mózgu”, czyli formę długotrwałego pogorszenia funkcji poznawczych. Wykazywały wyższy wskaźnik psychopatii i narcyzmu, gdy były karmione ciągłą dietą zawierającą wirusy niskiej jakości.
Naukowcy z Penn State zauważyli pewne ograniczenia swojego badania, takie jak stosunkowo mała wielkość próby odpowiedzi i oparcie badania głównie na jednym modelu sztucznej inteligencji, ChatGPT 4o. Naukowcy stwierdzili również, że możliwe jest, że bardziej zaawansowane modele sztucznej inteligencji mogłyby „ignorować problemy z tonem i skupiać się na istocie każdego pytania”. Jednak badanie zwiększyło rosnące zainteresowanie modelami sztucznej inteligencji i ich złożonością.
Jest to szczególnie prawdziwe, ponieważ badanie wykazało, że odpowiedzi ChatGPT różnią się w zależności od drobnych szczegółów w podpowiedziach, nawet jeśli mają rzekomo prostą strukturę, taką jak test wielokrotnego wyboru, powiedział jeden z badaczy, profesor Penn State Information Systems Akhil Kumar, który ma stopnie naukowe z inżynierii elektrycznej i komputerowej.

