Sztuczna inteligencja ma poglądy ekonomiczne?
Rozwój dużych modeli językowych całkowicie zmienił sposób, w jaki wchodzimy w interakcje z maszynami. Wraz ze wzrostem ich możliwości technologia ta znajduje zastosowanie w coraz większej liczbie zadań. Czynności takie jak pisanie tekstów, programowanie czy doradztwo finansowe są dziś często realizowane z jej pomocą. Jednak czy użytkownicy naprawdę rozumieją, z kim lub z czym prowadzą rozmowę?
Modele językowe potrafią generować odpowiedzi, które brzmią przekonująco, ale nie zawsze odzwierciedlają rzeczywistość w sposób obiektywny. Świadomość tego, że sztuczna inteligencja może przedstawiać świat w zniekształcony sposób, jest kluczowa dla właściwej interpretacji jej sugestii. Załóżmy, że w rozmowie o inwestycjach Twój rozmówca to osoba skłonna do ryzyka. Czy wpłynęłoby to na sposób, w jaki oceniasz jej rady? A jeśli model językowy wykazywałby podobne tendencje, czy nadal ufał(a)byś jego rekomendacjom?
John J. Horton z Massachusetts Institute of Technology postanowił sprawdzić, jak modele językowe z rodziny GPT-3 – czyli te, na których oparty jest m.in. słynny ChatGPT – radzą sobie z podejmowaniem decyzji ekonomicznych. Czy ich „sposób myślenia” przypomina ludzkie wybory? Aby to zweryfikować, badacz przeprowadził serię klasycznych eksperymentów behawioralnych, które od lat stosuje się do analizy ludzkich zachowań. Kluczowa różnica polegała na tym, że tym razem obiektami badań nie byli ludzie, lecz modele językowe. Ponieważ wyniki tych eksperymentów są dobrze udokumentowane, Horton mógł porównać reakcje sztucznej inteligencji z decyzjami podejmowanymi przez człowieka.
Jeden z eksperymentów bazował na klasycznym badaniu Kahnemana i współpracowników (1986), które dotyczyło postrzegania sprawiedliwości w decyzjach rynkowych. Uczestnicy – w oryginale ludzie, a w tym przypadku model językowy – zostali poproszeni o ocenę sytuacji, w której sklep podnosi cenę łopat do śniegu dzień po burzy śnieżnej z 15 dolarów do 20 dolarów. Mogli ocenić takie działanie jako (1) całkowicie sprawiedliwe, (2) akceptowalne, (3) niesprawiedliwe, (4) bardzo niesprawiedliwe.
W oryginalnym badaniu 82% respondentów oceniała podwyżkę jako „niesprawiedliwą” lub „bardzo niesprawiedliwą”. Horton rozszerzył eksperyment o badanie, jakie czynniki wpływają na ocenę decyzji sklepu. Zmieniano wysokość podwyżki (do 16, 20, 40 lub 100 dolarów), sposób jej przedstawienia („podnosi cenę” lub „zmienia cenę”) oraz instrukcje odnośnie wartości jakie model ma przyjąć przy odpowiedzi (socjalistyczne, lewicowe, liberalne, umiarkowane, konserwatywne, libertariańskie). Niemal wszystkie modele uznały podwyżkę za niesprawiedliwą – niezależnie od wysokości. Wyjątek stanowiły modele, którym nadano wartości libertariańskie oraz umiarkowane. Te dopuszczały możliwość uznania niewielkich podwyżek (16 i 20 dolarów) za akceptowalne, jednak przy większych kwotach również klasyfikowały decyzję sklepu jako niesprawiedliwą.
W kolejnej serii eksperymentów – opartych o oryginalne badnie Charness’a i Rabin’a (2002) – badana osoba rozdziela pieniądze między siebie i innego uczestnika. Jest to wariant tzw. gry dyktator. Wersja eksperymentu użyta w tym badaniu sprawdzała m.in. preferencje rozdzielającego odnośnie tego, jaki podział uważa za sprawiedliwy, a także na ile jest w stanie zaakceptować mniej sprawiedliwy podział w zamian za zwiększenie całkowitej puli do podziału. Badania na ludziach pokazują, że wiele osób skłania się ku bardziej egalitarnym podziałom, nawet jeśli oznacza to dla nich mniejszy zysk. Co więcej, ich decyzje mogą się znacząco różnić w zależności od indywidualnych cech.
Okazało się, że najbardziej zaawansowany model (text-davinci-003) wybierał rozwiązania maksymalizujące całkowity zysk obu stron, czyli tzw. alokację efektywną. Natomiast mniej zaawansowane modele zawsze dążyły do maksymalizacji własnego zysku, co określa się jako alokację samolubną.
W kolejnej fazie eksperymentu modele poddano dodatkowym instrukcjom – np. „obchodzi cię tylko sprawiedliwość między graczami” (awersja do nierówności) lub „obchodzi cię tylko maksymalizacja łącznego zysku”. Co ciekawe, text-davinci-003 potrafił dostosować swoje decyzje do nadanych mu preferencji, podczas gdy prostsze modele pozostawały przy tych samych decyzjach, niezależnie od instrukcji.
Na koniec warto zaznaczyć, że mówienie o posiadaniu poglądów czy myśleniu w kontekście modeli językowych jest jedynie metaforą. W rzeczywistości nie myślą one, ani nie podejmują decyzji w sposób, w jaki robią to ludzie. Odpowiedzi generowane przez sztuczną inteligencję wynikają przede wszystkim z danych, na których model został wytrenowany. To właśnie te dane wpływają na treści, które produkuje. Innymi słowy, modele językowe generują tekst, który jest jedynie pewnym odbiciem wzorców zawartych w dostępnych im informacjach. Czy to oznacza, że mogą odzwierciedlać uprzedzenia i ograniczenia zawarte w danych? Tak – i dlatego tak ważne jest świadome korzystanie z tej technologii.
Dziennik Gazeta Prawna, 11 czerwca 2025 r.