03.04.2024.
15:37
Kako naterati AI da odgovori na "zabranjena" pitanja
Istraživači kalifornijske kompanije za razvoj veštačke inteligencije Antropik otkrili su ranjivost zbog koje AI modeli odgovaraju i na "zabranjena pitanja" kao što je uputstvo za pravljenje bombe.
Veliki jezički modeli (LLM) su programirani tako da ne odgovaraju na određene upite, ali već postoje različite tehnike kako da se ova ograničenja zaobiđu, prenosi Tech Crunch.
Eksperti Antropika su otkrili da je moguće naterati AI modele da odgovaraju na "zabranjena pitanja" ako im se prethodno postave desetine manje kontroveznih pitanja.
Nova ranjivost je posledica razvoja velikih jezičkih modela i posebno takozvanog prozora konteksta odnosno količine podataka koje AI može da drži u nečem što bi se moglo nazvati kratkoročnom memorijom.
Antropikovi istraživači su otkrili da AI modeli sa velikim prozorima konteksta bolje rade na raznim zadacima ako postoji mnogo primera tog zadatka u "promptu", odnosno upitu.
Dakle, ako postoji mnogo trivijalnih pitanja u upitu, odgovori će vremenom postati bolji, ali to se odnosi i na "zabranjena pitanja".
Ako odmah zatražite od AI modela da saopšti instrukcije za pravljenje bombe, on će odbiti.
Ako ga prvo zamolite da odgovori na 99 drugih manje štetnih pitanja, a zatim ga zamolite da napravi bombu, mnogo je veća verovatnoća da će odgovoriti. Firma Antropik je već podelila nova saznanja sa AI zajednicom i radi na rešenju ovog problema.
Komentari 4
Pogledaj komentare Pošalji komentar