The Alignment Problem

Brian Christian je napisao odličnu knjigu. Knjiga punog naziva: The Alignment Problem, Machine Learning And Human Values, metodološki je logično organizirana, a sadržajno nabijena. Možda i previše. Slušao sam ju u audio verziji (audiobook) i svako skretanje pažnje je uzrokovalo propuštanje poneke važne informacije, zbog čega sam neke dijelove ponavljao i nekoliko puta. Ne radi se samo o propuštanju činjenica ili primjera, već važnih logičkih veza, uzroka ili posljedica primjene konkretno navedenih ideja ili tehnika.

Iako su poglavlja prilično općenito, a meni se čini i pomalo nejasno nazvana, njihov sadržaj je jasan, logičan i razumljiv. Knjiga je, naime, podijeljena u tri dijela – Prophecy, Agency i Normativity. Radi se o sustavnoj obradi teme usklađivanja naprednih tehničkih sustava s ljudskim vrijednostima i ciljevima. Knjiga se bavi temama od prepoznavanja objekata, kategoriziranja, odnosno zaključivanja temeljem dostupnih podataka, preko diskusije načina i ograničenja učenja autonomnih sustava do principa i metoda prepoznavanja ljudskih namjera i zaštite od pogrešno protumačenih ciljeva.

Knjiga je prepuna informacija o osobama koje su bile ili su još uvijek uključene u istraživanja, o teoretskim temeljima, konkretnim istraživanjima ili eksperimentima, kao i o primjerima uspješne i neuspješne primjene AI koncepata. Sve te informacije vode čitatelja kroz najvažnija saznanja, kako starija tako i najnovija, i koja su nerijetko multidisciplinarna te predstavljaju presjek programskog (softverskog) inženjerstva, psihologije i filozofije. Doduše, od čitatelja se ne očekuje pretjerano tehničko znanje, ali se zbog količine informacija očekuje više nego prosječan interes za temu. Srećom, autor uspijeva vješto i logično voditi čitatelja kroz zahtjevno i brzo napredujuće područje – za što je bilo potrebno odlično poznavanje problema, ali i izrazito detaljna priprema – pa uopće ne čudi, kao što je autor u jednom razgovoru spomenuo, da je rad na knjizi trajao više od četiri godine.

Iznesene ideje su djelomično opće poznate, mnoge su samo načelno jasne, ali često zanemarene, dok se s nekima susrećem po prvi puta. Na primjer, jasno je da je koncept strojnog učenja, a onda kategoriziranja i uopće zaključivanja, izrazito ovisan o podacima na temelju kojih sustav uči. No, lako je zanemariti i ispustiti iz vida činjenicu, koja tek od nedavno postaje jasna, da su podaci kojima raspolažemo pristrani. Recimo, već je u našu uobičajenu svakodnevicu ugrađena rasna pristranost. Jedan od najpoznatijih primjera je Googleovo pogrešno kategoriziranje slike programera Jacky Alcine-a i njegove prijateljice kao gorila, uglavnom jer su tamne boje kože – nakon čega je Google isključio tu kategoriju iz podjele. Radi se o tome da su primjeri na kojima je Googleov algoritam učio prepoznavati kategorije bazirani na slikama, a to su slike neselektivno preuzete s Interneta i u golemoj većini slučajeva se radilo o ljudima bijele boje kože. Ne radi se o propustu algoritma, već o pristranosti ugrađenoj u podatke. Takva pristranost je suštinska – dio svijeta u kojem živimo. Neki puta je prepoznajemo, a često ne.

Zbog toga autor problem pristranosti povezuje s temom transparentnosti AI algoritama. Odnosno, ako imamo algoritme bazirane na neuronskim mrežama koje automatizirano – izvan naše izravne kontrole – provode kategorizaciju podataka, onda zbog pristranosti u podacima riskiramo pogrešnu kategorizaciju, nažalost bez ikakve mogućnosti da to prepoznamo. Recimo, kako znati da dijagnostika bazirana na automatski prikupljenim podacima ispravno detektira moguće oboljenje, a bez sumnje na skrivenu pristranost u podacima. Samo kao usputnu potporu tezi o nesigurnosti navodim činjenicu, spomenutu u knjizi, da je većina kliničkih istraživanja obavljena na muškarcima. Uglavnom, transparentnost AI odlučivanja je jedno od izrazito važnih područja istraživanja – a koje teži ili značajnom pojednostavljenju modela (salience) ili na vizualizaciji (features visualisation) procesa strojnog odlučivanja. Bez napretka u tom području, zbog napretka tehnologije i njenog ulaska u sve pore društva – otvaramo mogućnost greškama s ozbiljnim posljedicama.

Meni je posebno interesantan dio knjige koji se bavi strojnim učenjem. Cilj je, naravno, predvidjeti i usmjeravati ponašanje autonomnih sustava. Područje je izrazito kompatibilno s biheviorističkim teorijama s početka prošlog stoljeća, koje na ponašanje gledaju “izvana”, ne zamarajući se “psihološkim mehanizmima”, te u računicu uzimaju samo stimulirajuću nagradu, odnosno odbijajuću kaznu. Takvo viđenje rezultiralo je razvojem metoda osnažujućeg učenja (reinforced learning). Odnosno, implementacijom vrijednosne funkcije koja bi ponašanje usmjerila prema očekivanom cilju.

Tek u praksi, a to znači nedavno, ovakvi algoritmi su pokazali koliko je oblikovanje ponašanja kompleksno te da je unaprijed teško znati koje anomalije možemo očekivati. Na primjer, autonomni sustav koji je projektiran za “vožnju bicikla” – može kao konačni rezultat postići vožnju u krug. Slično kao što bi dijete, ako mu je obećana nagrada za skupljanje igračaka u kutiju, moglo tu kutiju nakon što ju napuni igračkama, radi dodatne nagrade, ponovo istresti na pod. Zbog toga se algoritmi dalje unapređuju – i u tom procesu je prepoznata potreba poticanja željenog stanja, a ne akcije. U gornjim primjerima bi to bilo održavanje ravnoteže na dva kotača, odnosno – čiste sobe, a ne spremanje igračaka u kutiju.

Da se izbjegne postizanje pogrešnih ciljeva, ali i da bi algoritam efikasnije konvergirao konačnom stanju, istraživači su proces učenja unaprjeđivali različitim metodama optimizacije. Jedna od takvih je i TD učenje bazirano na vremenskoj prilagodbi (temporal difference learning). Tako unaprijeđeni RL algoritam tijekom interakcije s okolinom procjenjuje odstupanja od konačnog, očekivanog cilja te na temelju te procjene provodi adaptaciju trenutnog ponašanja.

Opet, na temelju poznavanja psihologije, važno je uočiti različite vrste zadovoljstava koja postoje u životinjskom, a pogotovo ljudskom ponašanju. To saznanje vodi prema prepoznavanju snažnih unutrašnjih (intrinsičnih) motiva. Autor je tu tezu opisao na primjeru igre Montezumina osveta (Montezuma’s Revenge). Naime, u toj igri uobičajeni RL algoritmi ne pomažu jer je izrazito lako izgubiti virtualni život, a prve bodove je moguće osvojiti tek nakon više kompliciranih koraka – tako da slučajni pokušaji ne vode prema bilo kakvom pozitivnom rezultatu iz kojeg bi algoritam mogao nešto naučiti. Tek kad je algoritam adaptiran tako da iskuša aktivnosti koje bi se mogle smatrati zanimljivima, novima, drugačijima – a to znači da takva aktivnost zadovoljava znatiželju, a ne donosi bodove – pojavili su se značajni pozitivni pomaci u ponašanju, koji su u sljedećim koracima počeli donositi i bodove.

Osnaženo učenje (reinforced learning) ima svoja ograničenja i primjenjivo je u situacijama kad je interakcija autonomnog sustava i okoline stabilna, moguće ju je testirati i na temelju testa odrediti ponašanje. Autonomna vožnja, na primjer, nije takva. Nemoguće je unaprijed znati sve moguće situacije i teško ih je predvidjeti. U tom slučaju, opet na temelju analogije iz ljudske psihologije, primjenjuju se metode imitacije. Algoritam koji bi pratio ponašanje profesionalnog vozača, mogao bi na temelju reakcija vozača na stimulacije iz okruženja, razviti sustav adekvatnog odgovora koji bi bio primjenjiv u istim ali i sličnim uvjetima vožnje. Ipak, kod učenja imitacijom, autonomni algoritam rijetko dolazi u rizičnu ili nepoznatu situaciju – pa za nju nije niti spreman. To je problem kaskadne greške (cascading error) – kod koje mali iskorak iz poznate situacije vodi u niz pogrešnih procjena – odnosno do akumuliranja greške s mogućim katastrofalnim posljedicama. Znajući za taj problem, moderni AI istraživači i praktičari adaptiraju algoritam tako da dopuštaju povremeno prepuštanje kontrole AI sustavu, kako bi iz reakcija profesionalnog vozača prepoznali način izlaska iz “krize”. No tu nije kraj. U situacijama kad ne postoji dovoljno dobar biološku uzor, odnosno – nakon dosegnutog imitacijskog maksimuma – umjetna inteligencija može učiti i dalje. Primjer je Alpha go zero algoritam koji je u 72 sata naučio igrati Go do razine nepobjedivosti – i to tako da je unaprijedio postojeći, raniji Alpha go algoritam, učeći na temelju dvoboja sa samim sobom.

Još napredniji način strojnog učenja je inverzno osnaženo učenje (IRL – Inverse Reinforced Learning), kod kojeg se problem okreće naopako – pa se ne postavlja pitanje kako odrediti vrijednosnu funkciju koja bi sustav dovela do cilja, već kako da na temelju zadanog cilja sustav sam pronađe adekvatnu vrijednosnu funkciju i provede potrebne korake. Takvo učenje je neophodno u situacijama koje su suviše kompleksne da bi se mogle imitirati ili uzor uopće ne postoji, nego je moguće tek povremeno na sustav utjecati uputom. Tako je, na primjer, izvedena demonstracija robotskog salta unazad koju je autonomni sustav izveo na temelju pokušaja za koje je od ljudskog učitelja dobivao samo informacije o tome koji pokušaji nalikuju očekivanom rezultatu.

Možda najinteresantniji, a čini se i najvažniji problem strojnog učenja je lažna sigurnost. Kako bi autonomni sustav mogao znati da nešto ne zna. Kako izbjeći lažnu sigurnost sustava prije nego on počini katastrofalnu grešku. Kao primjer je naveden slučaj Ruskog generala koji na temelju intuicije, suprotno svim uputama, nije pokrenuo atomski protuudar, iako mu je nadzorni sustav signalizirao početak američkog balističkog atomskog napada.

I u tom području se razvijaju brojne teorije, testiraju hipoteze i izrađuju modeli. Neki od njih su bazirani na kombinaciji različitih trening modela koji u slučaju značajno različitih rezultata sugeriraju opreznost, usporavanje ii zaustavljanje daljeg rada sustava. Spomenut je algoritam stupnjevite relativne dostupnosti (stepwise relative reachability), kao i algoritam zaštite raspoloživih mogućnosti (attainable utility preservation) koji na različite načine sprečavaju uvođenje sustava u stanje “iz kojeg nema izlaza”.

Ovo su važne teme, jer tehnologija nezaustavljivo napreduje i njeno osamostaljivanje uz pomoć metoda umjetne inteligencije, poput prepoznavanja, kategorizacije i strojnog učenja, može imati značajne globalne reperkusije. Ako očekujemo suživot s naprednim autonomnim sustavima, onda je bolje da točno znamo što od njih očekujemo ili da ih konstruiramo tako da ih možemo na vrijeme zaustaviti.

Osvrnuo bih se na kraju na činjenicu da se umjetna inteligencija razvija i da se njeno ponašanje isprepliće s ljudskim, a da je ljudska psihologija reducirana na biheviorističku teoriju koja je polako napuštena sredinom prošlog stoljeća i koja je ustupila mjesto neuroznanosti, koja prepoznaje uzroke ponašanja – a ne samo elementarne motive. Znači li to da od autonomnih sustava očekujemo ponašanje koje primijenjenim metodama nećemo moći postići?

Moje je mišljenje da smo na dobrom putu. Mislim da složeni biološki mehanizmi, od kojih je svijest jedan od najsloženijih – imaju svoju biheviorističku reprezentaciju, možda u obliku povratne veze koja djeluje na uspostavljene vrijednosti a onda i postavljene ciljeve. Drugim riječima, nova saznanja iz područja neuroznanosti i moderne psihologije neće odbaciti teoriju primijenjenu u izgradnji AI sustava, već će ih nadopuniti uvođenjem novih povratnih mehanizama koji će djelovati kao korektivi ciljeva s kojim se autonomni sustavi usklađuju. U tome će svakako pomoći istraživanja i metode iz područja opće umjetne inteligencie (UAI), koja nisu tema ove knjige.

Razgovor s autorom knjige može se pronaći na “Brain inspired” podcastu, autora Paula Middlebrooksa u epizodi #98 – Brian Christian: The Alingnment Problem

Brian Christian is the author of The Most Human Human, which was named a Wall Street Journal bestseller, a New York Times Editors’ Choice, and a New Yorker favorite book of the year. He is the author, with Tom Griffiths, of Algorithms to Live By, a #1 Audible bestseller, Amazon best science book of the year and MIT Technology Review best book of the year. His third book, The Alignment Problem, has just been published.

Christian’s writing has been translated into nineteen languages, and has appeared in The New Yorker, The Atlantic, Wired, The Wall Street Journal, The Guardian, The Paris Review, and in scientific journals such as Cognitive Science. Christian has been featured on The Daily Show with Jon Stewart, Radiolab, and The Charlie Rose Show, and has lectured at Google, Facebook, Microsoft, the Santa Fe Institute, and the London School of Economics. His work has won several awards, including fellowships at Yaddo and the MacDowell Colony, publication in Best American Science & Nature Writing, and an award from the Academy of American Poets.

Born in Wilmington, Delaware, Christian holds degrees in philosophy, computer science, and poetry from Brown University and the University of Washington. A Visiting Scholar at the University of California, Berkeley, he lives in San Francisco.