Učenje pamćenja: Okvir za kontinuirano učenje vođen sinaptikom

Oleksiy Ostapenko, Tassilo Klein, Moin Nabi (ML Research)

Ljudi imaju izvanrednu sposobnost kontinuiranog učenja tijekom cijelog životnog vijeka. Sposobnost primjene ranije naučenih znanja na nove situacije, okruženja i zadatke ključno je obilježje ljudske inteligencije. Na biološkoj razini to se obično pripisuje sposobnosti selektivnog pohranjivanja i upravljanja sjećanjima tijekom dovoljno dugog vremenskog razdoblja u neuronskim vezama koje nazivamo sinapsama. Za razliku od bioloških mozgova, konvencionalne umjetne neuronske mreže (ANN) nemaju sposobnost kontrole snage sinaptičkih veza između neurona. To dovodi do izuzetno kratkog vijeka pamćenja u ANN-ima - efekt poznat kao katastrofalno zaboravljanje.

U proteklom desetljeću većina istraživanja u području umjetne inteligencije (AI) bila je usmjerena prema prevladavanju performansi na ljudskoj razini na izoliranim, jasno definiranim zadacima poput igranja računalnih igara, razvrstavanja neželjene pošte, klasificiranja mačaka od pasa i prepoznavanja govora, samo nabrojati nekoliko. Kao rezultat, većinu AI koji nas okružuju u svakodnevnom životu možemo nazvati umjetnom uskom inteligencijom ili slabom AI. Snažni AI se, nasuprot tome, odnosi na AI sličan čovjeku koji može obavljati bilo koji inteligentan zadatak, dok je u stanju kontinuirano učiti, selektivno zaboraviti, brzo se prilagođavajući novim zadacima i koristeći prijašnja iskustva. Ova svojstva tek su nedavno počela privlačiti pažnju istraživača AI.

Zašto stalno učenje? Ključ neprestanog mijenjanja scenarija

Zaborav i prijenos nedostajućeg znanja predstavljaju jedan od glavnih izazova na putu od slabog AI do jakog AI. Za razliku od ljudi koji selektivno zaboravljaju, strojevi katastrofalno zaboravljaju. Prema tome, dok „beba nauči puzati, hodati i zatim trčati“ (~ Dave Waters), AI bi potpuno zaboravila puzati jednom kad nauči hodati, a zaboravit će i hodati jednom kad nauči trčati. Prije pregleda mogućih rješenja izazova kontinuiranog cjeloživotnog učenja, razmotrimo jednostavan primjer pretraživanja kataloga odjeće sa AI.

Model strojnog učenja obučen na skupu podataka koji sadrži odjevne predmete iz sezone (A) bio bi izuzetno uspješan u pretraživanju među (A) proizvodima ove sezone. Međutim, kad se sezona promijeni, mogu se mijenjati i modni trendovi. Nakon što se modni trendovi promijene, u katalog se mogu dodati nove kategorije proizvoda, modeli i stilovi (npr. Visoke potpetice umjesto tenisica, duge jakne umjesto kratkih jakna itd.). Model obučen na osnovu podataka prve sezone (A) ne bi imao dobre rezultate u pretraživanju predmeta dodanih u novoj sezoni. Zapravo, jednostavno uvježbavanje našeg modela na podacima iz nove sezone dovelo bi do katastrofalnog zaboravljanja mogućnosti pretraživanja među stavkama iz prethodne sezone.

Čest način rješavanja zaborava?

Jedna od najranijih tehnika ublažavanja katastrofalnog zaborava u ANN-ima poznata je kao ponavljanje iskustva ili „proba“. Nastavljajući s našim primjerom pretraživanja kataloga, kako bismo zadržali podatke naučene u prvoj sezoni, model strojnog učenja jednostavno se izučava iz nule na mješavini podataka iz obje sezone, tj. Prethodno naučeno znanje prenosi se na model obučen na podaci nove sezone. Općenito, prekvalifikacija modela svaki put kada bi se „pomaci“ distribucije podataka rezultirali eksplozijama troškova pohrane podataka i napora potrebnog za održavanje inteligentnih sustava, a da ne spominjemo dramatično smanjenje skalabilnosti sustava. Konačno, pohrana neobrađenih podataka iz prethodnih zadataka može u velikoj mjeri narušiti zahtjeve privatnosti podataka u stvarnom svijetu.

U tom su se kontekstu mnogi istraživači usredotočili na simulaciju neuronske plastičnosti u ANN-ima i tako ublažili potrebu za spremanjem neobrađenih podataka (1,2,3,4,5,6). To se obično izvodi u takozvanom setup-inkrementalnom setup-u, gdje se svaki novo dodan komad podataka smatra zasebnim zadatkom, a pretpostavlja se da su informacije o oznaci zadatka dostupne u vrijeme ispitivanja. Vraćajući se primjeru pretraživanja kataloga, potrebno je unijeti podatke o naljepnici sezone (oznaku zadatka) u svaki upit; stoga bi za klasificiranje određenog odjevnog predmeta potrebni a priori podaci o sezoni kojoj pripada (oznaka zadatka). Imajući takvu "oznaku zadatka" automatski bi se smanjio izlaz modela u klase koje pripadaju pretpostavljenom zadatku. Stoga bi u našem gornjem primjeru model ograničio samo na određenu sezonu. Te se pretpostavke rijetko mogu ispuniti u stvarnim aplikacijama.

Odvojena linija rada bavi se scenarijem poput stvarnog svijeta. U ovom scenariju „klasa-inkrementalna“, klasifikacijski se rezultat modela kontinuirano proširuje kako se uči nova klasa. U tom je kontekstu zajednička strategija uvođenje takozvane generativne komponente pamćenja (npr. 7,8,9). Ovdje, umjesto za pohranu neobrađenih podataka, generira se model poput GAN ili VAE (vidi prethodni blogpost) kako bi se generiralo iskustvo koje treba reproducirati. Dakle, u kataloškom primjeru, stavke (s pripadajućom klasom) prve sezone generirale bi se i reproducirale na model.

Postojeći pristupi generativne memorije uglavnom se oslanjaju na ideju duboke generativne reprodukcije, gdje se generativni model ponavljava uvježbavajući na mješavini trenutno dostupnih stvarnih podataka (nova sezona) i epizoda ponavljanja sintetiziranih od prethodnog generatora (protekla sezona). Međutim, osim što su vrlo neučinkoviti u treningu, ovi su pristupi ozbiljno skloni učinku poznatom kao "semantički drift". "Semantički pomicanje" odnosi se na kvalitetu slika generiranih pri svakoj ponovnoj reprodukciji memorije, ovisno o prethodno generiranim slikama, što uzrokuje osjetljivost na širenje pogrešaka i tako rezultira gubitkom kvalitete i zaboravljanjem.

Predloženo rješenje - učenje plastike u generativnoj memorijskoj mreži

Do sada smo naučili da je ponavljanje iskustva jednostavna i korisna strategija za prevladavanje zaborava na ANN općenito, a posebno u zahtjevnoj situaciji „klase u porastu“. Ipak, ova je strategija primjenjiva samo kad se epizode ponavljanja ne čuvaju kao neobrađeni podaci, već u obliku relevantnih i učinkovito pohranjenih obrazaca memorije.

Da bismo to riješili, u našem nedavnom radu predložili smo metodu nazvanu Dinamička generativna memorija (DGM) - cjelovit održiv okvir stalnog učenja koji simulira sinaptičku plastičnost pomoću učljivih maski pažljivih primjenjivih na parametre generativne mreže (GAN) , Maskiranje teške pozornosti identificira mrežne segmente koji su bitni za pamćenje trenutno naučenih informacija i sprječava njihovo ažuriranje tijekom budućeg učenja. Mreža se dodatno stimulira za ponovno korištenje prethodno naučenog znanja koje je pohranjeno u tako rezervirane mrežne segmente dajući pozitivan napredni prijenos znanja. Dakle, u našem primjeru kataloga proizvoda, znanje o kataloškim stavkama iz prethodne sezone moglo bi se učinkovito upotrijebiti za učenje o proizvodima iz nove sezone. Sve u svemu, DGM može učiti o novim zadacima bez potrebe za ponovnim igranjem starog znanja, poboljšavajući na taj način efikasnost treninga i postati robusniji u slučaju katastrofalnog zaborava.

Prema tome, DGM može generirati informativne i raznolike uzorke prethodno naučenih kategorija u bilo kojem koraku kontinuiranog učenja kao što je prikazano na slici ispod. Ako se ovi uzorci prikažu na modelu rješavanja zadataka (D), dobiva se model koji može zadržati visoku učinkovitost klasifikacije u svim razredima koji su viđeni tijekom trajnog procesa učenja.

Na skalabilnost

S obzirom na ograničenu veličinu mreže, neizbježno je da se, uz sve veći broj zadataka za učenje, kapacitet modela u nekom trenutku iscrpi. To se pitanje pogoršava prilikom simuliranja neuronske plastičnosti s pažnjom maskiranja na razini parametara. Kako bi zajamčio dovoljan kapacitet i konstantnu izražajnu snagu donje mreže, DGM održava broj "slobodnih" parametara (tj. Jednom koji se može učinkovito ažurirati) konstantnim širenjem mreže s točno brojem parametara koji su rezervirani za prethodnu zadatak. Ključna ideja ovdje je da se s datim pozitivnim naprijed prijenosom znanja (tj. Ponovna upotreba parametara) broj rezervacija parametara za nove zadatke s vremenom smanjuje, a rast mreže treba zasititi u određenoj točki.

Za tehničke detalje o DGM metodi, molimo pogledajte cjelovit članak na arXiv-u.

Iako je još uvijek daleko od rješavanja problema katastrofalnog zaborava, i usprkos nekoliko ograničenja, DGM pokazuje učinkovit rast mreže i robusnost protiv katastrofalnog zaborava u izazovnom postavljanju „klase-inkrementalne“. Vjerujemo da nam predstavljena istraživanja mogu pomoći unaprijediti naše razumijevanje kontinuiranog učenja - suštinske sposobnosti na putu ka postizanju snažnog AI-ja, koja je sposobna učiti (i zaboraviti) adaptivno i progresivno tijekom vremena.

Naš rad na cjeloživotnom učenju predstavljen je na CVPR 2019.

O autoru: Oleksiy Ostapenko, izvanredni istraživački inženjer u istraživačkom timu za SAP strojno učenje, radi na izazovima kontinuiranog cjeloživotnog učenja koji se raspravljaju u ovom postu u svom radu koji će biti predstavljen na ovogodišnjem CVPR-u.