Diferencijalno privatno federalno učenje: perspektiva na razini klijenta

Robin Geyer, Tassilo Klein i Moin Nabi (ML Research Berlin)

Općenito, standardni pristupi strojnom učenju stvaraju potrebu za pohranjivanjem podataka o treningu na jednom središnjem mjestu. No, nedavnim usponom zaštite privatnosti u strojnom učenju, novo polje istraživanja, poznato kao udruženo učenje, izazvalo je globalno zanimanje. U ovom postu na blogu predstavljamo svoje prve rezultate u vezi sa očuvanjem privatnosti strojnog učenja, slijedeći prethodni post na blogu predstavljajući tri različita pristupa za rješavanje problema privatnosti na ovom području.

No, prije nego što zaronimo dublje u naš predloženi pristup, vratimo glavne točke koncepta. Ideja federalnog učenja je obučiti modele strojnog učenja bez izričito razmjene podataka ili prikrivanja sudjelovanja u treningu. Ovaj je scenarij relevantan u industriji i na osobnoj razini te postaje posebno važan u scenarijima u kojima bi zlobni klijenti mogli zaključiti o sudjelovanju drugog klijenta.

Kao jednostavan primjer razmotrite suradnju više bolnica i osiguranja kako bi se obučavao univerzalni model s podacima o pojedinim pacijentima i klijentima kako biste dobili bolji pregled trenutnih bolesti, dijagnoza i zdravstvenih troškova. Zamislite da bi se neko od osiguravajućih društava želio pridružiti ovoj suradnji u nadi da će otkriti konkretne detalje o pacijentima koji pripadaju skupu podataka bolnice koja doprinosi. Ako je bolnica otkrila povjerljive podatke tijekom općeg procesa strojnog učenja, narušava se privatnost pacijenata, dok bi osiguranje moglo koristiti te razloge da određenim pacijentima zaračuna višu cijenu.

Druga je moguća situacija kada klijenti žele odjaviti pretplatu na uslugu kojoj su dali doprinos u pogledu obuke modela, a da pri tom ne ostave previše specifičan otisak podataka na modelu. Vratimo se primjeru bolnica i osiguranja, ako jedno osiguranje želi prestati doprinositi obuci modela, njegovo povlačenje otkriće neke povjerljive podatke o klijentima koji bi se mogli koristiti u korist ostalih konkurentskih osiguranja u modelu.

Ukratko, da bismo zaštitili privatnost u kontekstu strojnog učenja, moramo spriječiti mogućnost da se pronađu pojedinačni klijenti koji doprinose modelu. Ovo postaje osobito važno kada broj primjeraka treninga za model nije pretjerano velik. Naši nalazi stoga posebno zabrinjavaju institucije poput bolnica ili osiguranja koje žele imati koristi od generaliziranih modela predviđanja, ali imaju veliku fluktuaciju kupaca, a istovremeno su vezane za snažne zahtjeve privatnosti.

Federativno učenje - neki detalji

Razmatramo federalnu postavku učenja, gdje pouzdani kustos prikuplja parametre optimizirane na decentralizirani način od strane više klijenata čiji su podaci obično nevaljani, neuravnoteženi i masovno distribuirani. Rezultirajući model zatim se distribuira natrag svim klijentima, u konačnici konvergirajući se u zajednički reprezentativni model, bez da klijenti izričito dijele podatke.

Za svaki novi krug komunikacije i dodjelu novog središnjeg modela, informacije o curenju podataka klijenata. Slijedom toga, tijekom treninga se procjenjuju informacije i na taj način gubitak privatnosti. Iako je ta vjerojatnost beskrajno mala, model strojnog učenja obično se obučava tijekom nekoliko rundi, što znači da bi se takvo curenje privatnosti moglo znatno povećati.

U ovom okruženju, komunikacija između kustosa i klijenata može biti ograničena i / ili ranjiva za presretanje, zbog čega je savezno učenje usmjereno na određivanje modela s minimalnim informacijama koje će se nalaziti između klijenta i kustosa. No, unatoč postizanju ove minimizirane režijske vrijednosti, protokol je i dalje podložan različitim napadima, koji mogu poticati od bilo koje stranke koja je dala svoj doprinos tijekom federiranog procesa učenja. U takvom napadu, doprinos klijenta tijekom treninga kao i informacije o njegovom skupu podataka mogu se otkriti analizom raspodijeljenih parametara.

Uzevši u obzir ovaj problem, predlažemo algoritam diferencirane privatnosti na strani klijenta za očuvanje federalnog učenja. Cilj je sakriti doprinos klijenta tijekom treninga, uravnotežujući kompromis između gubitka privatnosti i performansi modela. Rezultati naše prve studije izvodljivosti sugeriraju da s povećanim brojem klijenata koji sudjeluju, naš predloženi postupak može dodatno optimizirati različitu privatnost na razini klijenta.

Naš pristup

Ono što algoritme strojnog učenja čini toliko atraktivnim je da oni dobivaju svoj model predviđanja izvodeći uzorke iz podataka, a da nisu izričito programirani. Kao rezultat toga, ovi algoritmi se u velikoj mjeri oslanjaju na informacije koje su kodirane u podatke, što stvara potrebu da im se dodaju određena svojstva kako bi se zaštitila privatnost.

Tu dolazi do izražaja definicija diferencijalne privatnosti. Može se promatrati kao mjera osjetljivosti u odnosu na promjene u podacima. Točnije, daje jamstvo o ograničenjima učinka ili odsutnosti efekta koje pojedinačni podatak može imati na krajnji izlaz algoritma. Intuitivno, pristup strojnom učenju koji je različito privatni neće u značajnoj mjeri promijeniti svoje predviđanje u slučaju da je neki predmet uklonjen iz seta za trening. Pozivajući se na prijašnji primjer, to bi značilo da sva osiguranja i bolnice koje daju doprinos još uvijek mogu računati na visoku učinkovitost i točnost informacija univerzalnog modela, iako jedna od bolnica izbjegava pružiti ili iznijeti podatke o određenom pacijentu.

U predloženom pristupu nastojimo podići različitu privatnost na novu razinu uzimajući u obzir podatke koji prelaze jednu jedinicu podataka i na taj način jačamo osjetljivost. Nastojimo osigurati da uklanjanje klijenta sa svim njegovim podacima ne utječe značajno na ishod algoritma. U našem primjeru to znači da ako bolnica s velikim brojem pacijenata odluči prestati doprinositi obuci centralnog modela, to neće naštetiti radu ostalih institucija koje sudjeluju.

Povezivanje točkica - različita privatnost očuvanja federalnog učenja

Da bi zaštitio udruženi protokol učenja od mogućih različitih napada, takozvani računovođa o privatnosti prati nastali gubitak privatnosti i prestaje s obukom nakon što dosegne definirani prag.

U tom kontekstu predlažemo primjenu randomiziranog mehanizma koji se sastoji od dva koraka: Na početku svakog kruga komunikacije izabran je slučajni podskup klijenata koji će dati svoj doprinos. Samo ti klijenti dobivaju središnji model i dijele svoja ažuriranja. Zatim se koristi Gaussov mehanizam za iskrivljavanje prosjeka ažuriranja prije dodjele novog središnjeg modela. To se radi kako bi se sakrio doprinos jednog klijenta u okviru združivanja, a time i unutar čitavog decentraliziranog postupka učenja.

Slika 2 prikazuje krug komunikacije prihvaćajući predloženi pristup. U ovoj optimiziranoj postavci udruženog učenja slučajni klijent prestaje doprinositi tijekom komunikacijskog kruga, dok ostali klijenti nastavljaju s ažuriranjem modela. Međutim, povlačenje jednog suradnika ne dovodi ni do otkrivanja podataka niti šteti performansama modela.

Eksperimentalna postava

Simuliramo decentraliziranu postavku kako bismo testirali naš predloženi algoritam. Naš izbor za obuku modela klasifikatora slike omogućuje usporedbu protokola sa vrhunskim tehnikama centraliziranog učenja. Savezno postavljanje, koje nije iid, osigurava da svaki klijent dobiva samo ograničen broj uzoraka, gdje se uzorci svakog klijenta pridružuju samo dijelu cjelokupne klase. U takvim postavkama pojedinačni klijent nikada neće moći trenirati model hvatanja svih klasa s obzirom na pojedinačne podatke. Postavljamo dva zahtjeva za različito privatni federativni proces učenja:

  • Omogućite klijentima da zajednički uče model koji doseže visoku točnost klasifikacije
  • Tijekom učenja sakrijte koje podatke posjeduje pojedinačni klijent kako biste sačuvali privatnost

Naši nalazi

U konačnici, naš rad sadrži dva priloga. Prvo pokazujemo da kada je uključen dovoljan broj sudionika, naš algoritam postiže visoku preciznost modela usporedivu s onima u centraliziranom programu učenja. Istodobno, naš predloženi model ostaje različito privatan na razini klijenta. Iako druge studije pokazuju slične rezultate, naša se eksperimentalna postava razlikuje zbog izrazite integracije mjera privatnosti na razini elemenata. Drugo, predlažemo dinamičku prilagodbu mehanizma zaštite razlike i privatnosti tijekom decentraliziranog procesa učenja kako bi se dodatno povećale performanse modela. Iako ovo izmijeni najnovije rezultate primjenjujući različitu privatnost u centraliziranim postavkama, mi tvrdimo da u saveznim gradijentima učenja pokazuju različite osjetljivosti na buku i veličinu šarže.

Naše su spoznaje primjenjive na različite industrije. Jednog dana, pristup studije može omogućiti kompanijama zajedničko učenje modela predviđanja ili, kao u našem primjeru, višestrukim bolnicama pomoći u obuci dijagnostičkih modela. Predloženi algoritam omogućio bi ovim raznolikim sudionicima prednost od univerzalnog modela naučenog na podacima mnogih vršnjačkih suradnika bez potrebe za centraliziranjem podataka ili rizikom izlaganja privatnih podataka.

Predstavili smo svoj napredak u zaštiti privatnosti u decentraliziranom učenju na radionici NIPS 2017: Strojno učenje na telefonu i ostalim potrošačkim uređajima. Ispod možete vidjeti naš poster predstavljen na NIPS-u. Više informacija možete pronaći ovdje.

Više detalja o našem radu potražite u izvornoj studiji: https://arxiv.org/abs/1712.07557