Otvoreni projekt Plutona (2)

Ime autora Nesporazum pomoću samocitiranja

Pozdrav, to je Plutonski tim za rudarstvo podataka.

U prethodnom smo postu predstavili dvije ideje za raščlanjivanje imena autora - samocitiranje i sličnost koautora - i neke probleme poput pogrešnih podataka.

Ovaj će post opisati prethodnu obradu podataka i implementaciju tih ideja iz prethodnog posta. Prije nego što počnemo, definirajmo izraze koji se koriste u ovom postu. Neki se citiraju iz članaka, a drugi su moji.

Ovdje koristimo izraz pojedinac za označavanje stvarne osobe, a autor za entitet koji proizlazi iz postupka nerazumijevanja autora.
Problem se manifestira na dva načina: određeni pojedinac može se identificirati kao dva ili više autora ([podijeliti, dakle zahtijevati spajanje]) ili se dvije ili više pojedinaca mogu identificirati kao jedan autor ([spojeni, zahtijevajući dijeljenje]) ).

Usredotočili smo se na spajanje (tj. Prvo), a ne na cijepanje, jer smo sreli nekoliko autora koji bi se podijelili suprotno velikom broju autora koji se spajaju.

Pored njih, koristimo pojam publikacije za označavanje predmeta koji se u Scinapse bazi podataka smatraju dokumentima. To mogu biti patenti, pisma vijesti ili čak glazba (primjer ispod). Među njima su članci u kojima se nalaze znanstveni istraživački radovi, a ostale publikacije koje nisu članci nazvat će se člancima izvan članka u ovom postu.

Navodi su potrebni za dijagnostiku, izvor: Dan4th Nicholas, Flickr (CC BY 2.0)

Predobrada podataka

U koraku prethodne obrade usredotočili smo se na uklanjanje publikacija koje nisu članak, tj. Publikacije koje nisu članci. Ne znamo razlog zašto je tako velik broj publikacija izvan članaka uključen u bazu podataka, ali očito je da bi ih trebalo ukloniti iz naše baze podataka.

Bach je jedan od najvećih glazbenika, ali njegova glazbena djela nisu članci

Budući da nisu označeni kao članci ili ne-članci, ne možemo ih lako ukloniti. Najprije smo objedinili publikacije izvan članka koje smo dosad pronašli. Tada smo pregledali njihove atribute poput citata, autorskih obrazaca i sažetaka.

Problem je bio, čak i ako te publikacije koje nisu članci imaju specifičan obrazac, recimo X, nisu sve publikacije s uzorkom X bile izvanreklamirane publikacije. Na primjer, publikacije izvan članka imaju kratke sažetke, ali neki članci imaju i vrlo kratke sažetke (manje od 15 riječi). Što je još gore, neki su sažeci čak bili nepravilno oblikovani.

Dakle, ciklus smo morali ponoviti; pronađite uzorak, istražite publikacije s obrascem kako biste provjerili je li neophodan uvjet za objave izvan članaka. Bilo je potrebno mnogo vremena i doprinosa suradnika otvorenih izvora.
* Imajte na umu da nismo mogli upotrijebiti strojno učenje da bismo pronašli takva pravila jer nismo imali dovoljno primjera.

Konačno, pronašli smo dva karakteristična obrasca za razlikovanje publikacija izvan članaka. Prva je da neke publikacije s određenim domenama nisu članci. Očito, radovi s "google.patent.com" moraju biti patent, a ne članak. Drugo, neke autorske knjige izvan članka često se pišu iste grupe autora. Najveći broj publikacija s istom autorskom skupinom bio je veći od 20.000.

Je li moguće objaviti toliko puno članaka s istim autorskim setom?

Ime autora Nesporazum

Dvije su ideje - koautorska sličnost i samocitiranje - testirali u malim autorskim blokovima grupiranim po njihovim prezimenima ili blokovima prezimena. Nevjerojatno, iako je sličnost koautora jedno od najčešćih spominjanih značajki u literaturi o nesavjesnosti imena autora, malo je autora bilo sličnih koautora i imena. Umjesto toga, bilo je puno više autora koji navode druge autore sa sličnim ili istim imenima, što implicira da su možda isti ljudi.

Razlog za to pronašli smo u postu Microsofta Academic.

Stoga smo se odlučili usredotočiti samo na samo citiranje, jer je Microsoftovo ime različitosti s koautorskom sličnošću već usvojilo Microsoft Academic.
(* Većina naše baze podataka dolazi iz programa Microsoft Academic)

Iako je u svakom podgrafu bilo puno autora s sličnim ili istim imenima, još uvijek nismo bili sigurni jesu li isti ljudi čak i nakon što su ih pregledali. Na primjer, iako je J. Kim citirao članak drugog J. Kima, ne možemo reći da su oni isti pojedinci, jer u akademskim krugovima može biti mnogo J. Kima. (to se može dogoditi čak i unutar jednog laboratorija u Južnoj Koreji)

Budući da smo osjetljivi na lažno pozitivne rezultate, preferiramo stroga pravila iako je broj rezultata mali. Nakon uvida u mnoge podgrame, usvojili smo sljedeća pravila.

1. Podgraf citata s identičnim prezimenima

Pretpostavili smo da će autori jednog pojedinca imati potpuno ista prezimena, jer istraživači uglavnom ne skraćuju njihova prezimena. Također smo filtrirali prezimena koja nisu engleska jer nije bilo lako, pa čak ni neučinkovito upravljati sa svakim jezikom.

Tako smo podatke blokirali po prezimenima i napravili podgrame s autorima kao čvorovima i citatima kao rubovima. Nakon riječi, nastavili smo s nerazumijevanjem unutar svakog podgrafa.

2. Točno podudaranje imena

U prethodnom smo koraku pronašli nekoliko autora koji su citirali druge autore s istim prezimenima. No očito je da ne predstavljaju nužno iste osobe. Da bismo pronašli određene slučajeve, pregledali smo neke podgrame.

Radeći to, u podgrafima smo susreli mnoge autore s potpuno istim imenima. Oni su uglavnom predstavljali iste jedinke, osim kad su ime ili cijelo ime prečesto (osobito kad su prva imena napisana inicijalima).

3. Jedinstveno postojanje

Ukratko, autori unutar svakog podgrafa u ovoj fazi imaju odnose citata i imaju potpuno ista imena. Razmatrali smo i druge atribute kao što su polja studija, časopisi i poveznice, ali citat je bio najmoćniji pokazatelj među njima. Kako se ne želimo držati tog problema, odlučili smo isključiti autore sa zajedničkim imenima.

Da bismo odredili uobičajenost imena, koristili smo našu bazu podataka. Odabrali smo podgrame kod kojih imena unutar podgrafa ne postoje izvan podgrafova (tj. Nema nepovezanih istih naziva). Na primjer, u našoj bazi podataka postoje samo dva autora pod nazivom C. Gram, a jedan od njih je citirao drugog, onda je to slučaj. Naravno, taj se odnos može proširiti na više autora (podgrame veće veličine).

Smatrali smo da su ovi kriteriji prilično strogi, a provjera slučajnim uzorkovanjem pokazala je da je rezultat vjerodostojan.

Zaključci

Da zaključimo, uklonili smo nepotrebne publikacije izvan članaka 58,796,366 (28,05%) u koraku prethodne obrade i spojili 1,608,289 autora u 649,519 od strane autorskog imena, neslaganja, koristeći samocitiranje.

Slijede pitanja koja su nas zabrinjavala tijekom nastavka projekta.

1. Duplira

Nekoliko publikacija moglo bi u stvarnosti predstavljati jedan članak, a moglo bi ga nazvati i 'disambiguracija imena objave'. Međutim, iako nekoliko članaka imaju potpuno isti naslov i dijele neke od autora, ali mi još uvijek možemo biti nesigurni predstavljaju li isti članak ili ne, budući da su neki od njih imali različite DOI ili datume objavljivanja.

Bilo kako bilo, sumnjamo da postoji više desetaka tisuća publikacija koje se mogu umnožiti, te bismo ih trebali spojiti da poboljšaju kvalitetu naših podataka.
(* To također može uključivati ​​kontrole verzija)

2. utjecaj

Poštujemo istraživače i članke. No, budući da je njihov utjecaj različit, metrike se često koriste u evaluacijama u akademskim krugovima.

U ovom je aspektu, iako ga je teško izmjeriti, razlučivanje uglednih osoba poput Nobelovih nagrada možda ima više smisla od neslaganja s drugim autorima. To ne znači da takve razlike u smislenosti postoje između njihovih dostignuća u istraživanju, ali govorimo u smislu utjecaja na informacijski sustav, razdvajajući takve pojedince.

Nikad ne znamo koliko pojedinaca, a ne autora, u akademskim krugovima, ali sigurno se taj broj procjenjuje na manje od 100 milijuna. Spojili smo oko milijun autora od ukupno cca. 150 milijuna autora, i doista je to mali dio. Ipak, za Team Pluton je važno imati dobro organiziranu bazu podataka i uspješno smo poduzeli prvi korak uvoza.

U sljedećem postu razdvojit ćemo duplicirane radove i pokušati spojiti ugledne autore na novi način.

Plutonska mreža
Početna stranica / Github / Facebook / Twitter / Telegram / Medium
Scinapse: Akademska tražilica
E-adresa: team@pluto.network