Godina u računalnom vidu - 2. dio od 4

- Drugi dio: Segmentacija, Super-res / Kolorizacija / Prijenos stila, Prepoznavanje akcije

Napomena: Ako želite robote u vašem domu i želite da se to dogodi prije i kasnije, molimo vas da uzmete naše vrlo kratko istraživanje. Vaši odgovori pomažu u usmjeravanju naših simuliranih projekata istraživanja okoliša i robotike

Odvojite 3 minute svog vremena: https://forms.gle/hPiP1p3sJ734Hzk19
Ljubazno zahvaljujem!
Sljedeći članak preuzet je iz nedavne publikacije koju je sastavio naš istraživački tim i odnosi se na područje računalnog vida. Dijelovi jedan i dva dostupni su na našoj web stranici, a preostali dijelovi (tri i četiri) trebali bi biti objavljeni u skoroj budućnosti.

Kompletna publikacija bit će besplatna na našoj web stranici u sljedećim tjednima, a dijelovi 1-2 dostupni su putem: www.themtank.org

Potaknuli bismo čitatelje da pogledaju članak putem vlastite web stranice, jer uključujemo ugrađeni sadržaj i jednostavne navigacijske funkcije kako bi izvještaj bio što dinamičniji. Naša web stranica tim ne donosi nikakve prihode i jednostavno želi učiniti materijale što privlačnijim i intuitivnijim za čitatelje. Bilo kakve povratne informacije o prezentaciji od srca su nam dobrodošle!

Slijedite, dijelite i podržavajte naš rad kroz sve koji su vam omiljeni kanali (i pljesnite od srca!). Slobodno se obratite urednicima s bilo kakvim pitanjima ili pogledajte o potencijalnom doprinosu budućim radovima: info@themtank.com

Segmentacija

Središnji u računalnoj viziji je proces segmentacije, koji cijele slike dijeli na grupe piksela koje se tada mogu označiti i klasificirati. Štoviše, semantička segmentacija ide dalje pokušavajući semantički razumjeti ulogu svakog piksela u slici, npr. je li to mačka, automobil ili neka druga vrsta klase? Segmentacija instancije to dodatno povećava segmentiranjem različitih instanci klasa, npr. označavanje tri različita psa s tri različite boje. Riječ je o nizu aplikacija za računalni vid koji su trenutno zaposleni u programima za autonomnu vožnju.

Možda su neka od najboljih poboljšanja u području segmentacije ljubazno od FAIR-a, koji nastavljaju nadogradnju na svom radu DeepMask iz 2015. [46]. DeepMask stvara grube 'maske' nad objektima kao početni oblik segmentacije. 2016. je Fair predstavio SharpMask [47] koji pročišćava 'maske' koje pruža DeepMask, ispravljajući gubitak detalja i poboljšavajući semantičku segmentaciju. Pored toga, MultiPathNet [48] identificira predmete podcrtane svakom maskom.

"Da biste uhvatili opći oblik objekta, morate dobro razumjeti ono što gledate (DeepMask), ali da biste precizno postavili granice koje su vam potrebne da biste se osvrnuli na značajke niže razine sve do piksela ( SharpMask). ”- Piotr Dollar, 2016. [49]
Slika 6: Demonstracija FAIR tehnika u akciji
Napomena: Gore prikazane slike pokazuju tehnike segmentacije koje koristi FAIR. Oni uključuju primjenu DeepMask, SharpMask i MultiPathNet tehnika koje se primjenjuju tim redoslijedom. Ovaj postupak omogućuje preciznu segmentaciju i razvrstavanje u različite scene. Izvor: Dollar (2016) [50]

Mreže za širenje videozapisa [51] pokušavaju stvoriti jednostavan model za širenje točnih maski predmeta, dodijeljenih u prvom kadru, kroz cjelokupni slijed videa, zajedno s nekim dodatnim informacijama.

U 2016. godini, istraživači su radili na pronalaženju alternativnih mrežnih konfiguracija za rješavanje gore spomenutih problema razmjera i lokalizacije. DeepLab [52] je jedan takav primjer koji postiže ohrabrujuće rezultate za zadatke segmentacije semantičke slike. Khoreva i sur. (2016) [53] nadograđuje na raniji rad Deeplaba (oko 2015.) i predlaže slabo nadzirani način obuke koji postiže usporedive rezultate s mrežama u potpunosti pod nadzorom.

Computer Vision je dodatno rafinirao mrežno dijeljenje korisnih pristup informacijama korištenjem krajnjih mreža, što smanjuje računske potrebe višenamjenskih potpodjela za klasifikaciju. Dva ključna rada koja koriste ovaj pristup su:

  • 100 slojeva Tiramisu [54] je potpuno konvolucijski DenseNet koji na svaki način pomiče svaki sloj, svaki drugi sloj. Također postiže SOTA na više skupova podataka s referentnim vrijednostima s manje parametara i obuke / obrade.
  • Semantička segmentacija potpuno svjesna instancije [55] provodi predviđanje i klasifikaciju primjera zajedno (dva podvrste).
    Pobjednik COG segmentacije za izazov MSRA. 37,3% AP.
    9,1% apsolutni skok s MSRAVC-a u 2015. u COCO izazovu.

Iako ENet [56], DNN arhitektura za semantičku segmentaciju u stvarnom vremenu, nije iz ove kategorije, on pokazuje komercijalne prednosti smanjenja troškova računanja i pružanja većeg pristupa mobilnim uređajima.

Naš rad želi što veći dio tih napredovanja povezati s opipljivim javnim aplikacijama. Imajući to u vidu, u nastavku se nalaze neke od najzanimljivijih primjena segmentacije u zdravstvu u 2016. godini;
  • Mjerila za segmentaciju endoluminalne scene kolonoskopskih slika [57]
  • 3D potpuno konvolucionarne mreže za subkortikalnu segmentaciju u MRI: opsežna studija [58]
  • Poluprovjereno učenje pomoću označavanja autoenkoder za otkrivanje i segmentaciju lezije mozga [59]
  • 3D ultrazvučna segmentacija slike: anketa [60]
  • Potpuno konvolucionarni pristup strukturiranom predviđanju neuronske mreže prema segmentaciji mrežnice žila [61]
  • 3-D revolucionarne neuronske mreže za segmentaciju glioblastoma [62]

Jedna od naših najdražih primjena kvaziedicinske segmentacije je FusionNet [63] - duboka, potpuno rezidualna konvolucionarna neuronska mreža za segmentaciju slike u konekomiji [64] koja je uspoređena sa metodama segmentacije elektronske mikroskopije (EM) SOTA.

Super rezolucija, prijenos stila i kolorizacija

Nisu sva istraživanja u računalnom vidu služila proširenju pseudo-kognitivnih sposobnosti strojeva, a često su neuspjele kretljivosti neuronskih mreža, kao i druge ML tehnike, podvrgnute raznim drugim novim aplikacijama koje se šire u javni prostor. Prošlogodišnji napredak u Super-rezoluciji, Prijenosu stila i Kolorizaciji zauzeo je taj prostor za nas.

Super-rezolucija se odnosi na postupak procjene slike visoke razlučivosti od kolege s niskom razlučivošću, kao i na predviđanje karakteristika slike pri različitim uvećanjima, nešto što ljudski mozak može učiniti gotovo bez napora. Izvorno je super rezolucija izvedena jednostavnim tehnikama poput bikunične interpolacije i najbližih susjeda. U pogledu komercijalnih aplikacija, želja za prevladavanjem ograničenja male rezolucije koja proizlaze iz kvalitete izvora i realizacije poboljšanja slike u stilu „CSI Miami“ potaknula je istraživanje na tom području. Slijedi nekoliko napretka u godini i njihov potencijalni utjecaj:

  • Neural Enhance [65] glavni je sin Alex J. Champandarda i kombinira pristupe iz četiri različita istraživačka rada kako bi postigao svoju metodu Super rezolucije.

Video rezolucija u stvarnom vremenu također je pokušana u 2016. u dva značajna slučaja; [66], [67]

  • RAISR: Brza i precizna slika super rezolucije slike [68] od Googlea izbjegava skupe zahtjeve memorije i brzine pristupa neuronskim mrežama obukom filtera s parovima slika niske i visoke rezolucije. RAISR, kao okvir zasnovan na učenju, dva je stupnja veličine brži od konkurentskih algoritama i ima minimalne potrebe za memorijom u usporedbi s pristupima koji se temelje na neuronskoj mreži. Stoga se super rezolucija može proširiti na osobne uređaje. Ovdje je dostupan istraživački blog. [69]
Slika 7: Primer SRGAN super rezolucije
Napomena: S lijeva na desno: bikubična interpolacija (objektivno najgori učinak za fokus), duboka rezidualna mreža optimizirana za MSE, duboka rezidualna generativna adversarna mreža optimizirana za gubitak osjetljiviji na ljudsku percepciju, izvorna slika visoke rezolucije (HR). Odgovarajući vršni omjer signala i šuma (PSNR) i strukturna sličnost (SSIM) prikazani su u dva zagrada. [4 x uvećanje] Čitač možda želi zumirati srednje dvije slike (SRResNet i SRGAN) kako bi uočio razliku između glatkoće slike i realističnijih sitnih detalja.
Izvor: Ledig i sur. (2017.) [70]

Korištenje generativnih adversarnih mreža (GAN) predstavljaju trenutnu SOTA za super rezoluciju:

  • SRGAN [71] pruža foto-realistične teksture od jako slikanih slika na javnim mjerilima, koristeći diskriminatornu mrežu obučenu za razlikovanje super rezolucijskih i originalnih fotorealističnih slika.

Kvalitativno SRGAN ima najbolje rezultate, iako je SRResNet najbolji sa metrikom omjera vrha signala i šuma (PSNR), ali SRGAN dobiva sitnije detalje teksture i postiže najbolji srednji rezultat mišljenja (MOS). „Koliko znamo, ovo je prvi okvir koji može dati foto-realistične prirodne slike za 4 × uvećavajuće faktore.“ [72] Svi prethodni pristupi ne mogu povratiti sitnije detalje teksture pri velikim faktorima skaliranja.

  • Amortizirani MAP zaključak za super rezoluciju slike [73] predlaže metodu za izračun maksimalnog aposteriorijskog (MAP) zaključka pomoću konvolucijske neuronske mreže. Međutim, njihovo istraživanje predstavlja tri pristupa za optimizaciju, a svi oni trenutno djeluju znatno bolje na stvarnim slikovnim podacima.
Slika 8: Prijenos stila iz Nikulina i Novaka
Napomena: Prijenos različitih stilova na fotografiju mačke (izvorno gore lijevo).
Izvor: Nikulin i Novak (2016)

Nesumnjivo, Style Transfer utjelovljuje novu upotrebu neuronskih mreža koje su se našle u javnoj domeni, posebno kroz prošlogodišnje facebook integracije i tvrtke poput Prisme [74] i Artomatix [75]. Prijenos stila starija je tehnika, ali pretvorena u neuronske mreže 2015. godine objavljivanjem Neuronskog algoritma umjetničkog stila [76]. Od tada, koncept prenosa stila proširio je Nikulin i Novak [77] i također se primjenjivao na videozapise [78], kao što je uobičajeni napredak unutar Computer Vision-a.

Slika 9: Daljnji primjeri prijenosa stila
Napomena: Gornji red (slijeva nadesno) predstavlja umjetnički stil koji je transponiran na izvorne slike prikazane u prvom stupcu (Žena, Most Zlatnih vrata i Livadsko okruženje). Korištenjem uvjetne normalizacije instanci, mreža za prijenos jednog stila može istovremeno snimiti 32 stila, od kojih je pet prikazano ovdje. Potpuni paket slika dostupan u dodatku izvornog papira. Ovaj će rad biti predstavljen na Međunarodnoj konferenciji o predstavništvu o učenju (ICLR) 2017.
Izvor: Dumoulin i sur. (2017., str. 2) [79]

Prijenos stila kao teme prilično je intuitivan jednom kada se vizualizira; snimite sliku i zamislite je sa stilskim značajkama drugačije slike. Na primjer, u stilu poznate slike ili umjetnika. Ove godine Facebook je objavio Caffe2Go, [80] njihov sustav dubokog učenja koji se integrira u mobilne uređaje. Google je također objavio zanimljivo djelo koje je nastojalo spojiti više stilova kako bi se generirali potpuno jedinstveni stilovi slike: Istraživački blog [81] i cjeloviti rad [82].

Osim mobilnih integracija, prijenos stila ima i aplikacije u stvaranju igara. Članovi našeg tima nedavno su vidjeli prezentaciju osnivača i CTO-a Artomatixa, Eric Risser, koji je govorio o novoj primjeni tehnike za generiranje sadržaja u igrama (mutacija teksture itd.) I, na taj način, dramatično minimizira rad konvencionalnog umjetnika tekstura ,

Kolorizacija je proces promjene jednobojnih slika u nove inačice u boji. Izvorno su to radili ručno ljudi koji su marljivo birali boje za predstavljanje određenih piksela na svakoj slici. Godine 2016. postalo je moguće automatizirati taj proces uz održavanje izgleda realizma koji je pokazatelj ljudskocentričnog procesa kolorizacije. Iako ljudi možda ne predstavljaju točno boje određenog prizora, njihovo znanje iz stvarnog svijeta omogućava primjenu boja na način koji je u skladu sa slikom i ako druga osoba gleda navedenu sliku.

Postupak kolorizacije zanimljiv je po tome što mreža dodjeljuje najvjerojatnije bojanje slikama na temelju razumijevanja lokacije objekta, tekstura i okoliša, npr. saznaje da je koža ružičasta, a nebo plavkasto.

Tri su najuticajnija djela godine, prema našem mišljenju, sljedeća:
  • Zhang i sur. proizvela je metodu kojom je bila u stanju uspješno prevariti ljude na 32% njihovih pokusa. Njihova se metodologija može usporediti s "Turingovim testom za obojenje". [83]
  • Larsson i sur. [84] potpuno automatiziraju svoj sustav kolorizacije slike koristeći Dubinsko učenje za procjenu histograma.
  • Konačno, Lizuka, Simo-Serra i Ishikawa [85] pokazuju model kolorizacije koji se također temelji na CNN-ovima. Rad je nadmašio postojeći SOTA, mi [tim] osjećamo se kao da je i ovaj rad kvalitativno najbolji, a čini se da je najrealniji. Na slici 10 nalaze se usporedbe, no slika je uzeta od Lizuka i sur.
Slika 10: Usporedba istraživanja kolorizacije
Napomena: od vrha prema dnu - u stupcu se nalazi izvorni jednobojni unos slike koji se naknadno obojava različitim tehnikama. Preostali stupci prikazuju rezultate generirane drugim istaknutim istraživanjima kolorizacije u 2016. Kada se gledaju s lijeva na desno, to su Larsson i sur. [84] 2016 (stupac drugi), Zhang i sur. [83] 2016. (stupac tri), te Lizuka, Simo-Serra i Ishikawa. [85] 2016. koju autori nazivaju i „našima“ (stupac četvrti). Razlika u kvaliteti kolorizacije najviše se očituje u trećem redu (odozgo) koji prikazuje skupinu dječaka. Vjerujemo da su Lizuka i suradnici kvalitativno superiorni (četvrti stupac). Izvor: Lizuka i sur. 2016 [86]

"Nadalje, naša arhitektura može obraditi slike bilo koje rezolucije, za razliku od većine postojećih pristupa temeljenih na CNN-u."

Na testiranju kako bi vidjeli koliko je prirodna njihova obojenost, korisnici su dobili slučajne slike sa svojih modela i upitali su: "Da li vam ta slika izgleda prirodno?"

Njihov pristup postigao je 92,6%, osnovna vrijednost postigla je otprilike 70%, a osnovna istina (stvarne fotografije u boji) 97,7% vremena smatralo se prirodnom.

Prepoznavanje akcije

Zadatak prepoznavanja radnje odnosi se i na klasifikaciju radnje unutar određenog video okvira, i u novije vrijeme, algoritmi koji mogu predvidjeti vjerojatne ishode interakcija s obzirom na samo nekoliko okvira prije nego što se akcija izvrši. U tom pogledu vidimo nedavni pokušaj istraživanja da se kontekst uvede u algoritamske odluke, slično kao u ostalim područjima Computer Vision-a. Neki ključni radovi na ovom prostoru su:

  • Dugoročne vremenske pretvorbe za prepoznavanje akcije [87] koriste prostorno-vremensku strukturu ljudskih djelovanja, tj. Određeno kretanje i trajanje, kako bi se pravilno prepoznale radnje koristeći CNN varijantu. Da bi se prevladalo sub-optimalno vremensko modeliranje dugoročnih radnji od strane CNN-a, autori predlažu neuronsku mrežu s dugoročnim vremenskim zavojima (LTC-CNN) kako bi se poboljšala točnost prepoznavanja radnji. Jednostavno rečeno, LTC-ovi mogu gledati veće dijelove videozapisa radi prepoznavanja radnji. Njihov pristup koristi i proširuje 3D CNN-ove "kako bi omogućili akcijsko predstavljanje u potpunijoj vremenskoj skali".

„Izvješćujemo najnovije rezultate o dva izazovna mjerila za prepoznavanje ljudske akcije UCF101 (92,7%) i HMDB51 (67,2%).“

  • Prostorno-vremenske rezidualne mreže za prepoznavanje video akcija [88] primjenjuju varijaciju dva struje CNN-a na zadatak prepoznavanja akcije, koji kombinira tehnike iz tradicionalnih CNN pristupa i nedavno populariziranih preostalih mreža (ResNets). Pristup s dva struje crpi svoju inspiraciju iz neuroznanstvene hipoteze o funkcioniranju vizualnog korteksa, tj. Zasebnim putovima prepoznaje se oblik / boja i pokret predmeta. Autori kombiniraju prednosti klasifikacije ResNeta ubrizgavanjem zaostalih veza između dva CNN struje.

"Svaki stream u početku sam prepoznaje videozapise, a za konačnu klasifikaciju, softmax rezultati kombiniraju se kasnim spajanjem. Do danas je ovaj pristup najučinkovitiji pristup primjeni dubokog učenja na prepoznavanje akcije, posebno s ograničenim podacima o obuci. U svom radu izravno pretvaramo image ConvNets u 3D arhitekture i pokazujemo znatno poboljšane performanse u odnosu na osnovnu liniju s dva toka. "- 94% na UCF101 i 70,6% na HMDB51. Feichtenhofer i sur. napravio poboljšanja u odnosu na tradicionalne poboljšane guste putanje (iDT) i stvorio bolje rezultate korištenjem obje tehnike.

  • Predviđanje vizualnih prikaza iz neobilježenog videa [89] zanimljiv je rad, iako ne strogo klasična radnja. Program predviđa radnju koja će se vjerojatno dogoditi s obzirom na niz video okvira do jedne sekunde prije akcije. Pristup koristi vizualne prikaze umjesto klasifikacije po pikselu, što znači da program može raditi bez obilježenih podataka, koristeći svojstva učenja svojstava dubokih neuronskih mreža [90].

„Ključna ideja našeg pristupa je da možemo osposobiti duboke mreže za predviđanje vizualnog predstavljanja slika u budućnosti. Vizualni prikazi su obećavajući cilj predviđanja jer kodiraju slike na višoj semantičkoj razini od piksela, ali su automatski za izračunavanje. Zatim primjenjujemo algoritme za prepoznavanje na naš predviđeni prikaz da predvidimo objekte i radnje ”.

Organizatori Thumos Action Recognition Challenge [91] objavili su članak koji opisuje opće pristupe akcijskom prepoznavanju iz posljednjih nekoliko godina. U radu je također prikazan izazov izazova od 2013. do 2015. godine, budući smjerovi za izazov i ideje o tome kako računalima omogućiti cjelovitije razumijevanje videa putem Action Recognition. Nadamo se da se Thumos Action Recognition Challenge vraća u 2017. nakon svog (naizgled) neočekivanog hiatusa.

Pratite naš profil na srednjoj razini za sljedeći obrok - 3. dio od 4: Prema 3D razumijevanju svijeta.
Slobodno stavite sve povratne informacije i prijedloge u odjeljak za komentare i mi ćemo se vratiti što je prije moguće. Alternativno, možete nas direktno kontaktirati putem: info@themtank.com

Cijeli članak dostupan je na: www.themtank.org/a-year-in-computer-vision

Puno hvala,

M tenk

Upućivanja prema redoslijedu izgleda

[46] Pinheiro, Collobert i dolar. 2015. Učenje segmentiranja predmeta kandidata. [Online] arXiv: 1506.06204. Dostupno: arXiv: 1506.06204v2

[47] Pinheiro i sur. 2016. Učenje za pročišćavanje segmenata objekata. [Online] arXiv: 1603.08695. Dostupno: arXiv: 1603.08695v2

[48] ​​Zagoruyko, S. 2016. MultiPath mreža za otkrivanje objekata. [Online] arXiv: 1604.02135v2. Dostupno: arXiv: 1604.02135v2

[49] Dollar, P. 2016. Učenje segmentiranju. [Blog] SAJAM. Dostupno: https://research.fb.com/learning-to-segment/

[50] Dollar, P. 2016. Segmentiranje i pročišćavanje slika s SharpMaskom. [Online] Facebook kod. Dostupno: https://code.facebook.com/posts/561187904071636/segmenting-and-refining-images-with-sharpmask/

[51] Jampani i sur. 2016. Mreže širenja videozapisa. [Online] arXiv: 1612.05478. Dostupno: arXiv: 1612.05478v2

[52] Chen i dr., 2016. DeepLab: semantička segmentacija slike dubokim konvolucijskim mrežama, atrozijom i potpuno povezanim CRF-ovima. [Online] arXiv: 1606.00915. Dostupno: arXiv: 1606.00915v1

[53] Khoreva i sur. 2016. Jednostavno li to čini: slabo nadzirana instanca i semantička segmentacija. [Online] arXiv: 1603.07485v2. Dostupno: arXiv: 1603.07485v2

[54] Jégou i sur. 2016. Stotine slojeva Tiramisu: potpuno konvolucijske guste mreže za semantičku segmentaciju. [Online] arXiv: 1611.09326v2. Dostupno: arXiv: 1611.09326v2

[55] Li i sur. 2016. Semantička segmenta posve svjesna instancije. [Online] arXiv: 1611.07709v1. Dostupno: arXiv: 1611.07709v1

[56] Paszke i sur. 2016. ENet: Duboka neuronska mrežna arhitektura za semantiranje u realnom vremenu. [Online] arXiv: 1606.02147v1. Dostupno: arXiv: 1606.02147v1

[57] Vázquez i sur. 2016. Mjerila za segmentaciju endoluminalne scene kolonoskopskih slika. [Online] arXiv: 1612.00799. Dostupno: arXiv: 1612.00799v1

[58] Dolz i sur. 2016. 3D potpuno konvolucionarne mreže za subkortikalnu segmentaciju u MRI: Studija velikih razmjera. [Online] arXiv: 1612.03925. Dostupno: arXiv: 1612.03925v1

[59] Alex i sur. 2017. Poluprovjereno učenje pomoću Denoising autoencodera za detekciju i segmentaciju lezije mozga. [Online] arXiv: 1611.08664. Dostupno: arXiv: 1611.08664v4

[60] Mozaffari i Lee. 2016. 3D ultrazvučna segmentacija slike: anketa. [Online] arXiv: 1611.09811. Dostupno: arXiv: 1611.09811v1

[61] Dasgupta i Singh. 2016. Potpuno konvolucionarni pristup temeljenom na strukturi neuralne mreže prema segmentaciji mrežnice. [Online] arXiv: 1611.02064. Dostupno: arXiv: 1611.02064v2

[62] Yi i sur. 2016. 3-D revolucionarne neuronske mreže za segmentaciju glioblastoma. [Online] arXiv: 1611.04534. Dostupno: arXiv: 1611.04534v1

[63] Quan i sur. 2016. FusionNet: Duboka, potpuno zaostala konvolucionarna neuronska mreža za segmentaciju slike u connectomici. [Online] arXiv: 1612.05360. Dostupno: arXiv: 1612.05360v2

[64] Connectomics se odnosi na mapiranje svih veza unutar živčanog sustava organizma, tj. Neurona i njihovih veza.

[65] Champandard, A.J. 2017. Neuralno poboljšanje (najnovija obaveza 30.11.2016.). [Online] Github. Dostupno: https://github.com/alexjc/neural-enhance [Pristupljeno: 02.02.2017.]

[66] Caballero i sur. 2016. Super-rezolucija video zapisa u stvarnom vremenu s prostorno-vremenskim mrežama i kompenzacijom pokreta. [Online] arXiv: 1611.05250. Dostupno: arXiv: 1611.05250v1

[67] Shi i sur. 2016. Super-rezolucija pojedinačnih slika i videa u stvarnom vremenu pomoću učinkovite konvekcijske neuronske mreže potpiksela. [Online] arXiv: 1609.05158. Dostupno: arXiv: 1609.05158v2

[68] Romano i sur. 2016. RAISR: Brza i precizna slika Super rezolucija. [Online] arXiv: 1606.01299. Dostupno: arXiv: 1606.01299v3

[69] Milanfar, P. 2016. Poboljšajte! RAISR oštre slike s strojnim učenjem. [Blog] Google Research Blog. Dostupno: https://research.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html [Pristupljeno: 20.3.2017.]

[70] ibid

[71] Ledig i sur. 2017. Foto-realistična jednostruka slika Super rezolucija pomoću generativne protivničke mreže. [Online] arXiv: 1609.04802. Dostupno: arXiv: 1609.04802v3

[72] ibid

[73] Sønderby i sur. 2016. Amortizirani MAP zaključak za super rezoluciju slike. [Online] arXiv: 1610.04490. Dostupno: arXiv: 1610.04490v1

[74] Prisma. 2017. [Web stranica] Prisma. Dostupno: https://prisma-ai.com/ [Pristupljeno: 01.04.2017.]

[75] Artomatix. 2017. [Web stranica] Artomatix. Dostupno: https://services.artomatix.com/ [Pristupljeno: 01.04.2017.]

[76] Gatys i sur. 2015. Neuralni algoritam umjetničkog stila. [Online] arXiv: 1508.06576. Dostupno: arXiv: 1508.06576v2

[77] Nikulin i Novak. 2016. Istraživanje neuronskog algoritma likovnog stila. [Online] arXiv: 1602.07188. Dostupno: arXiv: 1602.07188v2

[78] Ruder i sur. 2016. Umjetnički stil prijenosa za videozapise. [Online] arXiv: 1604.08610. Dostupno: arXiv: 1604.08610v2

[79] ibid

[80] Jia i Vajda. 2016. Davanje AI u stvarnom vremenu na dlan. [Online] Facebook kod. Dostupno: https://code.facebook.com/posts/196146247499076/delivering-real-time-ai-in-the-palm-of-your-hand/ [Pristupljeno: 20.1.2017.]

[81] Dumoulin i sur. 2016. Supercharging Prijenos stila. [Online] Google Research Blog. Dostupno: https://research.googleblog.com/2016/10/supercharging-style-transfer.html [Pristupljeno: 20.1.2017.]

[82] Dumoulin i sur. 2017. Učena reprezentacija za umjetnički stil. [Online] arXiv: 1610.07629. Dostupno: arXiv: 1610.07629v5

[83] Zhang i sur. 2016. Kolorizacija šarene slike. [Online] arXiv: 1603.08511. Dostupno: arXiv: 1603.08511v5

[84] Larsson i sur. 2016. Učenje reprezentacija za automatsko koloriranje. [Online] arXiv: 1603.06668. Dostupno: arXiv: 1603.06668v2

[85] Lizuka, Simo-Serra i Ishikawa. 2016. Neka bude u boji !: Zajedničko cjelovito učenje globalnih i lokalnih prizora za automatsko koloriranje slike uz istodobnu klasifikaciju. [Online] ACM Transaction on Graphics (Proc. Of SIGGRAPH), 35 (4): 110. Dostupno: http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/

[86] ibid

[87] Varol i sur. 2016. Dugoročni vremenski zavoji za prepoznavanje akcije. [Online] arXiv: 1604.04494. Dostupno: arXiv: 1604.04494v1

[88] Feichtenhofer i sur. 2016. Prostorno-vremenske zaostale mreže za prepoznavanje video akcija. [Online] arXiv: 1611.02155. Dostupno: arXiv: 1611.02155v1

[89] Vondrick i sur. 2016. Predviđanje vizualnih prikaza iz neobilježenog videa. [Online] arXiv: 1504.08023. Dostupno: arXiv: 1504.08023v2

[90] Conner-Simons, A., Gordon, R. 2016. Nastavni strojevi za predviđanje budućnosti. [Online] MIT VIJESTI. Dostupno: https://news.mit.edu/2016/teaching-machines-to-predict-the-future-0621 [Pristupljeno: 02.02.2017.]

[91] Idrees i sur. 2016. THUMOS izazov za prepoznavanje akcije za videozapise "u divljini". [Online] arXiv: 1604.06182. Dostupno: arXiv: 1604.06182v1