Pastaraisiais metais gilus mokymasis pakeitė kompiuterinio matymo lauką, todėl kompiuteriai gali suvokti ir išsiaiškinti vaizdinę informaciją neįprastu lygiu. Konvoliuciniai neuroniniai tinklai (CNN) turėjo lemiamos įtakos šiam pokyčiui, o keli novatoriški projektai rodė kelią. Dvi įtakingiausios CNN struktūros yra AlexNet ir GoogleNet (InceptionNet). Šie du modeliai iš viso papildė vaizdų klasifikavimo užduočių eigą, tačiau savo struktūromis ir projektavimo principais skiriasi. Šiame straipsnyje mes pasinersime į esminius AlexNet ir GoogleNet skirtumus, išnagrinėsime jų struktūras, dizaino sprendimus ir vykdymą.
Pagrindiniai AlexNet ir GoogleNet skirtumai
Funkcija | AlexNet | GoogleNet (InceptionV3) |
---|---|---|
Išleidimo / pristatymo metai | 2012 m | 2014 m |
Modelio sluoksnių skaičius | 8 (5 Convolution, 3 FC) | 159 (įskaitant pagalbinius) |
Architektūra | Eilės tvarka | Daugiašakis (pradžioje) |
Konvoliucijos dydis | Didesni filtrai (11x11, 5x5) | Mažesni filtrai (1x1, 3x3, 5x5) |
Sluoksnių sujungimas | Max Pooling | Maksimalus ir vidutinis telkimas |
Aktyvinimo funkcija | Aprašymas | ReLU ir kiti variantai |
Vietinis atsako normalizavimas (LRN) | Naudota | Nėra naudojamas |
Pradžios moduliai | Nėra naudojamas | Naudojamas su daugybe kelių šakų |
Skaičiavimo efektyvumas | Vidutinis | Aukštesnis |
Modelio sudėtingumas | Žemas | Aukštas |
Geriausias tikslumas („ImageNet“) | 0,571 | 0,739 |
Kas yra AlexNet?
AlexNet yra dėmesio verta konvoliucinio neuroninio tinklo (CNN) architektūra, kurią sukūrė Aleksas Križevskis, Ilja Sutskeveris ir Geoffrey Hintonas. Jis buvo pristatytas 2012 m. ir padarė didelę pažangą „ImageNet Large Scope Visual Recognition Challenge“ (ILSVRC) srityje, iš esmės pralenkdamas skirtingas metodikas. „AlexNet“ buvo pagrindinis CNN, parodęs gilaus mokymosi vaizdų užsakymo užduotims gyvybingumą, o tai reiškia lemiamą momentą kompiuterinio matymo srityje.
1. Architektūra
2012 m. išleistas „AlexNet“ buvo CNN lyderis, laimėjęs „ImageNet Large Scope Visual Recognition Challenge“ (ILSVRC) su kritine klaidų vieta. Jį sudaro penki konvoliuciniai sluoksniai, po kurių seka trys visiškai susiję sluoksniai. ReLU (Redressed Direct Unit) įjungimo ir kaimynystės reakcijos standartizavimo (LRN) naudojimas padidino jos gerovę. AlexNet papildomai pristatė idėją į rengimą įtraukti GPU, o tai visiškai paspartino augantį patirtį.
2. Tinklo gilumas:
Aštuonių sluoksnių (penkių konvoliucinių ir trijų visiškai susijusių sluoksnių) AlexNet pristatymo valandą buvo vertinamas kaip gilus. Nepaisant to, priešingai nei dabartinis dizainas, jis paprastai yra negilus, ribojantis jo galimybes sugauti neįtikėtinus elementus ir pavyzdžius itin sudėtinguose duomenų rinkiniuose.
3. Skaičiavimo našumas:
objektų masyvas java
Nors AlexNet GPU paruošimo pristatymas pagreitino mokymosi patirtį, jis vis tiek buvo brangus dėl gilesnių visiškai susijusių sluoksnių ir riboto lygiagretinimo panaudojimo.
4. Per didelis pritaikymas:
Dėl savo vidutiniškai seklios konstrukcijos ir daugybės ribų AlexNet buvo labiau linkęs per daug pritaikyti, ypač kuklesniuose duomenų rinkiniuose. Vėliau buvo susipažinta su tokiomis strategijomis kaip mokyklos nebaigimas, siekiant išspręsti šią problemą.
5. Mokymai:
Norėdami išmokyti AlexNet, kūrėjai panaudojo ImageNet duomenų rinkinį, kuriame yra daugiau nei 1 000 000 pavadintų vaizdų iš 1 000 klasifikacijų. Jie naudojo stochastinį kampo kritimą (SGD) su energija kaip tobulinimo skaičiavimą. Mokymų metu buvo taikomi informacijos išplėtimo metodai, tokie kaip savavališkas redagavimas ir apvertimas, siekiant išplėsti mokymo duomenų rinkinio dydį ir toliau plėtoti apibendrinimą.
Mokymo sistema buvo reikalaujama skaičiavimo būdu, o „AlexNet“ GPU panaudojimas vienodam naudojimui buvo labai svarbus. „AlexNet“ mokymas naudojant dvigubą GPU sistemą užtruko maždaug septynias dienas, o tai buvo esminis patobulinimas, palyginti su įprastu kompiuterio procesoriaus mokymo laiku.
6. Rezultatai:
„ImageNet 2012“ varžybose „AlexNet“ pasiekė vertą 5 geriausių klaidų tempą – apie 15,3 proc., aplenkdamas įvairias metodikas.
AlexNet rezultatas sukėlė susidomėjimą giliu mokymusi ir CNN, paskatindamas kompiuterinės vizijos vietinės zonos koncentracijos pasikeitimą link papildomų sudėtingų ir gilesnių neuroninių tinklų.
7. Konvoliucinio sluoksnio sąranka:
„AlexNet“ konvoliuciniai sluoksniai yra suskirstyti į pagrindinę eiliškumą, periodiškai naudojant maksimalaus sujungimo sluoksnius, kad būtų sumažinta atranka. Ši aiški inžinerija tuo metu buvo svarbi, tačiau ji apribojo organizacijos galimybes pagauti sudėtingus progresyvius elementus.
8. Matmenų sumažėjimas:
AlexNet apima maksimalų sujungimo sluoksnius, skirtus sumažinti atranką, sumažinant elementų žemėlapių erdvinius komponentus. Tai padeda sumažinti skaičiavimo svorį ir kontroliuoti permontavimą.
9. Modelio dydis ir sudėtingumas:
Nors AlexNet tuo metu buvo vertinamas kaip gilus, jis yra šiek tiek kuklesnis ir ne toks sudėtingas, palyginti su vėlesniais dizainais. Šis tiesmukiškumas padarė jį akivaizdžiau ir įgyvendinamesnį.
10. Pagalbinių klasifikatorių naudojimas:
mašinraščio data ir laikas
Kad išspręstų garavimo kampų problemą rengimo metu, AlexNet pristatė pagalbinių klasifikatorių idėją. Šie papildomi klasifikatoriai buvo sujungti su vidutinio sunkumo sluoksniais ir davė kampo ženklus prieš sluoksniams dauginant atgal.
11. Poveikis tyrimų krypčiai:
„AlexNet“ rezultatas buvo didžiulis kompiuterio regėjimo lauko pasikeitimas. Tai paskatino mokslininkus ištirti gilaus mokymosi galimybes atliekant įvairias su nuotrauka susijusias užduotis, todėl greitai tobulinami toliau plėtojami CNN dizainai.
Kas yra GoogleNet?
GoogleNet, kitaip vadinamas Inception v1, yra CNN architektūra, kurią sukūrė Google Brain grupė, ypač Christian Szegedy, Wei Liu ir kiti. Jis buvo pristatytas 2014 m. ir laimėjo ILSVRC su toliau tobulėjančiu tikslumu ir skaičiavimo našumu. „GoogleNet“ architektūra apibūdinama giliu dizainu, kurį sudaro 22 sluoksniai, todėl jis yra vienas pirmųjų „išskirtinai gilių“ CNN.
1. Architektūra
„GoogleNet“ (1 versija): pristatytas 2014 m., „GoogleNet“ yra būtinas CNN pradžios grupei. Jis žinomas dėl savo gilaus dizaino, apimančio 22 sluoksnius (pradžios moduliai). Svarbus „GoogleNet“ vystymasis yra pradinis modulis, kuriame atsižvelgiama į vienodas įvairaus dydžio kanalų konvoliucijas panašiame sluoksnyje. Tai sumažino skaičiavimo sudėtingumą ir išlaikė tikslumą, todėl „GoogleNet“ tapo efektyvesnis nei „AlexNet“.
2. Tinklo gilumas:
„GoogleNet“ pradiniai moduliai laikomi iš esmės gilesniu dizainu, nedidinant skaičiavimo išlaidų. Turėdamas 22 sluoksnius, „GoogleNet“ buvo vienas iš pagrindinių CNN, rodančių išplėstinio tinklo gilumo pranašumus, skatinančius toliau tobulinti tikslumą ir galią.
3. Skaičiavimo našumas:
„GoogleNet“ pradžios moduliai laikomi produktyvesniu skaičiavimo išteklių naudojimu. Naudodamas vienodas konvoliucijas kiekviename pradiniame bloke, „GoogleNet“ sumažino ribų ir skaičiavimų skaičių, todėl jis tapo lengviau pasiekiamas nuolatinėms programoms ir perdavimui naudojant įtaisus, kuriems reikalingas turtas.
4. Per didelis komplektavimas:
Gilus, bet efektyvus „GoogleNet“ dizainas iš esmės sumažino perteklinį pritaikymą, leido jam geriau veikti kuklesnius duomenų rinkinius ir perkelti mokymosi situacijas.
5. Mokymai:
„GoogleNet“ mokymuose papildomai nagrinėjamas „ImageNet“ duomenų rinkinio naudojimas, o apibendrinimo atnaujinimui buvo naudojamos palyginamos informacijos didinimo procedūros. Kad ir kaip būtų, dėl gilesnės architektūros „GoogleNet“ mokymų metu reikėjo daugiau skaičiavimo išteklių nei „AlexNet“.
Pradinių modulių kūrimas leido „GoogleNet“ rasti tam tikrą harmoniją tarp gilumo ir skaičiavimo efektyvumo. Dėl vienodos konvoliucijos kiekviename pradiniame bloke sumažėjo skaičiavimų ir ribų skaičius, todėl mokymas tapo lengviau pasiekiamas ir efektyvesnis.
6. Rezultatai:
„GoogleNet“ konkurse „ImageNet 2014“ padarė puikų 5 geriausių klaidų – maždaug 6,67 % – tempą ir pralenkė AlexNet pristatymą.
Gili, bet įgudusi „GoogleNet“ architektūra parodė gilesnių neuroninių tinklų galimybes, kartu neatsilikdama nuo skaičiavimo pasiekiamumo, todėl jis buvo patrauklesnis tikroms programoms.
7. Konvoliucinio sluoksnio sąranka:
Java enum vertė
GoogleNet pristatė pradinių modulių idėją, kurią sudaro daugybė vienodų įvairaus kanalo dydžių konvoliucinių sluoksnių. Šis planas leidžia „GoogleNet“ užfiksuoti svarbiausius dalykus įvairiu mastu ir bendrai veikia organizacijos gebėjimą pašalinti svarbius elementus iš skirtingo svarstymo laipsnio.
8. Matmenų sumažėjimas:
nepaisant įprasto maksimalaus kaupimo, GoogleNet naudoja matmenų mažinimo metodus, tokius kaip 1x1 konvoliucijos. Šios kuklesnės konvoliucijos yra skaičiuojant mažiau eskaluojamos ir padeda sumažinti elementų skaičių, kartu išsaugant pagrindinius duomenis.
9. Modelio dydis ir sudėtingumas:
„GoogleNet“ kilmės moduliai sukuria gilesnį dizainą su iš esmės daugiau sluoksnių ir ribų. Šis sudėtingumas, nors ir siūlo tobulesnį tikslumą, taip pat gali paskatinti organizaciją atlikti daugiau bandymų pasiruošti ir kalibruoti.
10. Pagalbinių klasifikatorių naudojimas:
„GoogleNet“ patobulino pagalbinių klasifikatorių idėją įtraukdama juos į inicijavimo modulius. Šie pagalbiniai klasifikatoriai pagerina gilesnių sluoksnių paruošimą ir atnaujina kampo srautą, todėl paruošimas tampa pastovesnis ir efektyvesnis.
11. Poveikis tyrimų krypčiai:
Pradiniai „GoogleNet“ moduliai suteikė galimybę efektyviai išgauti komponentus įvairiais mastais. Ši idėja paveikė gautų projektų planą, suteikdama analitikams galimybę visiškai nesidomėti organizacijos gilumu ir skaičiavimo produktyvumu, kartu neatsilikdama nuo tikslumo arba toliau jį tobulinant.
Išvada
Tiek „AlexNet“, tiek „GoogleNet“ turi ilgalaikį poveikį kompiuterinio matymo ir gilaus mokymosi laukams. „AlexNet“ parodė CNN galimybes atlikti vaizdo atpažinimo užduotis ir parengti būsimai pažangai. Vėlgi, GoogleNet pristatė kilmės modulių idėją, paruošdama juos efektyvesnėms ir gilesnėms CNN struktūroms.
Nors „AlexNet“ ir „GoogleNet“ turi savo ypatingų išteklių, gilaus mokymosi sritis iš esmės išsivystė nuo jų pristatymų. Šiuolaikiniai dizainai, tokie kaip ResNet, DenseNet ir EfficientNet, papildomai išplėtė tikslumo, produktyvumo ir apibendrinimo ribas. Analitikams tobulinant ir plečiant šiuos esminius modelius, kompiuterinio regėjimo likimas turi daug dėmesio vertų įsipareigojimų ir papildomų intriguojančių perspektyvų.