Introduksjon til konvolusjonelle nevrale nettverk

Konvolusjonelle nevrale nettverk, også kjent som CNN eller ConvNet, hører under kategorien kunstige nevrale nettverk som brukes til bildebehandling og visualisering. Kunstig intelligens bruker dyp læring for å utføre oppgaven. Nevrale nettverk er enten maskinvare eller programvare programmert som nevroner i den menneskelige hjernen. Det tradisjonelle nevrale nettverket tar bare bilder med redusert oppløsning som innganger. CNN løser problemet ved å arrangere neuronene sine som frontalloben til menneskelige hjerner. Forhåndsbehandling på CNN er veldig mindre sammenlignet med andre algoritmer. Convolution, en lineær matematisk operasjon brukes på CNN. Den bruker konvolusjon i stedet for generell matrise-multiplikasjon i et av lagene.

Lag i konvolusjonelle nevrale nettverk

Nedenfor er Layers of convolutional neurale nettverk:

1. Bildeinngangslag

Inngangssjiktet gir innganger (for det meste bilder) og normalisering blir utført. Inngangsstørrelse må nevnes her.

2. Konvolusjonell lag

Convolution utføres i dette laget og bildet er delt inn i perceptrons (algoritme), lokale felt opprettes som fører til komprimering av perceptrons for å ha kart som en matrise med størrelse mx n.

3. Ikke-linearitetslag

Her blir funksjonskart tatt som input og aktiveringskart blir gitt som output ved hjelp av aktiveringsfunksjon. Aktiveringsfunksjonen implementeres vanligvis som sigmoid eller hyperbolsk tangensfunksjon.

4. Rektifikasjonslag

Den avgjørende komponenten i CNN, gjør dette laget trening raskere uten å redusere nøyaktigheten. Den utfører elementmessig drift av absolutt verdi på aktiveringskart.

5. Rektifiserte lineære enheter (ReLU)

ReLU kombinerer ikke-lineære og ensriktende lag på CNN. Dette gjør terskeloperasjonen der negative verdier konverteres til null. ReLU endrer imidlertid ikke størrelsen på inngangen.

6. Pooling Layer

Bassenglaget kalles også downsampling-laget, da dette er ansvarlig for å redusere størrelsen på aktiveringskart. Et filter og et skritt med samme lengde blir brukt på inngangsvolumet. Mindre signifikante data blir ignorert av dette laget, og derfor blir bildegjenkjenning gjort i en mindre representasjon. Dette laget reduserer overmontering. Siden mengden av parametere reduseres ved bruk av samlingslaget, reduseres også kostnadene. Inngangen er delt inn i rektangulære sammenslåingsregioner og det beregnes enten maksimum eller gjennomsnitt, som returnerer maksimum eller gjennomsnitt. Max Pooling er et populært.

7. Frafallslag

Dette laget stiller inngangssjiktet tilfeldig til null med en gitt sannsynlighet. Flere resultater i forskjellige elementer slettes etter denne operasjonen. Dette laget bidrar også til å redusere overinnredning. Det gjør at nettverket er overflødig. Ingen læring skjer i dette laget. Denne operasjonen utføres bare under trening.

8. Fullt tilkoblet lag

Aktiveringskart, som er resultatet fra tidligere lag, blir omgjort til en klassesannsynlighetsfordeling i dette laget. FC-laget multipliserer inngangen med en vektmatrise og legger til skjevvektoren.

9. Output Layer

FC-laget blir fulgt av softmax og klassifiseringslag. Softmax-funksjonen brukes på inngangen. Klassifiseringslaget beregner cross-entropy and loss-funksjonen for klassifiseringsproblemer.

10. Regresjonslag

Halvt gjennomsnittlig kvadratfeil beregnes i dette laget. Dette laget skal følge FC-laget.

Arkitektur av konvolusjonell nevralt nettverk

Nedenfor er arkitekturen til innviklede nevrale nettverk:

1. LeNet

LeNet ble introdusert for optisk og karaktergjenkjenning i dokumenter i 1998. Den er liten og perfekt for å kjøre i CPU. LeNet er liten og lett å forstå. Dette er bygget med tre hovedideer: lokale mottakelige felt delte vekter og romlig underampling. Nettverket viser den beste interne representasjonen av råbilder. Den har tre sammensveisende lag, to sammenlagdelag, ett helt tilkoblet lag og ett utgangssjikt. Ett konvolusjonerende lag ble umiddelbart etterfulgt av samlingslaget. Alle lagene er forklart over.

2. AlexNet

AlexNet ble utviklet i 2012. Denne arkitekturen populariserte CNN i Computer vision. Den har fem sammensveisede og tre helt tilkoblede lag der ReLU påføres etter hvert lag. Det tar fordelene med begge lagene ettersom et innviklingslag har få parametere og lang beregning, og det er motsatt for et fullt tilkoblet lag. Overfitting ble veldig redusert av datautvidelse og frafall. AlexNet var dypere, større og sammensveisede lag skilles ikke av sammenlagdelag sammenlignet med LeNet.

3. ZF Net

ZF Net ble utviklet i 2013 som var en modifisert versjon av AlexNet. Størrelsen på det midtre konvolusjonelle laget ble utvidet og det første konvolusjonelle lagets skritt og filterstørrelse ble gjort mindre. Den anerkjente bare manglene ved AlexNet og utviklet en overlegen. Alle lagene er de samme som AlexNet. ZF Net justerer lagparametrene, for eksempel filterstørrelse eller skritt på AlexNet, noe som gjør at det reduserer feilhastighetene.

4. GoogLeNet

Denne arkitekturen ble utviklet i 2014. Oppstartssjiktet er kjernekonseptet. Dette laget dekker det større området, men gjør oppmerksom på liten informasjon om bildet. For å forbedre ytelsen brukes ni startmoduler i GoogLeNet. Siden begynnelseslaget er utsatt for overmasse, brukes flere ikke-lineariteter og færre parametere her. Maks bassenglag brukes til å slå sammen resultatet fra det forrige laget. Denne arkitekturen har 22 lag og parametrene er 12 ganger mindre. Dette er mer nøyaktig enn AlexNet, raskere også. Feilfrekvensen er relativt lavere. Det gjennomsnittlige bassenglaget brukes på slutten i stedet for et fullt tilkoblet lag. Beregningen reduseres, dybden og bredden økes. Mange begynnelsesmoduler er koblet for å gå dypere inn i arkitekturen. GoogLeNet overgikk alle de andre arkitekturene som ble utviklet til 2014. Flere oppfølgingsversjoner er tilgjengelige for denne arkitekturen.

5. VGG Net

Dette var en forbedring i forhold til ZFNet og deretter over AlexNet. Den har 16 lag med 3 × 3 konvolusjonerende lag, 2 × 2 bassenglag og fullt tilkoblede lag. Denne arkitekturen vedtar den enkleste nettverksstrukturen, men den har de fleste parameterne.

6. ResNet

Residual Network architecture ble utviklet i 2015. Den bruker batch-normalisering og hopper over bruken av FC-lag. Denne arkitekturen bruker 152 lag og bruker hoppforbindelser. ResNet brukes stort sett i alle dype læringsalgoritmer nå.

Konklusjon

Facebook bruker CNN for bildemerking, Amazon for produktanbefalinger og Google for å søke blant brukerbilder. Alle disse gjøres med større nøyaktighet og effektivitet. Fremgangen i dyp læring nådde et stadium hvor CNN ble utviklet og hjelper på mange måter. Så komplisert CNN blir, hjelper det med å forbedre effektiviteten.

Anbefalt artikkel

Dette er en guide til konvolusjonelle nevrale nettverk. Her diskuterer vi Introduksjon til konvolusjonelle nevrale nettverk og dets lag sammen med arkitektur. Du kan også gå gjennom andre foreslåtte artikler for å lære mer -

  1. Klassifisering av nevrale nettverk
  2. Machine Learning vs Neural Network
  3. Oversikt over nevrale nettverksalgoritmer
  4. Gjentatte nevrale nettverk (RNN)
  5. Implementering av nevrale nettverk
  6. Topp 6 sammenligninger mellom CNN vs RNN

Kategori: