Hva er Deep Learning AF: hvordan fungerer Canons AI-drevne autofokus?

Canon har laget mye støy om det nye Deep Learning AF-systemet, som ligger i hjertet av produsentens siste profesjonelle profesjonelle kamera. Det høres utrolig smart ut, men det er mange spørsmål - hva er Deep Learning? Hvem gjør undervisningen? Lærer systemet mens du skyter? Er det virkelig kunstig intelligens i et kamera? Gjør det faktisk autofokus noe bedre?

Hvis du har lest Canon EOS-1D X Mark III-gjennomgangen, vet du at svaret på det siste spørsmålet er et rungende ja. Når det gjelder svarene på de andre spørsmålene om Deep Learning AF, ta deg en drink og en matbit og les videre …

Autofokusmekanikken til Canon EOS-1D X Mark III er utrolig smart og støtter to individuelle AF-systemer. Først er det optiske systemet, som skyter 16 bilder per sekund gjennom søkeren, ved hjelp av en målesensor på 400 000 piksler i forbindelse med en dedikert Digic 8-prosessor, for 191-punkts AF som er i stand til ansiktssporing.

Deretter er det Live View-systemet, som kan ta 20 bilder per sekund og bruke alle 20,1 millioner piksler på bildesensoren kombinert med den nye Digic X-prosessoren, for 3 869 CMOS-punkter med to piksler som kan utføre AF med full øye.

Kraft til begge disse systemene er Canons kjerne EOS iTR AFX-teknologi - den siste iterasjonen av Intelligent Tracking and Recognition Auto Focus, som debuterte i den originale EOS-1D X (og deretter gjorde veien til 7D Mark II og 5D-familien). Og begravd i kretsløpet er Deep Learning-algoritmen.

Deep Learning er IKKE det samme som AI

Først og fremst er det viktig å presisere at Deep Learning ikke skal forveksles med kunstig intelligens (AI). Et AI-system er noe som er i en kontinuerlig utvikling. Deep Learning, eller maskinlæring, er en delmengde av AI.

I motsetning til ekte AI er Deep Learning en lukket prosess. Det er en forhåndsmonteringsalgoritme som gjør at kameraarkitekturen i hovedsak kan lære seg selv, mye raskere enn den kunne programmeres manuelt av menneskelige ingeniører. Når denne læringen er fullført, låses den ned og lastes inn i kameraet.

Fra det punktet er ikke mer læring mulig; til tross for navnet - og Deep Learning er navnet på teknologien, ikke en beskrivelse av prosessen - kameraet lærer ikke hele tiden, og vil ikke bli "bedre" jo mer du skyter (faktisk, et ekte AI-system vil lære så mange av de dårlige vanene dine som det ville være de gode!).

"Det er blitt lært," forklarer Mike Burnhill, teknisk supportansvarlig for Canon Europe. "Du legger den inn i en datamaskin, den lager algoritmen som deretter lastes inn i kameraet. Så den er forskjellig fra AI - AI er en kontinuerlig læring; dyp læring er i utgangspunktet den lærer seg selv, og gir deg et sluttresultat som deretter lastes inn i kameraet. "

Hvilket vekker spørsmålet: med så mange selskaper som roper om AI-baserte funksjoner, er et kamera i stand til å støtte kunstig intelligens?

"Prosessorkraften til å gjøre ekte AI er ikke mulig i et kamera," sier Burnhill. "Hvis du vil gjøre det, finnes det telefoner - men dataene ligger ikke i telefonen din, de er i Silicon Valley. Det er der AI-systemet er. Det er bare, telefonforbindelsen din kobler til den - den er ikke her, den er der (i skyen), fordi du trenger en server. Vi kan gjøre et kamera, men du vil ha med deg en gigantisk flyveske hele tiden. "

Hvordan lærer Deep Learning seg selv?

Så, Deep Learning-algoritmen lærer seg selv - men hvor lærer den egentlig fra? Svaret, enkelt sagt, er 'fra det beste'.

"Canon jobbet med byråene våre," forteller Burnhill. "Vi fikk i utgangspunktet tilgang til hele bildedatabasen med sportsfotografering, fra alle de store byråene, vi jobbet med våre ambassadører som skyter sport, og de ga sine bilder av forskjellige emner, og det tillot oss å lære dette AF-systemet å gjenkjenne mennesker i sport. "

Sport er tydeligvis den målrettede undervisningsmetoden fordi Canon EOS-1D X Mark III først og fremst er et sportskamera. Problemet er, enten det er en basketballspiller som vender bort fra kameraet, en skiløper som bruker briller, eller en Formel 1-sjåfør som har hjelm, folk i sport ofte har ansiktene skjult - noe som betyr at tradisjonelt ansikt eller til og med øyeoppdagelses-AF ikke ' fungerer ikke, og kameraet vil i stedet låse seg på ting som tallene på spillerens uniform.

Ved å gi Deep Learning-algoritmen tilgang til et stort bibliotek med bilder, av alt fra opp-og-ned gymnaster til hockeyspillere som bruker pads og hjelmer, er det i stand til å lære og differensiere menneskets form i et uendelig utvalg av situasjoner - og er til slutt i stand til å utføre denne "hodepåvisning", slik at selv om personens ansikt ikke er synlig, er hodet alltid det primære fokuspunktet.

"Dyp læring er i utgangspunktet det er bilder, du lager et sett med regler for det å lære av, og så går det av og det lager sin egen algoritmebaserte," fortsetter Burnhill. "Så du setter parametrene for hvordan personen vil se ut, du går," Her er personen, "så analyserer den alle bildene av mennesker og sier" Dette er en person "," Det er en person ". Det går gjennom millioner av bilder over en periode og lager databasen, og den lærer av seg selv. "

Faktisk lager algoritmen faktisk to databaser - en for å betjene det optiske søkerens AF-system og måling, ved hjelp av Digic 8, og en for å betjene Live View AF-systemet som bruker Digic X. Siden det er Digic X som gjør all beregningen for head tracking, når AF-algoritmen oppdager en person i rammen, skyves alt over til den nye prosessoren.

"Når du har fått en person inn, har du faktisk dobbel behandling på gang," sier Burnhill. "Det er to databaser her, fordi inngangen fra begge sensorene kommer til å være litt annerledes, så hvordan den blir gjenkjent vil være litt annerledes, så dette er delmengder av samme algoritme. Kjernedataene for dem begge er de samme, det er bare hvordan det blir gjenkjent og de riktige dataene som brukes på det. "

Hvis den ikke kan lære nye ting … hva med dyre-AF?

Selvfølgelig er Canon EOS-1D X Mark III ikke bare et sportskamera - det andre viktige publikummet er naturskyttere. Likevel har kameraet ikke dyrefokusfokus, og vi har slått fast at Deep Learning faktisk ikke kan lære noen nye triks når det er blitt bakt inn i kameraet. Så er det det? Med all denne fancy nye teknologien, vil ikke kameraet engang fokusere på familiehunden?

Det er sant at kameraet akkurat nå ikke har dyre- (eller dyreøye) AF. "I utgangspunktet konsentrerer vi oss om at folk begynner med å få den slags algoritme til å fungere først," svarer Burnhill. "Det er derfor vi har fokusert på sport, for det er en angitt parameter, og vi kan lære det i løpet av en viss periode,"

Svaret ligger altså i firmware. Burnhill bekreftet at det er potensial for kameraet å gjennomgå mer Deep Learning, for ting som fugler og dyreliv, og for at denne oppdaterte algoritmen skal formidles til brukerne via firmwareoppdateringer - selv om det ikke er noen konkrete planer om å kunngjøre.

"Vi kommer til å utvikle det hele tiden, så for øyeblikket er det fortsatt ubestemt hvordan og hvor vi går. Men utviklingsteamet går og ser på annen dyrefotografering - vi innser at det er en hel rekke felt, men åpenbart de store fokuset på dette kameraet er sport og deretter dyreliv, og tydeligvis med Tokyo 2022-2023 var dette prioriteringene. "

Det er et greit poeng; hvis Canon ventet på at Deep Learning skulle lære alt, ville det tatt lengre tid før kameraet ble sluppet. Og selv om produsenter som Sony skryter av selektiv dyre-AF i kameraene, bemerker Burnhill at Canon heller vil gi ut en komplett dyre-AF-løsning enn en selektiv, stykkevis. Og det er her Deep Learning vil bli uvurderlig.

"Problemet er med dyrelivet, det er mange forskjellige dyr - du har tydeligvis rovdyr med øynene foran, og så har du kanins (øyne) på siden, du har slanger, du har fugler … det er ikke noe system som gjenkjenner ansiktene til alle dyr. Og det er der du kommer inn i hele denne dype læringen, å lære systemet å gjenkjenne disse komplekse tingene. "

Så mens Sony kan være i stand til å spore hunden din eller katten din, men ikke en salamander eller en flamingo, vil Canon produsere et kamera som gjør alt eller ingenting. "Hvis vi skulle gjøre det, vil vi gjøre det for et så bredt spekter - vi vil ikke lage et hundevennlig kamera og et kattevennlig kamera, vi vil lage et dyrevennlig kamera som fungerer for det brede spekteret av dyr som (profesjonelle) ville skyte. "

Canon EOS-1D X Mark III anmeldelse
Hvordan laget Canon den raskeste DSLR noensinne? Ved å redesigne speilboksen
102 oppdateringer om Canon EOS-1D X Mark III