Når du ser på det følgende billede, ser du mennesker, genstande og bygninger.
Det bringer minder om tidligere oplevelser, lignende situationer, du er stødt på.
Publikum vender den samme retning og holder telefoner op, hvilket fortæller dig, at dette er en slags begivenhed.
Den person, der står nær kameraet, har en T-shirt, der antyder, hvad begivenheden kan være.
Når du ser på andre små detaljer, kan du udlede meget mere information fra billedet.
Foto af Joshua J.
Cotten på Unsplash Men for en computer er dette billede - som alle billeder - en række pixels, numeriske værdier, der repræsenterer nuancer af rødt, grønt og blåt.
En af de udfordringer, som computerforskere har kæmpet med siden 1950'erne, har været at skabe maskiner, der kan give mening om fotos og videoer, som mennesker gør.
Feltet af computersyn er blevet et af de hotteste forskningsområder inden for datalogi og kunstig intelligens.
Tiår senere har vi gjort store fremskridt hen imod oprettelse af software, der kan forstå og beskrive indholdet af visuelle data.
Men vi har også opdaget, hvor langt vi skal gå, før vi kan forstå og replikere en af ??de grundlæggende funktioner i den menneskelige hjerne.
En kort historie om computersyn
I 1966 lancerede Seymour Papert og Marvin Minsky, to pionerer inden for kunstig intelligens, Summer Vision Project, en to-måneders, 10-mand bestræbelse på at skabe et computersystem, der kunne identificere objekter i billeder.
For at udføre opgaven skulle et computerprogram være i stand til at bestemme, hvilke pixels der tilhørte hvilket objekt.
Dette er et problem, som det menneskelige synssystem, drevet af vores store viden om verden og milliarder af år med evolution, løser nemt.
Men for computere, hvis verden kun består af tal, er det en udfordrende opgave.
På tidspunktet for dette projekt var den dominerende gren af ??kunstig intelligens symbolsk AI, også kendt som regelbaseret AI: Programmører specificerede manuelt reglerne til detektion af objekter i billeder.
Men problemet var, at objekter i billeder kunne vises fra forskellige vinkler og i forskellige lys.
Objektet kan forekomme i en række forskellige baggrunde eller være delvist lukket af andre objekter.
Hver af disse scenarier genererer forskellige pixelværdier, og det er praktisk taget umuligt at oprette manuelle regler for hver enkelt af dem.
Naturligvis kom Summer Vision Project ikke langt og gav begrænsede resultater.
Et par år senere, i 1979, foreslog den japanske videnskabsmand Kunihiko Fukushima neocognitron, et computersynssystem baseret på neurovidenskabelig forskning udført på den menneskelige visuelle cortex.
Selvom Fukushimas neocognitron ikke udførte nogen komplekse visuelle opgaver, lagde den grundlaget for en af ??de vigtigste udviklinger i historien om computersyn.
Den dyblærende revolution
I 1980'erne introducerede den franske computerforsker Yan LeCun det revolutionære neurale netværk (CNN), et AI-system inspireret af Fukushimas neokognitron.
En CNN består af flere lag af kunstige neuroner, matematiske komponenter, der groft imiterer funktionen af ??deres biologiske kolleger.
Når et nedbrydningsneuralt netværk behandler et billede, udtrækker hvert af dets lag specifikke funktioner fra pixels.
Det første lag registrerer meget grundlæggende ting, såsom lodrette og vandrette kanter.
Når du bevæger dig dybere ind i det neurale netværk, registrerer lagene mere komplekse funktioner, herunder hjørner og former.
De sidste lag i CNN registrerer specifikke ting såsom ansigter, døre og biler.
CNN's outputlag giver en tabel med numeriske værdier, der repræsenterer sandsynligheden for, at et bestemt objekt blev opdaget i billedet.
Toplag af neurale netværk registrerer generelle træk; dybere lag registrerer faktiske objekter (Kilde: arxiv.org) LeCuns konvolutionsneurale netværk var strålende og viste meget løfte, men de blev holdt tilbage af et alvorligt problem: Indstilling og brug af dem krævede enorme mængder data og beregningsressourcer, der ikke var tilgængelige på det tidspunkt.
CNN'er fandt til sidst kommercielle anvendelser i nogle få begrænsede domæner såsom bankvirksomhed og posttjenester, hvor de blev brugt til at behandle håndskrevne cifre og breve på konvolutter og checks.
Men inden for detektering af objekter faldt de ved vejkanten og gav plads til andre maskinlæringsteknikker, såsom supportvektormaskiner og tilfældige skove.
I 2012 udviklede AI-forskere fra Toronto AlexNet, et revolutionært neuralt netværk, der dominerede i den populære ImageNet billedgenkendelseskonkurrence.
AlexNets sejr viste, at det i betragtning af den stigende tilgængelighed af data og beregningsressourcer måske var tid til at besøge CNN'er igen.
Begivenheden genoplivet interessen for CNN'er og udløste en revolution inden for dyb læring, den gren af ??maskinindlæring, der involverer brugen af ??flerlags kunstige neurale netværk.
Takket være fremskridt inden for neurologiske netværk og dyb læring siden da er computersynet vokset med spring.
Anvendelser af computersyn
Mange af de applikationer, du bruger hver dag, anvender computervisionsteknologi.
Google bruger det til at hjælpe dig med at søge efter objekter og scener - sig "hund" eller "solnedgang" - i dit billedbibliotek.
Andre virksomheder bruger computersyn til at forbedre billederne.
Et eksempel er Adobe Lightroom CC, der bruger maskinlæringsalgoritmer til at forbedre detaljerne i zoomede billeder.
Traditionel zoomning bruger interpolationsteknikker til at farve de indzoomede områder, men Lightroom bruger computersyn til at registrere objekter i billeder og skærpe deres funktioner, når man zoomer ind.
Et felt, der har set bemærkelsesværdige fremskridt takket være fremskridt inden for computersyn, er ansigtsgenkendelse.
Apple bruger algoritmer til ansigtsgenkendelse til at låse iPhones op.
Facebook bruger ansigtsgenkendelse til at opdage brugere på billeder, du lægger online (selvom ikke alle er fan).
I Kina leverer mange detailhandlere nu ansigtsgenkendelsesteknologi, der fritager deres kunder for behovet for at række ud i deres lommer.
Fremskridt med ansigtsgenkendelse har også skabt bekymring blandt fortrolighedsforkæmpere, men især da regeringsorganer i forskellige lande bruger det til overvågning.
Indholdsmoderering er et andet vigtigt program til computersyn.
Virksomheder som Facebook skal gennemgå milliarder af indlæg hver dag og fjerne billeder og videoer, der indeholder vold, ekstremisme eller pornografi.
De fleste sociale medianetværk bruger dyblærende algoritmer til at analysere indlæg og markere dem, der indeholder forbudt indhold.
Anbefalet af vores redaktører
Når vi går videre til mere specialiserede områder, bliver computersyn hurtigt et uundværligt værktøj inden for medicin.
Dyblærende algoritmer viser imponerende nøjagtighed ved analyse af medicinske billeder.
Hospitaler og universiteter bruger computersyn til at forudsige forskellige typer kræft ved at undersøge røntgenstråler og MR-scanninger.
Selvkørende biler er også stærkt afhængige af computersyn for at give mening om deres omgivelser.
Dyblærende algoritmer analyserer videofeeds fra kameraer, der er installeret på køretøjet, og opdager mennesker, biler, veje og andre objekter for at hjælpe bilen med at navigere i sit miljø.
Grænserne for computersyn
Nuværende computersynssystemer gør et anstændigt stykke arbejde med at klassificere billeder og lokalisere objekter i fotos, når de trænes i nok eksempler.
Men i deres kerne matcher dyblæringsalgoritmerne, der driver computersynsapplikationer, pixelmønstre.
De har ingen forståelse for, hvad der foregår på billederne.
At forstå forholdet mellem mennesker og objekter i visuelle data kræver sund fornuft og baggrundsviden.
Derfor kan computersynsalgoritmer, der bruges af sociale medianetværk, opdage nøgenindhold, men ofte kæmper for at fortælle forskellen mellem sikker nøgenhed (amning eller renæssancekunst) og forbudt indhold som pornografi.
Ligeledes er det svært for disse algoritmer at skelne forskellen mellem ekstremistisk propaganda og en dokumentar om ekstremistiske grupper.
Mennesker kan udnytte deres store kendskab til verden for at udfylde hullerne, når de står over for en situation, de ikke har set før.
I modsætning til mennesker skal algoritmer til computersyn instrueres grundigt i, hvilke typer objekter de skal registrere.
Så snart deres miljø indeholder ting, der afviger fra deres træningseksempler, begynder de at handle på irrationelle måder, såsom ikke at opdage udrykningskøretøjer, der er parkeret på ulige steder.
For øjeblikket er den eneste løsning til løsning af disse problemer at træne AI-algoritmer i flere og flere eksempler, i håb om, at yderligere data vil dække enhver situation, som AI vil stå over for.
Men som erfaringerne viser, vil der uden situationskendskab altid være hjørnesager - sjældne situationer, der forveksler AI-algoritmen.
Mange eksperter mener, at vi kun opnår ægte computersyn, når vi skaber kunstig generel intelligens, AI, der kan løse problemer på samme måde som mennesker.
Som datalog og AI-forsker siger Melanie Mitchell i sin bog Kunstig intelligens: En guide til tænkende mennesker: "Det ser ud til, at visuel intelligens ikke let kan adskilles fra resten af ??intelligensen, især generel viden, abstraktion og sprog ...
Derudover kan det være, at den viden, der er nødvendig for menneskelig visuel intelligens ...
ikke kan læres af millioner af billeder downloadet fra internettet, men skal opleves på en eller anden måde i den virkelige verden.
"
Når du ser på det følgende billede, ser du mennesker, genstande og bygninger.
Det bringer minder om tidligere oplevelser, lignende situationer, du er stødt på.
Publikum vender den samme retning og holder telefoner op, hvilket fortæller dig, at dette er en slags begivenhed.
Den person, der står nær kameraet, har en T-shirt, der antyder, hvad begivenheden kan være.
Når du ser på andre små detaljer, kan du udlede meget mere information fra billedet.
Foto af Joshua J.
Cotten på Unsplash Men for en computer er dette billede - som alle billeder - en række pixels, numeriske værdier, der repræsenterer nuancer af rødt, grønt og blåt.
En af de udfordringer, som computerforskere har kæmpet med siden 1950'erne, har været at skabe maskiner, der kan give mening om fotos og videoer, som mennesker gør.
Feltet af computersyn er blevet et af de hotteste forskningsområder inden for datalogi og kunstig intelligens.
Tiår senere har vi gjort store fremskridt hen imod oprettelse af software, der kan forstå og beskrive indholdet af visuelle data.
Men vi har også opdaget, hvor langt vi skal gå, før vi kan forstå og replikere en af ??de grundlæggende funktioner i den menneskelige hjerne.
En kort historie om computersyn
I 1966 lancerede Seymour Papert og Marvin Minsky, to pionerer inden for kunstig intelligens, Summer Vision Project, en to-måneders, 10-mand bestræbelse på at skabe et computersystem, der kunne identificere objekter i billeder.
For at udføre opgaven skulle et computerprogram være i stand til at bestemme, hvilke pixels der tilhørte hvilket objekt.
Dette er et problem, som det menneskelige synssystem, drevet af vores store viden om verden og milliarder af år med evolution, løser nemt.
Men for computere, hvis verden kun består af tal, er det en udfordrende opgave.
På tidspunktet for dette projekt var den dominerende gren af ??kunstig intelligens symbolsk AI, også kendt som regelbaseret AI: Programmører specificerede manuelt reglerne til detektion af objekter i billeder.
Men problemet var, at objekter i billeder kunne vises fra forskellige vinkler og i forskellige lys.
Objektet kan forekomme i en række forskellige baggrunde eller være delvist lukket af andre objekter.
Hver af disse scenarier genererer forskellige pixelværdier, og det er praktisk taget umuligt at oprette manuelle regler for hver enkelt af dem.
Naturligvis kom Summer Vision Project ikke langt og gav begrænsede resultater.
Et par år senere, i 1979, foreslog den japanske videnskabsmand Kunihiko Fukushima neocognitron, et computersynssystem baseret på neurovidenskabelig forskning udført på den menneskelige visuelle cortex.
Selvom Fukushimas neocognitron ikke udførte nogen komplekse visuelle opgaver, lagde den grundlaget for en af ??de vigtigste udviklinger i historien om computersyn.
Den dyblærende revolution
I 1980'erne introducerede den franske computerforsker Yan LeCun det revolutionære neurale netværk (CNN), et AI-system inspireret af Fukushimas neokognitron.
En CNN består af flere lag af kunstige neuroner, matematiske komponenter, der groft imiterer funktionen af ??deres biologiske kolleger.
Når et nedbrydningsneuralt netværk behandler et billede, udtrækker hvert af dets lag specifikke funktioner fra pixels.
Det første lag registrerer meget grundlæggende ting, såsom lodrette og vandrette kanter.
Når du bevæger dig dybere ind i det neurale netværk, registrerer lagene mere komplekse funktioner, herunder hjørner og former.
De sidste lag i CNN registrerer specifikke ting såsom ansigter, døre og biler.
CNN's outputlag giver en tabel med numeriske værdier, der repræsenterer sandsynligheden for, at et bestemt objekt blev opdaget i billedet.
Toplag af neurale netværk registrerer generelle træk; dybere lag registrerer faktiske objekter (Kilde: arxiv.org) LeCuns konvolutionsneurale netværk var strålende og viste meget løfte, men de blev holdt tilbage af et alvorligt problem: Indstilling og brug af dem krævede enorme mængder data og beregningsressourcer, der ikke var tilgængelige på det tidspunkt.
CNN'er fandt til sidst kommercielle anvendelser i nogle få begrænsede domæner såsom bankvirksomhed og posttjenester, hvor de blev brugt til at behandle håndskrevne cifre og breve på konvolutter og checks.
Men inden for detektering af objekter faldt de ved vejkanten og gav plads til andre maskinlæringsteknikker, såsom supportvektormaskiner og tilfældige skove.
I 2012 udviklede AI-forskere fra Toronto AlexNet, et revolutionært neuralt netværk, der dominerede i den populære ImageNet billedgenkendelseskonkurrence.
AlexNets sejr viste, at det i betragtning af den stigende tilgængelighed af data og beregningsressourcer måske var tid til at besøge CNN'er igen.
Begivenheden genoplivet interessen for CNN'er og udløste en revolution inden for dyb læring, den gren af ??maskinindlæring, der involverer brugen af ??flerlags kunstige neurale netværk.
Takket være fremskridt inden for neurologiske netværk og dyb læring siden da er computersynet vokset med spring.
Anvendelser af computersyn
Mange af de applikationer, du bruger hver dag, anvender computervisionsteknologi.
Google bruger det til at hjælpe dig med at søge efter objekter og scener - sig "hund" eller "solnedgang" - i dit billedbibliotek.
Andre virksomheder bruger computersyn til at forbedre billederne.
Et eksempel er Adobe Lightroom CC, der bruger maskinlæringsalgoritmer til at forbedre detaljerne i zoomede billeder.
Traditionel zoomning bruger interpolationsteknikker til at farve de indzoomede områder, men Lightroom bruger computersyn til at registrere objekter i billeder og skærpe deres funktioner, når man zoomer ind.
Et felt, der har set bemærkelsesværdige fremskridt takket være fremskridt inden for computersyn, er ansigtsgenkendelse.
Apple bruger algoritmer til ansigtsgenkendelse til at låse iPhones op.
Facebook bruger ansigtsgenkendelse til at opdage brugere på billeder, du lægger online (selvom ikke alle er fan).
I Kina leverer mange detailhandlere nu ansigtsgenkendelsesteknologi, der fritager deres kunder for behovet for at række ud i deres lommer.
Fremskridt med ansigtsgenkendelse har også skabt bekymring blandt fortrolighedsforkæmpere, men især da regeringsorganer i forskellige lande bruger det til overvågning.
Indholdsmoderering er et andet vigtigt program til computersyn.
Virksomheder som Facebook skal gennemgå milliarder af indlæg hver dag og fjerne billeder og videoer, der indeholder vold, ekstremisme eller pornografi.
De fleste sociale medianetværk bruger dyblærende algoritmer til at analysere indlæg og markere dem, der indeholder forbudt indhold.
Anbefalet af vores redaktører
Når vi går videre til mere specialiserede områder, bliver computersyn hurtigt et uundværligt værktøj inden for medicin.
Dyblærende algoritmer viser imponerende nøjagtighed ved analyse af medicinske billeder.
Hospitaler og universiteter bruger computersyn til at forudsige forskellige typer kræft ved at undersøge røntgenstråler og MR-scanninger.
Selvkørende biler er også stærkt afhængige af computersyn for at give mening om deres omgivelser.
Dyblærende algoritmer analyserer videofeeds fra kameraer, der er installeret på køretøjet, og opdager mennesker, biler, veje og andre objekter for at hjælpe bilen med at navigere i sit miljø.
Grænserne for computersyn
Nuværende computersynssystemer gør et anstændigt stykke arbejde med at klassificere billeder og lokalisere objekter i fotos, når de trænes i nok eksempler.
Men i deres kerne matcher dyblæringsalgoritmerne, der driver computersynsapplikationer, pixelmønstre.
De har ingen forståelse for, hvad der foregår på billederne.
At forstå forholdet mellem mennesker og objekter i visuelle data kræver sund fornuft og baggrundsviden.
Derfor kan computersynsalgoritmer, der bruges af sociale medianetværk, opdage nøgenindhold, men ofte kæmper for at fortælle forskellen mellem sikker nøgenhed (amning eller renæssancekunst) og forbudt indhold som pornografi.
Ligeledes er det svært for disse algoritmer at skelne forskellen mellem ekstremistisk propaganda og en dokumentar om ekstremistiske grupper.
Mennesker kan udnytte deres store kendskab til verden for at udfylde hullerne, når de står over for en situation, de ikke har set før.
I modsætning til mennesker skal algoritmer til computersyn instrueres grundigt i, hvilke typer objekter de skal registrere.
Så snart deres miljø indeholder ting, der afviger fra deres træningseksempler, begynder de at handle på irrationelle måder, såsom ikke at opdage udrykningskøretøjer, der er parkeret på ulige steder.
For øjeblikket er den eneste løsning til løsning af disse problemer at træne AI-algoritmer i flere og flere eksempler, i håb om, at yderligere data vil dække enhver situation, som AI vil stå over for.
Men som erfaringerne viser, vil der uden situationskendskab altid være hjørnesager - sjældne situationer, der forveksler AI-algoritmen.
Mange eksperter mener, at vi kun opnår ægte computersyn, når vi skaber kunstig generel intelligens, AI, der kan løse problemer på samme måde som mennesker.
Som datalog og AI-forsker siger Melanie Mitchell i sin bog Kunstig intelligens: En guide til tænkende mennesker: "Det ser ud til, at visuel intelligens ikke let kan adskilles fra resten af ??intelligensen, især generel viden, abstraktion og sprog ...
Derudover kan det være, at den viden, der er nødvendig for menneskelig visuel intelligens ...
ikke kan læres af millioner af billeder downloadet fra internettet, men skal opleves på en eller anden måde i den virkelige verden.
"