Als je naar de volgende afbeelding kijkt, zie je mensen, objecten en gebouwen.
Het roept herinneringen op aan ervaringen uit het verleden, soortgelijke situaties die je bent tegengekomen.
De menigte kijkt in dezelfde richting en houdt telefoons omhoog, wat aangeeft dat dit een soort evenement is.
De persoon die naast de camera staat, draagt ??een T-shirt dat aangeeft wat de gebeurtenis zou kunnen zijn.
Als u naar andere kleine details kijkt, kunt u veel meer informatie uit de afbeelding afleiden.
Foto door Joshua J.
Cotten op Unsplash Maar voor een computer is deze afbeelding, net als alle afbeeldingen, een reeks pixels, numerieke waarden die de tinten rood, groen en blauw vertegenwoordigen.
Een van de uitdagingen waarmee computerwetenschappers sinds de jaren vijftig worstelen, is het maken van machines die betekenis kunnen geven aan foto's en video's zoals mensen dat doen.
Het veld van computer visie is uitgegroeid tot een van de meest populaire onderzoeksgebieden op het gebied van informatica en kunstmatige intelligentie.
Tientallen jaren later hebben we enorme vooruitgang geboekt bij het maken van software die de inhoud van visuele gegevens kan begrijpen en beschrijven.
Maar we hebben ook ontdekt hoever we moeten gaan voordat we een van de fundamentele functies van het menselijk brein kunnen begrijpen en repliceren.
Een korte geschiedenis van Computer Vision
In 1966 lanceerden Seymour Papert en Marvin Minsky, twee pioniers op het gebied van kunstmatige intelligentie, het Summer Vision Project, een poging van twee maanden en tien man om een ??computersysteem te creëren dat objecten in afbeeldingen kon identificeren.
Om de taak te volbrengen, moest een computerprogramma kunnen bepalen welke pixels bij welk object hoorden.
Dit is een probleem dat het menselijke waarnemingssysteem, aangedreven door onze enorme kennis van de wereld en miljarden jaren van evolutie, gemakkelijk oplost.
Maar voor computers, waarvan de wereld alleen uit cijfers bestaat, is het een uitdagende taak.
Op het moment van dit project was de dominante tak van kunstmatige intelligentie de symbolische AI, ook wel bekend als rule-based AI: programmeurs specificeerden handmatig de regels voor het detecteren van objecten in afbeeldingen.
Maar het probleem was dat objecten in afbeeldingen vanuit verschillende hoeken en onder verschillende belichting konden verschijnen.
Het object kan worden weergegeven tegen een reeks verschillende achtergronden of gedeeltelijk worden afgedekt door andere objecten.
Elk van deze scenario's genereert verschillende pixelwaarden en het is praktisch onmogelijk om voor elk ervan handmatige regels te maken.
Het Summer Vision Project kwam natuurlijk niet ver en leverde beperkte resultaten op.
Een paar jaar later, in 1979, stelde de Japanse wetenschapper Kunihiko Fukushima de neocognitron voor, een computer vision-systeem gebaseerd op neurowetenschappelijk onderzoek op de menselijke visuele cortex.
Hoewel de neocognitron van Fukushima geen complexe visuele taken kon uitvoeren, legde het de basis voor een van de belangrijkste ontwikkelingen in de geschiedenis van computervisie.
De diepgaande leerrevolutie
In de jaren tachtig introduceerde de Franse computerwetenschapper Yan LeCun het convolutionele neurale netwerk (CNN), een AI-systeem geïnspireerd op de neocognitron van Fukushima.
Een CNN bestaat uit meerdere lagen kunstmatige neuronen, wiskundige componenten die grofweg de werking van hun biologische tegenhangers nabootsen.
Wanneer een convolutioneel neuraal netwerk een afbeelding verwerkt, extraheert elk van zijn lagen specifieke kenmerken uit de pixels.
De eerste laag detecteert heel basale dingen, zoals verticale en horizontale randen.
Naarmate u dieper in het neurale netwerk gaat, detecteren de lagen complexere kenmerken, waaronder hoeken en vormen.
De laatste lagen van de CNN detecteren specifieke dingen zoals gezichten, deuren en auto's.
De uitvoerlaag van de CNN biedt een tabel met numerieke waarden die de waarschijnlijkheid weergeven dat een specifiek object in de afbeelding is ontdekt.
Toplagen van neurale netwerken detecteren algemene kenmerken; diepere lagen detecteren werkelijke objecten (Bron: arxiv.org) De convolutionele neurale netwerken van LeCun waren briljant en leken veelbelovend, maar ze werden tegengehouden door een serieus probleem: het afstemmen en gebruiken ervan vereiste enorme hoeveelheden gegevens en rekenbronnen die op dat moment niet beschikbaar waren.
CNN's vonden uiteindelijk commercieel gebruik in een paar beperkte domeinen, zoals het bankwezen en de post, waar ze werden gebruikt om handgeschreven cijfers en letters op enveloppen en cheques te verwerken.
Maar op het gebied van objectdetectie vielen ze buiten de boot en maakten ze plaats voor andere machine-learningtechnieken, zoals ondersteunende vectormachines en willekeurige bossen.
In 2012 ontwikkelden AI-onderzoekers uit Toronto AlexNet, een convolutioneel neuraal netwerk dat domineerde in de populaire ImageNet-wedstrijd voor beeldherkenning.
De overwinning van AlexNet toonde aan dat het, gezien de toenemende beschikbaarheid van gegevens en rekenbronnen, misschien tijd was om CNN's opnieuw te bezoeken.
Het evenement deed de interesse in CNN's herleven en veroorzaakte een revolutie in deep learning>, de tak van machine learning waarbij gebruik wordt gemaakt van meerlagige kunstmatige neurale netwerken.
Dankzij de vooruitgang in convolutionele neurale netwerken en diep leren sindsdien, is computervisie met grote sprongen gegroeid.
Toepassingen van Computer Vision
Veel van de applicaties die u dagelijks gebruikt, maken gebruik van computer vision-technologie.
Google gebruikt het om u te helpen bij het zoeken naar objecten en scènes, bijvoorbeeld 'hond' of 'zonsondergang', in uw afbeeldingenbibliotheek.
Andere bedrijven gebruiken computervisie om afbeeldingen te verbeteren.
Een voorbeeld is Adobe Lightroom CC, dat algoritmen voor machine learning gebruikt om de details van ingezoomde afbeeldingen te verbeteren.
Traditioneel zoomen maakt gebruik van interpolatietechnieken om de ingezoomde gebieden te kleuren, maar Lightroom gebruikt computervisie om objecten in afbeeldingen te detecteren en hun kenmerken te verscherpen bij het inzoomen.
Een gebied dat opmerkelijke vooruitgang heeft geboekt dankzij de vooruitgang in computervisie, is gezichtsherkenning.
Apple gebruikt algoritmen voor gezichtsherkenning om iPhones te ontgrendelen.
Facebook gebruikt gezichtsherkenning om gebruikers te detecteren op foto's die u online plaatst (hoewel niet iedereen een fan is).
In China bieden veel retailers nu betaaltechnologie met gezichtsherkenning, waardoor hun klanten niet meer in hun portemonnee hoeven te grijpen.
Vooruitgang in gezichtsherkenning heeft echter ook tot ongerustheid geleid bij voorvechters van privacy en rechten, vooral omdat overheidsinstanties in verschillende landen het gebruiken voor surveillance.
Contentmoderatie is een andere belangrijke toepassing voor computervisie.
Bedrijven zoals Facebook moeten elke dag miljarden posts bekijken en afbeeldingen en video's verwijderen die geweld, extremisme of pornografie bevatten.
De meeste sociale medianetwerken gebruiken deep-learning-algoritmen om berichten te analyseren en berichten met verboden inhoud te markeren.
Aanbevolen door onze redacteuren
Op weg naar meer gespecialiseerde gebieden, is computervisie hard op weg een onmisbaar hulpmiddel in de geneeskunde te worden.
Algoritmen voor diepgaand leren zijn indrukwekkend nauwkeurig bij het analyseren van medische beelden.
Ziekenhuizen en universiteiten gebruiken computervisie om verschillende soorten kanker te voorspellen door röntgenfoto's en MRI-scans te onderzoeken.
Zelfrijdende auto's zijn ook sterk afhankelijk van computervisie om hun omgeving te begrijpen.
Diepgaande algoritmen analyseren videofeeds van camera's die in het voertuig zijn geïnstalleerd en detecteren mensen, auto's, wegen en andere objecten om de auto te helpen zijn omgeving te navigeren.
De beperkingen van computervisie
De huidige computer-vision-systemen doen behoorlijk goed werk bij het classificeren van afbeeldingen en het lokaliseren van objecten in foto's, als ze op voldoende voorbeelden zijn getraind.
Maar in de kern komen de diepgaande algoritmen die computer-vision-applicaties aandrijven overeen met pixelpatronen.
Ze hebben geen idee wat er op de afbeeldingen gebeurt.
Het begrijpen van de relaties tussen mensen en objecten in visuele gegevens vereist gezond verstand en achtergrondkennis.
Dat is de reden waarom de computervisie-algoritmen die door sociale medianetwerken worden gebruikt, naaktinhoud kunnen detecteren, maar vaak moeite hebben om het verschil te zien tussen veilige naaktheid (borstvoeding of renaissancekunst) en verboden inhoud zoals pornografie.
Evenzo is het voor deze algoritmen moeilijk om het verschil te zien tussen extremistische propaganda en een documentaire over extremistische groeperingen.
Mensen kunnen gebruikmaken van hun enorme kennis van de wereld om de gaten te vullen wanneer ze te maken krijgen met een situatie die ze nog niet eerder hebben gezien.
In tegenstelling tot mensen moeten algoritmen voor computervisie grondig worden geïnstrueerd over de soorten objecten die ze moeten detecteren.
Zodra hun omgeving dingen bevat die afwijken van hun trainingsvoorbeelden, gaan ze op irrationele manieren handelen, zoals het niet detecteren van hulpverleningsvoertuigen die op vreemde locaties geparkeerd staan.
Op dit moment is de enige oplossing om deze problemen op te lossen het trainen van AI-algoritmen op steeds meer voorbeelden, in de hoop dat aanvullende gegevens elke situatie dekken waarmee de AI zal worden geconfronteerd.
Maar zoals de ervaring leert, zullen er zonder situationeel bewustzijn altijd hoekgevallen zijn - zeldzame situaties die het AI-algoritme in de war brengen.
Veel experts zijn van mening dat we alleen echte computervisie zullen bereiken als we kunstmatige algemene intelligentie creëren, AI die problemen op dezelfde manier kan oplossen als mensen.
Zoals computerwetenschapper en AI-onderzoeker Melanie Mitchell in haar boek zegt Kunstmatige intelligentie: een gids voor denkende mensen: "Het lijkt erop dat visuele intelligentie niet gemakkelijk te scheiden is van de rest van intelligentie, vooral algemene kennis, abstractie en taal ...
Bovendien kan het zijn dat de kennis die nodig is voor menselijke visuele intelligentie ...
niet kan worden geleerd van miljoenen afbeeldingen gedownload van internet, maar moet op de een of andere manier in de echte wereld worden ervaren.
"
Als je naar de volgende afbeelding kijkt, zie je mensen, objecten en gebouwen.
Het roept herinneringen op aan ervaringen uit het verleden, soortgelijke situaties die je bent tegengekomen.
De menigte kijkt in dezelfde richting en houdt telefoons omhoog, wat aangeeft dat dit een soort evenement is.
De persoon die naast de camera staat, draagt ??een T-shirt dat aangeeft wat de gebeurtenis zou kunnen zijn.
Als u naar andere kleine details kijkt, kunt u veel meer informatie uit de afbeelding afleiden.
Foto door Joshua J.
Cotten op Unsplash Maar voor een computer is deze afbeelding, net als alle afbeeldingen, een reeks pixels, numerieke waarden die de tinten rood, groen en blauw vertegenwoordigen.
Een van de uitdagingen waarmee computerwetenschappers sinds de jaren vijftig worstelen, is het maken van machines die betekenis kunnen geven aan foto's en video's zoals mensen dat doen.
Het veld van computer visie is uitgegroeid tot een van de meest populaire onderzoeksgebieden op het gebied van informatica en kunstmatige intelligentie.
Tientallen jaren later hebben we enorme vooruitgang geboekt bij het maken van software die de inhoud van visuele gegevens kan begrijpen en beschrijven.
Maar we hebben ook ontdekt hoever we moeten gaan voordat we een van de fundamentele functies van het menselijk brein kunnen begrijpen en repliceren.
Een korte geschiedenis van Computer Vision
In 1966 lanceerden Seymour Papert en Marvin Minsky, twee pioniers op het gebied van kunstmatige intelligentie, het Summer Vision Project, een poging van twee maanden en tien man om een ??computersysteem te creëren dat objecten in afbeeldingen kon identificeren.
Om de taak te volbrengen, moest een computerprogramma kunnen bepalen welke pixels bij welk object hoorden.
Dit is een probleem dat het menselijke waarnemingssysteem, aangedreven door onze enorme kennis van de wereld en miljarden jaren van evolutie, gemakkelijk oplost.
Maar voor computers, waarvan de wereld alleen uit cijfers bestaat, is het een uitdagende taak.
Op het moment van dit project was de dominante tak van kunstmatige intelligentie de symbolische AI, ook wel bekend als rule-based AI: programmeurs specificeerden handmatig de regels voor het detecteren van objecten in afbeeldingen.
Maar het probleem was dat objecten in afbeeldingen vanuit verschillende hoeken en onder verschillende belichting konden verschijnen.
Het object kan worden weergegeven tegen een reeks verschillende achtergronden of gedeeltelijk worden afgedekt door andere objecten.
Elk van deze scenario's genereert verschillende pixelwaarden en het is praktisch onmogelijk om voor elk ervan handmatige regels te maken.
Het Summer Vision Project kwam natuurlijk niet ver en leverde beperkte resultaten op.
Een paar jaar later, in 1979, stelde de Japanse wetenschapper Kunihiko Fukushima de neocognitron voor, een computer vision-systeem gebaseerd op neurowetenschappelijk onderzoek op de menselijke visuele cortex.
Hoewel de neocognitron van Fukushima geen complexe visuele taken kon uitvoeren, legde het de basis voor een van de belangrijkste ontwikkelingen in de geschiedenis van computervisie.
De diepgaande leerrevolutie
In de jaren tachtig introduceerde de Franse computerwetenschapper Yan LeCun het convolutionele neurale netwerk (CNN), een AI-systeem geïnspireerd op de neocognitron van Fukushima.
Een CNN bestaat uit meerdere lagen kunstmatige neuronen, wiskundige componenten die grofweg de werking van hun biologische tegenhangers nabootsen.
Wanneer een convolutioneel neuraal netwerk een afbeelding verwerkt, extraheert elk van zijn lagen specifieke kenmerken uit de pixels.
De eerste laag detecteert heel basale dingen, zoals verticale en horizontale randen.
Naarmate u dieper in het neurale netwerk gaat, detecteren de lagen complexere kenmerken, waaronder hoeken en vormen.
De laatste lagen van de CNN detecteren specifieke dingen zoals gezichten, deuren en auto's.
De uitvoerlaag van de CNN biedt een tabel met numerieke waarden die de waarschijnlijkheid weergeven dat een specifiek object in de afbeelding is ontdekt.
Toplagen van neurale netwerken detecteren algemene kenmerken; diepere lagen detecteren werkelijke objecten (Bron: arxiv.org) De convolutionele neurale netwerken van LeCun waren briljant en leken veelbelovend, maar ze werden tegengehouden door een serieus probleem: het afstemmen en gebruiken ervan vereiste enorme hoeveelheden gegevens en rekenbronnen die op dat moment niet beschikbaar waren.
CNN's vonden uiteindelijk commercieel gebruik in een paar beperkte domeinen, zoals het bankwezen en de post, waar ze werden gebruikt om handgeschreven cijfers en letters op enveloppen en cheques te verwerken.
Maar op het gebied van objectdetectie vielen ze buiten de boot en maakten ze plaats voor andere machine-learningtechnieken, zoals ondersteunende vectormachines en willekeurige bossen.
In 2012 ontwikkelden AI-onderzoekers uit Toronto AlexNet, een convolutioneel neuraal netwerk dat domineerde in de populaire ImageNet-wedstrijd voor beeldherkenning.
De overwinning van AlexNet toonde aan dat het, gezien de toenemende beschikbaarheid van gegevens en rekenbronnen, misschien tijd was om CNN's opnieuw te bezoeken.
Het evenement deed de interesse in CNN's herleven en veroorzaakte een revolutie in deep learning>, de tak van machine learning waarbij gebruik wordt gemaakt van meerlagige kunstmatige neurale netwerken.
Dankzij de vooruitgang in convolutionele neurale netwerken en diep leren sindsdien, is computervisie met grote sprongen gegroeid.
Toepassingen van Computer Vision
Veel van de applicaties die u dagelijks gebruikt, maken gebruik van computer vision-technologie.
Google gebruikt het om u te helpen bij het zoeken naar objecten en scènes, bijvoorbeeld 'hond' of 'zonsondergang', in uw afbeeldingenbibliotheek.
Andere bedrijven gebruiken computervisie om afbeeldingen te verbeteren.
Een voorbeeld is Adobe Lightroom CC, dat algoritmen voor machine learning gebruikt om de details van ingezoomde afbeeldingen te verbeteren.
Traditioneel zoomen maakt gebruik van interpolatietechnieken om de ingezoomde gebieden te kleuren, maar Lightroom gebruikt computervisie om objecten in afbeeldingen te detecteren en hun kenmerken te verscherpen bij het inzoomen.
Een gebied dat opmerkelijke vooruitgang heeft geboekt dankzij de vooruitgang in computervisie, is gezichtsherkenning.
Apple gebruikt algoritmen voor gezichtsherkenning om iPhones te ontgrendelen.
Facebook gebruikt gezichtsherkenning om gebruikers te detecteren op foto's die u online plaatst (hoewel niet iedereen een fan is).
In China bieden veel retailers nu betaaltechnologie met gezichtsherkenning, waardoor hun klanten niet meer in hun portemonnee hoeven te grijpen.
Vooruitgang in gezichtsherkenning heeft echter ook tot ongerustheid geleid bij voorvechters van privacy en rechten, vooral omdat overheidsinstanties in verschillende landen het gebruiken voor surveillance.
Contentmoderatie is een andere belangrijke toepassing voor computervisie.
Bedrijven zoals Facebook moeten elke dag miljarden posts bekijken en afbeeldingen en video's verwijderen die geweld, extremisme of pornografie bevatten.
De meeste sociale medianetwerken gebruiken deep-learning-algoritmen om berichten te analyseren en berichten met verboden inhoud te markeren.
Aanbevolen door onze redacteuren
Op weg naar meer gespecialiseerde gebieden, is computervisie hard op weg een onmisbaar hulpmiddel in de geneeskunde te worden.
Algoritmen voor diepgaand leren zijn indrukwekkend nauwkeurig bij het analyseren van medische beelden.
Ziekenhuizen en universiteiten gebruiken computervisie om verschillende soorten kanker te voorspellen door röntgenfoto's en MRI-scans te onderzoeken.
Zelfrijdende auto's zijn ook sterk afhankelijk van computervisie om hun omgeving te begrijpen.
Diepgaande algoritmen analyseren videofeeds van camera's die in het voertuig zijn geïnstalleerd en detecteren mensen, auto's, wegen en andere objecten om de auto te helpen zijn omgeving te navigeren.
De beperkingen van computervisie
De huidige computer-vision-systemen doen behoorlijk goed werk bij het classificeren van afbeeldingen en het lokaliseren van objecten in foto's, als ze op voldoende voorbeelden zijn getraind.
Maar in de kern komen de diepgaande algoritmen die computer-vision-applicaties aandrijven overeen met pixelpatronen.
Ze hebben geen idee wat er op de afbeeldingen gebeurt.
Het begrijpen van de relaties tussen mensen en objecten in visuele gegevens vereist gezond verstand en achtergrondkennis.
Dat is de reden waarom de computervisie-algoritmen die door sociale medianetwerken worden gebruikt, naaktinhoud kunnen detecteren, maar vaak moeite hebben om het verschil te zien tussen veilige naaktheid (borstvoeding of renaissancekunst) en verboden inhoud zoals pornografie.
Evenzo is het voor deze algoritmen moeilijk om het verschil te zien tussen extremistische propaganda en een documentaire over extremistische groeperingen.
Mensen kunnen gebruikmaken van hun enorme kennis van de wereld om de gaten te vullen wanneer ze te maken krijgen met een situatie die ze nog niet eerder hebben gezien.
In tegenstelling tot mensen moeten algoritmen voor computervisie grondig worden geïnstrueerd over de soorten objecten die ze moeten detecteren.
Zodra hun omgeving dingen bevat die afwijken van hun trainingsvoorbeelden, gaan ze op irrationele manieren handelen, zoals het niet detecteren van hulpverleningsvoertuigen die op vreemde locaties geparkeerd staan.
Op dit moment is de enige oplossing om deze problemen op te lossen het trainen van AI-algoritmen op steeds meer voorbeelden, in de hoop dat aanvullende gegevens elke situatie dekken waarmee de AI zal worden geconfronteerd.
Maar zoals de ervaring leert, zullen er zonder situationeel bewustzijn altijd hoekgevallen zijn - zeldzame situaties die het AI-algoritme in de war brengen.
Veel experts zijn van mening dat we alleen echte computervisie zullen bereiken als we kunstmatige algemene intelligentie creëren, AI die problemen op dezelfde manier kan oplossen als mensen.
Zoals computerwetenschapper en AI-onderzoeker Melanie Mitchell in haar boek zegt Kunstmatige intelligentie: een gids voor denkende mensen: "Het lijkt erop dat visuele intelligentie niet gemakkelijk te scheiden is van de rest van intelligentie, vooral algemene kennis, abstractie en taal ...
Bovendien kan het zijn dat de kennis die nodig is voor menselijke visuele intelligentie ...
niet kan worden geleerd van miljoenen afbeeldingen gedownload van internet, maar moet op de een of andere manier in de echte wereld worden ervaren.
"