Daxdi now accepts payments with Bitcoin

Vad är datorvision? | Daxdi

När du tittar på följande bild ser du människor, föremål och byggnader.

Det tar upp minnen från tidigare erfarenheter, liknande situationer du har stött på.

Publiken vänder åt samma håll och håller upp telefoner, vilket säger att detta är någon form av händelse.

Personen som står nära kameran har på sig en T-shirt som antyder vad händelsen kan vara.

När du tittar på andra små detaljer kan du dra mycket mer information från bilden.

Foto av Joshua J.

Cotten på Unsplash

Men för en dator är denna bild - som alla bilder - en uppsättning pixlar, numeriska värden som representerar nyanser av rött, grönt och blått.

En av utmaningarna som datavetare har brottats med sedan 1950-talet har varit att skapa maskiner som kan förstå bilder och videor som människor gör.

Området för datorsyn har blivit ett av de hetaste forskningsområdena inom datavetenskap och artificiell intelligens.

Årtionden senare har vi gjort stora framsteg mot att skapa programvara som kan förstå och beskriva innehållet i visuell data.

Men vi har också upptäckt hur långt vi måste gå innan vi kan förstå och replikera en av de mänskliga hjärnans grundläggande funktioner.

En kort historia av datorvision

1966 lanserade Seymour Papert och Marvin Minsky, två pionjärer för artificiell intelligens, Summer Vision Project, ett två månader långt försök att skapa ett datorsystem som kunde identifiera objekt i bilder.

För att utföra uppgiften måste ett datorprogram kunna bestämma vilka pixlar som tillhör vilket objekt.

Detta är ett problem som det mänskliga visionssystemet, som drivs av vår enorma kunskap om världen och miljarder år av evolution, löser lätt.

Men för datorer, vars värld bara består av siffror, är det en utmanande uppgift.

Vid tidpunkten för detta projekt var den dominerande grenen av artificiell intelligens symbolisk AI, även känd som regelbaserad AI: Programmerare angav manuellt reglerna för att upptäcka objekt i bilder.

Men problemet var att objekt i bilder kunde visas från olika vinklar och i olika belysning.

Objektet kan visas mot en rad olika bakgrunder eller delvis ockluderas av andra objekt.

Var och en av dessa scenarier genererar olika pixelvärden, och det är praktiskt taget omöjligt att skapa manuella regler för var och en av dem.

Naturligtvis kom Summer Vision Project inte långt och gav begränsade resultat.

Några år senare, 1979, föreslog den japanska forskaren Kunihiko Fukushima neokognitronen, ett datorvisionssystem baserat på neurovetenskaplig forskning gjord på den mänskliga visuella cortexen.

Även om Fukushimas neokognitron misslyckades med att utföra några komplexa visuella uppgifter lade den grunden för en av de viktigaste utvecklingen i datorsynens historia.

Den djupt lärande revolutionen

På 1980-talet introducerade den franska datavetenskapsmannen Yan LeCun det fria neurala nätverket (CNN), ett AI-system inspirerat av Fukushimas neokognitron.

En CNN består av flera lager av konstgjorda neuroner, matematiska komponenter som ungefär efterliknar funktionen hos deras biologiska motsvarigheter.

När ett fällt neuralt nätverk behandlar en bild extraherar vart och ett av dess lager specifika funktioner från pixlarna.

Det första lagret upptäcker mycket grundläggande saker, som vertikala och horisontella kanter.

När du går djupare in i det neurala nätverket upptäcker skikten mer komplexa funktioner, inklusive hörn och former.

De sista lagren i CNN upptäcker specifika saker som ansikten, dörrar och bilar.

Utgångsskiktet på CNN ger en tabell över numeriska värden som representerar sannolikheten för att ett specifikt objekt upptäcktes i bilden.

Toppskikt av neurala nätverk upptäcker allmänna funktioner; djupare lager upptäcker faktiska objekt (Källa: arxiv.org)

LeCuns omvälvande neurala nätverk var lysande och visade mycket löfte, men de hölls tillbaka av ett allvarligt problem: Att ställa in och använda dem krävde stora mängder data och beräkningsresurser som inte fanns tillgängliga för tillfället.

CNN hittade så småningom kommersiella användningar inom några begränsade domäner som bank och posttjänster, där de användes för att bearbeta handskrivna siffror och bokstäver på kuvert och checkar.

Men inom området för detektering av objekt föll de vid vägkanten och gav plats för andra maskininlärningstekniker, såsom stödvektormaskiner och slumpmässiga skogar.

År 2012 utvecklade AI-forskare från Toronto AlexNet, ett omvälvande neurala nätverk som dominerade i den populära ImageNet-bildigenkänningstävlingen.

AlexNets seger visade att med tanke på den ökande tillgängligheten av data och beräkningsresurser var det kanske dags att besöka CNN.

Händelsen återupplivade intresset för CNN och utlöste en revolution inom djupinlärning, den gren av maskininlärning som innebär användning av flerskikts konstgjorda neurala nätverk.

Tack vare framsteg inom neurologiska nätverk och djupinlärning sedan dess har datasynen ökat med stormsteg.

Tillämpningar av datorvision

Många av de applikationer du använder varje dag använder datorsynsteknik.

Google använder det för att hjälpa dig att söka efter objekt och scener - säg "hund" eller "solnedgång" - i ditt bildbibliotek.

Andra företag använder datorsyn för att förbättra bilder.

Ett exempel är Adobe Lightroom CC, som använder maskininlärningsalgoritmer för att förbättra detaljerna i zoomade bilder.

Traditionell zoomning använder interpoleringstekniker för att färglägga de inzoomade områdena, men Lightroom använder datorsyn för att upptäcka objekt i bilder och skärpa deras funktioner när man zoomar in.

Ett fält som har sett anmärkningsvärda framsteg tack vare framsteg inom datasyn är ansiktsigenkänning.

Apple använder ansiktsigenkänningsalgoritmer för att låsa upp iPhones.

Facebook använder ansiktsigenkänning för att upptäcka användare i bilder du lägger upp online (men inte alla är fan).

I Kina tillhandahåller många återförsäljare nu betalningsteknologi för ansiktsigenkänning, vilket befriar sina kunder från behovet av att nå i fickorna.

Framsteg inom ansiktsigenkänning har också orsakat oro bland förespråkare för integritet och rättigheter, särskilt eftersom myndigheter i olika länder använder det för övervakning.

Innehållsmoderering är en annan viktig applikation för datorvision.

Företag som Facebook måste granska miljarder inlägg varje dag och ta bort bilder och videor som innehåller våld, extremism eller pornografi.

De flesta sociala medier använder djupinlärningsalgoritmer för att analysera inlägg och flagga de som innehåller förbjudet innehåll.

Rekommenderas av våra redaktörer

När vi går vidare till mer specialiserade områden blir datorsyn snabbt ett oumbärligt verktyg inom medicin.

Djupinlärningsalgoritmer visar imponerande noggrannhet vid analys av medicinska bilder.

Sjukhus och universitet använder datorsyn för att förutsäga olika typer av cancer genom att undersöka röntgen och MR-undersökningar.

Självkörande bilar förlitar sig också starkt på datorsyn för att förstå sin omgivning.

Djupinlärningsalgoritmer analyserar videoflöden från kameror installerade på fordonet och upptäcker människor, bilar, vägar och andra föremål för att hjälpa bilen att navigera i omgivningen.

Gränserna för datorvision

Nuvarande datorvisionssystem gör ett anständigt jobb med att klassificera bilder och lokalisera objekt i foton, när de tränas i tillräckligt många exempel.

Men i grunden är de djupinlärningsalgoritmer som driver datorsynapplikationer matchande pixelmönster.

De har ingen förståelse för vad som händer i bilderna.

Att förstå relationerna mellan människor och objekt i visuella data kräver sunt förnuft och bakgrundskunskap.

Därför kan datorsynalgoritmerna som används av sociala medianätverk upptäcka nakeninnehåll men ofta kämpar för att se skillnaden mellan säker nakenhet (amning eller renässanskonst) och förbjudet innehåll som pornografi.

På samma sätt är det svårt för dessa algoritmer att se skillnaden mellan extremistisk propaganda och en dokumentär om extremistgrupper.

Människor kan utnyttja sin stora kunskap om världen för att fylla hålen när de möter en situation som de inte har sett förut.

Till skillnad från människor måste datorvisionsalgoritmer instrueras grundligt om vilka typer av objekt de måste upptäcka.

Så snart deras miljö innehåller saker som avviker från deras träningsexempel, börjar de agera på irrationella sätt, till exempel att de inte upptäcker utryckningsfordon parkerade på udda platser.

För tillfället är den enda lösningen för att lösa dessa problem att träna AI-algoritmer i fler och fler exempel, i hopp om att ytterligare data kommer att täcka alla situationer som AI kommer att möta.

Men som erfarenheten visar, utan situationskännedom, kommer det alltid att finnas hörnfall - sällsynta situationer som förvirrar AI-algoritmen.

Många experter tror att vi bara kommer att uppnå riktig datorsyn när vi skapar artificiell allmän intelligens, AI som kan lösa problem på samma sätt som människor.

Som datavetare och AI-forskare säger Melanie Mitchell i sin bok Artificiell intelligens: En guide för tänkande människor: "Det verkar som att visuell intelligens inte är lätt att skilja från resten av intelligensen, särskilt allmän kunskap, abstraktion och språk ...

Dessutom kan det vara så att kunskapen som behövs för mänsklig visuell intelligens ...

inte kan läras av miljoner bilder laddas ner från webben, men måste upplevas på något sätt i den verkliga världen.

"

När du tittar på följande bild ser du människor, föremål och byggnader.

Det tar upp minnen från tidigare erfarenheter, liknande situationer du har stött på.

Publiken vänder åt samma håll och håller upp telefoner, vilket säger att detta är någon form av händelse.

Personen som står nära kameran har på sig en T-shirt som antyder vad händelsen kan vara.

När du tittar på andra små detaljer kan du dra mycket mer information från bilden.

Foto av Joshua J.

Cotten på Unsplash

Men för en dator är denna bild - som alla bilder - en uppsättning pixlar, numeriska värden som representerar nyanser av rött, grönt och blått.

En av utmaningarna som datavetare har brottats med sedan 1950-talet har varit att skapa maskiner som kan förstå bilder och videor som människor gör.

Området för datorsyn har blivit ett av de hetaste forskningsområdena inom datavetenskap och artificiell intelligens.

Årtionden senare har vi gjort stora framsteg mot att skapa programvara som kan förstå och beskriva innehållet i visuell data.

Men vi har också upptäckt hur långt vi måste gå innan vi kan förstå och replikera en av de mänskliga hjärnans grundläggande funktioner.

En kort historia av datorvision

1966 lanserade Seymour Papert och Marvin Minsky, två pionjärer för artificiell intelligens, Summer Vision Project, ett två månader långt försök att skapa ett datorsystem som kunde identifiera objekt i bilder.

För att utföra uppgiften måste ett datorprogram kunna bestämma vilka pixlar som tillhör vilket objekt.

Detta är ett problem som det mänskliga visionssystemet, som drivs av vår enorma kunskap om världen och miljarder år av evolution, löser lätt.

Men för datorer, vars värld bara består av siffror, är det en utmanande uppgift.

Vid tidpunkten för detta projekt var den dominerande grenen av artificiell intelligens symbolisk AI, även känd som regelbaserad AI: Programmerare angav manuellt reglerna för att upptäcka objekt i bilder.

Men problemet var att objekt i bilder kunde visas från olika vinklar och i olika belysning.

Objektet kan visas mot en rad olika bakgrunder eller delvis ockluderas av andra objekt.

Var och en av dessa scenarier genererar olika pixelvärden, och det är praktiskt taget omöjligt att skapa manuella regler för var och en av dem.

Naturligtvis kom Summer Vision Project inte långt och gav begränsade resultat.

Några år senare, 1979, föreslog den japanska forskaren Kunihiko Fukushima neokognitronen, ett datorvisionssystem baserat på neurovetenskaplig forskning gjord på den mänskliga visuella cortexen.

Även om Fukushimas neokognitron misslyckades med att utföra några komplexa visuella uppgifter lade den grunden för en av de viktigaste utvecklingen i datorsynens historia.

Den djupt lärande revolutionen

På 1980-talet introducerade den franska datavetenskapsmannen Yan LeCun det fria neurala nätverket (CNN), ett AI-system inspirerat av Fukushimas neokognitron.

En CNN består av flera lager av konstgjorda neuroner, matematiska komponenter som ungefär efterliknar funktionen hos deras biologiska motsvarigheter.

När ett fällt neuralt nätverk behandlar en bild extraherar vart och ett av dess lager specifika funktioner från pixlarna.

Det första lagret upptäcker mycket grundläggande saker, som vertikala och horisontella kanter.

När du går djupare in i det neurala nätverket upptäcker skikten mer komplexa funktioner, inklusive hörn och former.

De sista lagren i CNN upptäcker specifika saker som ansikten, dörrar och bilar.

Utgångsskiktet på CNN ger en tabell över numeriska värden som representerar sannolikheten för att ett specifikt objekt upptäcktes i bilden.

Toppskikt av neurala nätverk upptäcker allmänna funktioner; djupare lager upptäcker faktiska objekt (Källa: arxiv.org)

LeCuns omvälvande neurala nätverk var lysande och visade mycket löfte, men de hölls tillbaka av ett allvarligt problem: Att ställa in och använda dem krävde stora mängder data och beräkningsresurser som inte fanns tillgängliga för tillfället.

CNN hittade så småningom kommersiella användningar inom några begränsade domäner som bank och posttjänster, där de användes för att bearbeta handskrivna siffror och bokstäver på kuvert och checkar.

Men inom området för detektering av objekt föll de vid vägkanten och gav plats för andra maskininlärningstekniker, såsom stödvektormaskiner och slumpmässiga skogar.

År 2012 utvecklade AI-forskare från Toronto AlexNet, ett omvälvande neurala nätverk som dominerade i den populära ImageNet-bildigenkänningstävlingen.

AlexNets seger visade att med tanke på den ökande tillgängligheten av data och beräkningsresurser var det kanske dags att besöka CNN.

Händelsen återupplivade intresset för CNN och utlöste en revolution inom djupinlärning, den gren av maskininlärning som innebär användning av flerskikts konstgjorda neurala nätverk.

Tack vare framsteg inom neurologiska nätverk och djupinlärning sedan dess har datasynen ökat med stormsteg.

Tillämpningar av datorvision

Många av de applikationer du använder varje dag använder datorsynsteknik.

Google använder det för att hjälpa dig att söka efter objekt och scener - säg "hund" eller "solnedgång" - i ditt bildbibliotek.

Andra företag använder datorsyn för att förbättra bilder.

Ett exempel är Adobe Lightroom CC, som använder maskininlärningsalgoritmer för att förbättra detaljerna i zoomade bilder.

Traditionell zoomning använder interpoleringstekniker för att färglägga de inzoomade områdena, men Lightroom använder datorsyn för att upptäcka objekt i bilder och skärpa deras funktioner när man zoomar in.

Ett fält som har sett anmärkningsvärda framsteg tack vare framsteg inom datasyn är ansiktsigenkänning.

Apple använder ansiktsigenkänningsalgoritmer för att låsa upp iPhones.

Facebook använder ansiktsigenkänning för att upptäcka användare i bilder du lägger upp online (men inte alla är fan).

I Kina tillhandahåller många återförsäljare nu betalningsteknologi för ansiktsigenkänning, vilket befriar sina kunder från behovet av att nå i fickorna.

Framsteg inom ansiktsigenkänning har också orsakat oro bland förespråkare för integritet och rättigheter, särskilt eftersom myndigheter i olika länder använder det för övervakning.

Innehållsmoderering är en annan viktig applikation för datorvision.

Företag som Facebook måste granska miljarder inlägg varje dag och ta bort bilder och videor som innehåller våld, extremism eller pornografi.

De flesta sociala medier använder djupinlärningsalgoritmer för att analysera inlägg och flagga de som innehåller förbjudet innehåll.

Rekommenderas av våra redaktörer

När vi går vidare till mer specialiserade områden blir datorsyn snabbt ett oumbärligt verktyg inom medicin.

Djupinlärningsalgoritmer visar imponerande noggrannhet vid analys av medicinska bilder.

Sjukhus och universitet använder datorsyn för att förutsäga olika typer av cancer genom att undersöka röntgen och MR-undersökningar.

Självkörande bilar förlitar sig också starkt på datorsyn för att förstå sin omgivning.

Djupinlärningsalgoritmer analyserar videoflöden från kameror installerade på fordonet och upptäcker människor, bilar, vägar och andra föremål för att hjälpa bilen att navigera i omgivningen.

Gränserna för datorvision

Nuvarande datorvisionssystem gör ett anständigt jobb med att klassificera bilder och lokalisera objekt i foton, när de tränas i tillräckligt många exempel.

Men i grunden är de djupinlärningsalgoritmer som driver datorsynapplikationer matchande pixelmönster.

De har ingen förståelse för vad som händer i bilderna.

Att förstå relationerna mellan människor och objekt i visuella data kräver sunt förnuft och bakgrundskunskap.

Därför kan datorsynalgoritmerna som används av sociala medianätverk upptäcka nakeninnehåll men ofta kämpar för att se skillnaden mellan säker nakenhet (amning eller renässanskonst) och förbjudet innehåll som pornografi.

På samma sätt är det svårt för dessa algoritmer att se skillnaden mellan extremistisk propaganda och en dokumentär om extremistgrupper.

Människor kan utnyttja sin stora kunskap om världen för att fylla hålen när de möter en situation som de inte har sett förut.

Till skillnad från människor måste datorvisionsalgoritmer instrueras grundligt om vilka typer av objekt de måste upptäcka.

Så snart deras miljö innehåller saker som avviker från deras träningsexempel, börjar de agera på irrationella sätt, till exempel att de inte upptäcker utryckningsfordon parkerade på udda platser.

För tillfället är den enda lösningen för att lösa dessa problem att träna AI-algoritmer i fler och fler exempel, i hopp om att ytterligare data kommer att täcka alla situationer som AI kommer att möta.

Men som erfarenheten visar, utan situationskännedom, kommer det alltid att finnas hörnfall - sällsynta situationer som förvirrar AI-algoritmen.

Många experter tror att vi bara kommer att uppnå riktig datorsyn när vi skapar artificiell allmän intelligens, AI som kan lösa problem på samma sätt som människor.

Som datavetare och AI-forskare säger Melanie Mitchell i sin bok Artificiell intelligens: En guide för tänkande människor: "Det verkar som att visuell intelligens inte är lätt att skilja från resten av intelligensen, särskilt allmän kunskap, abstraktion och språk ...

Dessutom kan det vara så att kunskapen som behövs för mänsklig visuell intelligens ...

inte kan läras av miljoner bilder laddas ner från webben, men måste upplevas på något sätt i den verkliga världen.

"

PakaPuka

pakapuka.com Cookies

På pakapuka.com använder vi cookies (tekniska och profilkakor, både våra egna och tredje part) för att ge dig en bättre online-upplevelse och för att skicka dig personliga kommersiella meddelanden online enligt dina önskemål. Om du väljer fortsätt eller kommer åt något innehåll på vår webbplats utan att anpassa dina val godkänner du användningen av cookies.

För mer information om vår policy för cookies och hur du avvisar cookies

tillgång här.

Inställningar

Fortsätta