Järgmist pilti vaadates näete inimesi, esemeid ja hooneid.
See toob mälestused varasematest kogemustest, sarnastest olukordadest, millega olete kokku puutunud.
Rahvas seisab samas suunas ja hoiab telefone, mis ütleb teile, et see on mingi sündmus.
Kaamera lähedal seisval inimesel on seljas T-särk, mis vihjab sellele, milline võib sündmus olla.
Teisi väikeseid detaile vaadates võite pildilt järeldada palju rohkem teavet.
Foto autor Joshua J.
Cotten lehelt Unsplash Kuid arvuti jaoks on see pilt - nagu kõik pildid - hulgaliselt piksleid, arvväärtusi, mis tähistavad punaseid, rohelisi ja siniseid toone.
Üks väljakutseid, millega arvutiteadlased on 1950ndatest maadelnud, on olnud masinate loomine, mis suudaksid fotosid ja videoid mõtestada nagu inimesed.
Valdkond arvutinägemine on saanud arvutiteaduse ja tehisintellekti üks kuumimaid uurimisvaldkondi.
Aastakümneid hiljem oleme teinud suuri edusamme visuaalsete andmete sisu mõistva ja kirjeldava tarkvara loomise suunas.
Kuid oleme avastanud ka selle, kui kaugele peame jõudma, enne kui saame aru ja korrata inimaju ühte põhifunktsiooni.
Lühike arvutinägemise ajalugu
1966.
aastal käivitasid tehisintellekti kaks teerajajat Seymour Papert ja Marvin Minsky projekti Summer Vision, mis oli kahe kuu pikkune 10-meheline püüd luua arvutisüsteem, mis suudaks piltidel olevaid objekte tuvastada.
Ülesande täitmiseks pidi arvutiprogramm suutma kindlaks teha, millised pikslid millisele objektile kuuluvad.
See on probleem, mille inimnägemissüsteem, mida toetavad meie tohutud teadmised maailmast ja miljardite aastate pikkune evolutsioon, lahendab hõlpsalt.
Kuid arvutite jaoks, mille maailm koosneb ainult numbritest, on see keeruline ülesanne.
Selle projekti ajal oli tehisintellekti domineeriv haru sümboolne tehisintellekt, tuntud ka kui reeglipõhine tehisintellekt: programmeerijad määrasid käsitsi reeglid piltidel olevate objektide tuvastamiseks.
Kuid probleem seisnes selles, et piltidel olevad objektid võisid ilmneda erineva nurga alt ja erinevas valguses.
Objekt võib ilmuda erineva taustaga või on teiste objektide poolt osaliselt varjatud.
Kõik need stsenaariumid genereerivad erinevaid piksliväärtusi ja nende jaoks on praktiliselt võimatu luua käsitsi reegleid.
Loomulikult ei jõudnud suvevisiooni projekt kaugele ja andis piiratud tulemusi.
Paar aastat hiljem, 1979.
aastal, pakkus Jaapani teadlane Kunihiko Fukushima välja neokognitroni - arvuti nägemissüsteemi, mis põhineb inimese nägemiskoorel tehtud neuroteaduste uuringutel.
Kuigi Fukushima neokognitron ei suutnud täita ühtegi keerulist visuaalset ülesannet, pani see aluse arvutinägemise ajaloo üheks olulisemaks arenguks.
Sügavalt õppiv revolutsioon
1980.
aastatel tutvustas prantsuse arvutiteadlane Yan LeCun Fukushima neokognitronist inspireeritud konvolutsioonilist närvivõrku (CNN) - tehisintellekti süsteemi.
CNN koosneb mitmest kunstlike neuronite kihist, matemaatilistest komponentidest, mis jäljendavad ligikaudu nende bioloogiliste analoogide tööd.
Kui konvolutsiooniline närvivõrk töötleb pilti, eraldab iga selle kiht pikslitest spetsiifilised tunnused.
Esimene kiht tuvastab väga põhilised asjad, näiteks vertikaalsed ja horisontaalsed servad.
Närvivõrku sügavamale liikudes tuvastavad kihid keerukamaid funktsioone, sealhulgas nurki ja kujundeid.
CNNi viimased kihid tuvastavad konkreetseid asju, nagu näod, uksed ja autod.
CNN-i väljundkiht annab arvväärtuste tabeli, mis tähistab tõenäosust, et pildil avastati konkreetne objekt.
Närvivõrkude pealmised kihid tuvastavad üldised tunnused; sügavamad kihid tuvastavad tegelikke objekte (Allikas: arxiv.org) LeCuni konvolutsioonilised närvivõrgud olid hiilgavad ja andsid palju lubadusi, kuid neid hoidis tagasi tõsine probleem: nende häälestamine ja kasutamine nõudis tohutut hulka andmeid ja arvutusressursse, mida tol ajal veel polnud.
CNN-id leidsid lõpuks ärilist kasutamist mõnes piiratud valdkonnas, näiteks pangandus ja postiteenused, kus neid kasutati käsitsi kirjutatud numbrite ja tähtede töötlemiseks ümbrikutel ja tšekkidel.
Kuid objektide tuvastamise valdkonnas langesid nad kõrvale ja andsid koha muudele masinõppe tehnikatele, nagu tugivektorimasinad ja juhuslikud metsad.
2012.
aastal arendasid Toronto tehisintellekti teadlased AlexNeti - konvolutsioonilise närvivõrgu, mis domineeris populaarsel ImageNeti pildituvastuskonkursil.
AlexNeti võit näitas, et arvestades andmete ja ressursside arvutamise suurenevat kättesaadavust, võib-olla oli aeg CNN-id uuesti üle vaadata.
Üritus taaselustas huvi CNNide vastu ja vallandas sügava õppimise>, masinõppe haru, mis hõlmab mitmekihiliste kunstlike närvivõrkude kasutamist.
Tänu konvolutsiooniliste närvivõrkude edusammudele ja sügavale õppimisele on arvuti nägemine hüppeliselt kasvanud.
Arvutinägemise rakendused
Paljud igapäevaselt kasutatavad rakendused kasutavad arvutivisioonitehnoloogiat.
Google kasutab seda teie piltide teegist objektide ja stseenide otsimiseks - näiteks koer või päikeseloojang.
Teised ettevõtted kasutavad piltide täiustamiseks arvutinägemist.
Üheks näiteks on Adobe Lightroom CC, mis kasutab masinõppimise algoritme suumitud piltide üksikasjade täiustamiseks.
Traditsiooniline suum kasutab suumitud alade värvimiseks interpoleerimistehnikaid, kuid Lightroom kasutab piltidel objektide tuvastamiseks ja suumimisel nende funktsioonide teravustamiseks arvutinägemist.
Üks valdkond, mis on tänu arvutinägemise edusammudele teinud märkimisväärseid edusamme, on näotuvastus.
Apple kasutab iPhone'i avamiseks näotuvastuse algoritme.
Facebook kasutab näotuvastust, et tuvastada kasutajaid veebis postitatavatel piltidel (kuigi mitte kõik pole fännid).
Hiinas pakuvad paljud jaemüüjad nüüd näotuvastuse maksmise tehnoloogiat, vabastades oma kliendid vajadusest jõuda taskusse.
Näotuvastuse edusammud on muret tekitanud ka eraelu puutumatuse ja õiguste pooldajate seas, eriti kuna eri riikide valitsusasutused kasutavad seda jälgimiseks.
Sisu modereerimine on veel üks oluline rakendus arvutinägemise jaoks.
Sellised ettevõtted nagu Facebook peavad iga päev üle vaatama miljardeid postitusi ja eemaldama vägivalda, äärmuslust või pornograafiat sisaldavad pildid ja videod.
Enamik sotsiaalmeedia võrgustikke kasutab süvaõppimise algoritme postituste analüüsimiseks ja keelatud sisu sisaldavate märkimiseks.
Soovitasid meie toimetajad
Spetsialiseerunud valdkondadele liikudes on arvutinägemine kiiresti meditsiinis asendamatuks vahendiks.
Sügava õppimise algoritmid näitavad meditsiiniliste piltide analüüsimisel muljetavaldavat täpsust.
Haiglad ja ülikoolid kasutavad röntgenikiirte ja MRI uuringute abil mitmesuguste vähitüüpide ennustamiseks arvutinägemist.
Isesõitvad autod toetuvad ümbritseva mõtestamisel suuresti ka arvutinägemisele.
Sügava õppimise algoritmid analüüsivad sõidukile paigaldatud kaamerate videovooge ja tuvastavad inimesi, autosid, teid ja muid objekte, et aidata autol oma keskkonnas liikuda.
Arvutinägemise piirid
Praegused arvutinägemissüsteemid teevad korraliku töö piltide klassifitseerimisel ja objektide fotodel lokaliseerimisel, kui neile on õpetatud piisavalt näiteid.
Kuid nende põhitõdes on arvutivisioonirakendusi võimendavad süvaõppega algoritmid pikslimustrid.
Neil puudub arusaam piltides toimuvast.
Inimeste ja objektide vaheliste suhete mõistmine visuaalsetes andmetes nõuab tervet mõistust ja taustateadmisi.
Sellepärast suudavad sotsiaalmeedia võrgustike kasutatavad arvutinägemisalgoritmid tuvastada alasti sisu, kuid näevad sageli vaeva, et teha vahet ohutu alastuse (imetamine või renessansi kunst) ja keelatud sisu, näiteks pornograafia vahel.
Samamoodi on neil algoritmidel raske eristada äärmuspropagandat ja äärmusrühmitusi käsitlevat dokumentaalfilmi.
Inimesed saavad kasutada oma tohutuid teadmisi maailmast, et täita auke, kui nad satuvad olukorda, mida nad pole varem näinud.
Erinevalt inimestest tuleb arvutinägemisalgoritme põhjalikult juhendada, milliseid objekte nad peavad tuvastama.
Niipea kui nende keskkond sisaldab asju, mis erinevad nende koolitusnäidetest, hakkavad nad käituma ebaratsionaalselt, näiteks ei suuda tuvastada veiderdatud kohtades seisvaid alarmsõidukeid.
Praegu on ainus lahendus nende probleemide lahendamiseks koolitada tehisintellekti algoritme järjest rohkemate näidete põhjal, lootes, et täiendavad andmed hõlmavad kõiki tehisintellekti olukordi.
Kuid nagu kogemus näitab, et ilma olukorrateadlikkuseta on alati nurgajuhtumeid - haruldasi olukordi, mis segavad tehisintellekti algoritmi.
Paljud eksperdid usuvad, et tõelise arvutinägemise saavutame alles siis, kui loome tehisintellekti, tehisintellekti, mis suudab probleeme samamoodi lahendada kui inimesed.
Nagu ütleb oma raamatus arvutiteadlane ja tehisintellekti uurija Melanie Mitchell Tehisintellekt: juhend mõtlevatele inimestele: "Tundub, et visuaalset intelligentsust ei saa hõlpsasti eraldada muust intelligentsusest, eriti üldteadmistest, abstraktsioonist ja keelest ...
Lisaks võib juhtuda, et inimliku visuaalse intelligentsuse jaoks vajalikke teadmisi ...
ei saa õppida miljonite piltide põhjal veebist alla laaditud, kuid seda peab reaalses maailmas kuidagi kogema.
"
Järgmist pilti vaadates näete inimesi, esemeid ja hooneid.
See toob mälestused varasematest kogemustest, sarnastest olukordadest, millega olete kokku puutunud.
Rahvas seisab samas suunas ja hoiab telefone, mis ütleb teile, et see on mingi sündmus.
Kaamera lähedal seisval inimesel on seljas T-särk, mis vihjab sellele, milline võib sündmus olla.
Teisi väikeseid detaile vaadates võite pildilt järeldada palju rohkem teavet.
Foto autor Joshua J.
Cotten lehelt Unsplash Kuid arvuti jaoks on see pilt - nagu kõik pildid - hulgaliselt piksleid, arvväärtusi, mis tähistavad punaseid, rohelisi ja siniseid toone.
Üks väljakutseid, millega arvutiteadlased on 1950ndatest maadelnud, on olnud masinate loomine, mis suudaksid fotosid ja videoid mõtestada nagu inimesed.
Valdkond arvutinägemine on saanud arvutiteaduse ja tehisintellekti üks kuumimaid uurimisvaldkondi.
Aastakümneid hiljem oleme teinud suuri edusamme visuaalsete andmete sisu mõistva ja kirjeldava tarkvara loomise suunas.
Kuid oleme avastanud ka selle, kui kaugele peame jõudma, enne kui saame aru ja korrata inimaju ühte põhifunktsiooni.
Lühike arvutinägemise ajalugu
1966.
aastal käivitasid tehisintellekti kaks teerajajat Seymour Papert ja Marvin Minsky projekti Summer Vision, mis oli kahe kuu pikkune 10-meheline püüd luua arvutisüsteem, mis suudaks piltidel olevaid objekte tuvastada.
Ülesande täitmiseks pidi arvutiprogramm suutma kindlaks teha, millised pikslid millisele objektile kuuluvad.
See on probleem, mille inimnägemissüsteem, mida toetavad meie tohutud teadmised maailmast ja miljardite aastate pikkune evolutsioon, lahendab hõlpsalt.
Kuid arvutite jaoks, mille maailm koosneb ainult numbritest, on see keeruline ülesanne.
Selle projekti ajal oli tehisintellekti domineeriv haru sümboolne tehisintellekt, tuntud ka kui reeglipõhine tehisintellekt: programmeerijad määrasid käsitsi reeglid piltidel olevate objektide tuvastamiseks.
Kuid probleem seisnes selles, et piltidel olevad objektid võisid ilmneda erineva nurga alt ja erinevas valguses.
Objekt võib ilmuda erineva taustaga või on teiste objektide poolt osaliselt varjatud.
Kõik need stsenaariumid genereerivad erinevaid piksliväärtusi ja nende jaoks on praktiliselt võimatu luua käsitsi reegleid.
Loomulikult ei jõudnud suvevisiooni projekt kaugele ja andis piiratud tulemusi.
Paar aastat hiljem, 1979.
aastal, pakkus Jaapani teadlane Kunihiko Fukushima välja neokognitroni - arvuti nägemissüsteemi, mis põhineb inimese nägemiskoorel tehtud neuroteaduste uuringutel.
Kuigi Fukushima neokognitron ei suutnud täita ühtegi keerulist visuaalset ülesannet, pani see aluse arvutinägemise ajaloo üheks olulisemaks arenguks.
Sügavalt õppiv revolutsioon
1980.
aastatel tutvustas prantsuse arvutiteadlane Yan LeCun Fukushima neokognitronist inspireeritud konvolutsioonilist närvivõrku (CNN) - tehisintellekti süsteemi.
CNN koosneb mitmest kunstlike neuronite kihist, matemaatilistest komponentidest, mis jäljendavad ligikaudu nende bioloogiliste analoogide tööd.
Kui konvolutsiooniline närvivõrk töötleb pilti, eraldab iga selle kiht pikslitest spetsiifilised tunnused.
Esimene kiht tuvastab väga põhilised asjad, näiteks vertikaalsed ja horisontaalsed servad.
Närvivõrku sügavamale liikudes tuvastavad kihid keerukamaid funktsioone, sealhulgas nurki ja kujundeid.
CNNi viimased kihid tuvastavad konkreetseid asju, nagu näod, uksed ja autod.
CNN-i väljundkiht annab arvväärtuste tabeli, mis tähistab tõenäosust, et pildil avastati konkreetne objekt.
Närvivõrkude pealmised kihid tuvastavad üldised tunnused; sügavamad kihid tuvastavad tegelikke objekte (Allikas: arxiv.org) LeCuni konvolutsioonilised närvivõrgud olid hiilgavad ja andsid palju lubadusi, kuid neid hoidis tagasi tõsine probleem: nende häälestamine ja kasutamine nõudis tohutut hulka andmeid ja arvutusressursse, mida tol ajal veel polnud.
CNN-id leidsid lõpuks ärilist kasutamist mõnes piiratud valdkonnas, näiteks pangandus ja postiteenused, kus neid kasutati käsitsi kirjutatud numbrite ja tähtede töötlemiseks ümbrikutel ja tšekkidel.
Kuid objektide tuvastamise valdkonnas langesid nad kõrvale ja andsid koha muudele masinõppe tehnikatele, nagu tugivektorimasinad ja juhuslikud metsad.
2012.
aastal arendasid Toronto tehisintellekti teadlased AlexNeti - konvolutsioonilise närvivõrgu, mis domineeris populaarsel ImageNeti pildituvastuskonkursil.
AlexNeti võit näitas, et arvestades andmete ja ressursside arvutamise suurenevat kättesaadavust, võib-olla oli aeg CNN-id uuesti üle vaadata.
Üritus taaselustas huvi CNNide vastu ja vallandas sügava õppimise>, masinõppe haru, mis hõlmab mitmekihiliste kunstlike närvivõrkude kasutamist.
Tänu konvolutsiooniliste närvivõrkude edusammudele ja sügavale õppimisele on arvuti nägemine hüppeliselt kasvanud.
Arvutinägemise rakendused
Paljud igapäevaselt kasutatavad rakendused kasutavad arvutivisioonitehnoloogiat.
Google kasutab seda teie piltide teegist objektide ja stseenide otsimiseks - näiteks koer või päikeseloojang.
Teised ettevõtted kasutavad piltide täiustamiseks arvutinägemist.
Üheks näiteks on Adobe Lightroom CC, mis kasutab masinõppimise algoritme suumitud piltide üksikasjade täiustamiseks.
Traditsiooniline suum kasutab suumitud alade värvimiseks interpoleerimistehnikaid, kuid Lightroom kasutab piltidel objektide tuvastamiseks ja suumimisel nende funktsioonide teravustamiseks arvutinägemist.
Üks valdkond, mis on tänu arvutinägemise edusammudele teinud märkimisväärseid edusamme, on näotuvastus.
Apple kasutab iPhone'i avamiseks näotuvastuse algoritme.
Facebook kasutab näotuvastust, et tuvastada kasutajaid veebis postitatavatel piltidel (kuigi mitte kõik pole fännid).
Hiinas pakuvad paljud jaemüüjad nüüd näotuvastuse maksmise tehnoloogiat, vabastades oma kliendid vajadusest jõuda taskusse.
Näotuvastuse edusammud on muret tekitanud ka eraelu puutumatuse ja õiguste pooldajate seas, eriti kuna eri riikide valitsusasutused kasutavad seda jälgimiseks.
Sisu modereerimine on veel üks oluline rakendus arvutinägemise jaoks.
Sellised ettevõtted nagu Facebook peavad iga päev üle vaatama miljardeid postitusi ja eemaldama vägivalda, äärmuslust või pornograafiat sisaldavad pildid ja videod.
Enamik sotsiaalmeedia võrgustikke kasutab süvaõppimise algoritme postituste analüüsimiseks ja keelatud sisu sisaldavate märkimiseks.
Soovitasid meie toimetajad
Spetsialiseerunud valdkondadele liikudes on arvutinägemine kiiresti meditsiinis asendamatuks vahendiks.
Sügava õppimise algoritmid näitavad meditsiiniliste piltide analüüsimisel muljetavaldavat täpsust.
Haiglad ja ülikoolid kasutavad röntgenikiirte ja MRI uuringute abil mitmesuguste vähitüüpide ennustamiseks arvutinägemist.
Isesõitvad autod toetuvad ümbritseva mõtestamisel suuresti ka arvutinägemisele.
Sügava õppimise algoritmid analüüsivad sõidukile paigaldatud kaamerate videovooge ja tuvastavad inimesi, autosid, teid ja muid objekte, et aidata autol oma keskkonnas liikuda.
Arvutinägemise piirid
Praegused arvutinägemissüsteemid teevad korraliku töö piltide klassifitseerimisel ja objektide fotodel lokaliseerimisel, kui neile on õpetatud piisavalt näiteid.
Kuid nende põhitõdes on arvutivisioonirakendusi võimendavad süvaõppega algoritmid pikslimustrid.
Neil puudub arusaam piltides toimuvast.
Inimeste ja objektide vaheliste suhete mõistmine visuaalsetes andmetes nõuab tervet mõistust ja taustateadmisi.
Sellepärast suudavad sotsiaalmeedia võrgustike kasutatavad arvutinägemisalgoritmid tuvastada alasti sisu, kuid näevad sageli vaeva, et teha vahet ohutu alastuse (imetamine või renessansi kunst) ja keelatud sisu, näiteks pornograafia vahel.
Samamoodi on neil algoritmidel raske eristada äärmuspropagandat ja äärmusrühmitusi käsitlevat dokumentaalfilmi.
Inimesed saavad kasutada oma tohutuid teadmisi maailmast, et täita auke, kui nad satuvad olukorda, mida nad pole varem näinud.
Erinevalt inimestest tuleb arvutinägemisalgoritme põhjalikult juhendada, milliseid objekte nad peavad tuvastama.
Niipea kui nende keskkond sisaldab asju, mis erinevad nende koolitusnäidetest, hakkavad nad käituma ebaratsionaalselt, näiteks ei suuda tuvastada veiderdatud kohtades seisvaid alarmsõidukeid.
Praegu on ainus lahendus nende probleemide lahendamiseks koolitada tehisintellekti algoritme järjest rohkemate näidete põhjal, lootes, et täiendavad andmed hõlmavad kõiki tehisintellekti olukordi.
Kuid nagu kogemus näitab, et ilma olukorrateadlikkuseta on alati nurgajuhtumeid - haruldasi olukordi, mis segavad tehisintellekti algoritmi.
Paljud eksperdid usuvad, et tõelise arvutinägemise saavutame alles siis, kui loome tehisintellekti, tehisintellekti, mis suudab probleeme samamoodi lahendada kui inimesed.
Nagu ütleb oma raamatus arvutiteadlane ja tehisintellekti uurija Melanie Mitchell Tehisintellekt: juhend mõtlevatele inimestele: "Tundub, et visuaalset intelligentsust ei saa hõlpsasti eraldada muust intelligentsusest, eriti üldteadmistest, abstraktsioonist ja keelest ...
Lisaks võib juhtuda, et inimliku visuaalse intelligentsuse jaoks vajalikke teadmisi ...
ei saa õppida miljonite piltide põhjal veebist alla laaditud, kuid seda peab reaalses maailmas kuidagi kogema.
"