När Mohammad Haft-Javaherian, en student vid Massachusetts Institute of Technology, deltog i MIT: s Green AI Hackathon i januari, var det av nyfikenhet att lära sig om möjligheterna hos ett nytt superdatorkluster som presenterades vid evenemanget.
Men vad han hade planerat som en timmes utforskning av en cool ny server drog honom in i en tre dagars tävling för att skapa energieffektiva program för artificiell intelligens.
Erfarenheten resulterade i en uppenbarelse för Haft-Javaherian, som undersöker användningen av AI inom hälso- och sjukvården: "De kluster jag använder varje dag för att bygga modeller med målet att förbättra vården har koldioxidavtryck," säger Haft-Javaherian.
Processorerna som används vid utvecklingen av artificiell intelligensalgoritmer förbrukar mycket el.
Och under de senaste åren, eftersom AI-användningen har ökat, har dess energiförbrukning och koldioxidutsläpp blivit ett miljöproblem.
"Jag ändrade min plan och stannade under hela hackathon för att arbeta med mitt projekt med ett annat mål: att förbättra mina modeller när det gäller energiförbrukning och effektivitet", säger Haft-Javaherian, som gick iväg med ett $ 1000-pris från hackathon.
Han anser nu att koldioxidutsläpp är en viktig faktor när han utvecklar nya AI-system.
Men till skillnad från Haft-Javaherian, förbiser många utvecklare och forskare eller förblir omedvetna om miljökostnaderna för deras AI-projekt.
I molntjänstens tid kan utvecklare hyra onlineservrar med dussintals processorer och starka grafikprocessorer (GPU: er) på några minuter och snabbt utveckla kraftfulla artificiell intelligensmodeller.
Och när deras beräkningsbehov stiger kan de lägga till fler processorer och GPU: er med några få klick (så länge de kan klara räkningen), utan att veta att de med varje extra processor bidrar till föroreningarna av vår gröna planet.
Varför förbrukar AI så mycket energi?
Den senaste ökningen av AIs energiförbrukning beror till stor del på den ökade populariteten för djupinlärning, en gren av artificiell intelligensalgoritmer som är beroende av att bearbeta stora mängder data.
"Moderna maskininlärningsalgoritmer använder djupa neurala nätverk, som är mycket stora matematiska modeller med hundratals miljoner - eller till och med miljarder - parametrar", säger Kate Saenko, docent vid Institutionen för datavetenskap vid Boston University och chef för datoren.
Vision and Learning Group.
Dessa många parametrar gör det möjligt för neurala nätverk att lösa komplicerade problem som att klassificera bilder, känna igen ansikten och röster och skapa sammanhängande och övertygande text.
Men innan de kan utföra dessa uppgifter med optimal noggrannhet, måste neurala nätverk genomgå "träning", vilket innebär att man ställer in deras parametrar genom att utföra komplicerade beräkningar på ett stort antal exempel.
”För att göra saken värre lär sig nätverket inte direkt efter att ha sett träningsexemplen en gång; det måste visas exempel många gånger innan dess parametrar blir tillräckligt bra för att uppnå optimal noggrannhet, säger Saenko.
All denna beräkning kräver mycket el.
Enligt en studie av forskare vid University of Massachusetts, Amherst, kan den energi som förbrukas under träning av en transformator, en typ av djupinlärningsalgoritm, avge mer än 626 000 pund koldioxid - nästan fem gånger utsläppen av ett genomsnitt Amerikansk bil.
En annan studie visade att AlphaZero, Googles Go- och schackspelande AI-system, genererade 192 000 pund CO2 under träningen.
För att vara rättvis är inte alla AI-system så kostsamma.
Transformatorer används i en bråkdel av djupinlärningsmodeller, mestadels i avancerade naturliga språkbearbetningssystem som OpenAIs GPT-2 och BERT, som nyligen integrerades i Googles sökmotor.
Och få AI-laboratorier har ekonomiska resurser för att utveckla och träna dyra AI-modeller som AlphaZero.
Efter att en djupinlärningsmodell har tränats krävs det mycket mindre kraft för att använda den.
”För att ett utbildat nätverk ska kunna förutsäga, behöver det bara titta på ingångsdata en gång, och det är bara ett exempel snarare än en hel stor databas.
Så slutsatser är mycket billigare att göra beräkningsmässigt, säger Saenko.
Många deep-learning-modeller kan distribueras på mindre enheter efter att ha tränats på stora servrar.
Många applikationer av kant AI körs nu på mobila enheter, drönare, bärbara datorer och IoT-enheter (Internet of Things).
Men även små djupinlärningsmodeller förbrukar mycket energi jämfört med annan programvara.
Och med tanke på utvidgningen av applikationer för djupinlärning utvecklas de kumulativa kostnaderna för beräkningsresurserna för att utbilda neurala nätverk till ett problem.
”Vi börjar bara uppskatta hur energiintensiva nuvarande AI-tekniker är.
Om du funderar på hur snabbt AI växer kan du se att vi går i en ohållbar riktning, säger John Cohn, IBM-stipendiat och forskare med MIT-IBM Watson AI Lab, som ledde Green AI-hackathon på MIT.
Enligt en uppskattning kan 2030 mer än 6 procent av världens energi förbrukas av datacenter.
”Jag tror inte att det kommer till det, även om jag tror att övningar som vår hackathon visar hur kreativa utvecklare kan vara när de får feedback om de val de gör.
Deras lösningar kommer att bli mycket effektivare, säger Cohn.
Skapa energieffektiv AI-hårdvara
”CPU, GPU och molnservrar var inte utformade för AI-arbete.
De har blivit omarbetade för det, som ett resultat, är mindre effektiva än processorer som designades specifikt för AI-arbete, säger Andrew Feldman, VD och grundare av Cerebras Systems.
Han jämför användningen av tunga generiska processorer för AI med att använda en 18-hjulig lastbil för att ta barnen till fotbollsövning.
Cerebras är ett av en handfull företag som skapar specialiserad hårdvara för AI-algoritmer.
Förra året kom det ur smygande med lanseringen av CS-1, en enorm processor med 1,2 biljoner transistorer, 18 gigabyte minne på chipet och 400 000 processorkärnor.
Detta gör det möjligt för CS-1, det största datorchipet som någonsin gjorts, att hysa en hel djupinlärningsmodell utan att behöva kommunicera med andra komponenter.
"När man bygger ett chip är det viktigt att notera att kommunikationen på chipet är snabb och lågeffektiv, medan kommunikationen över chips är långsam och väldigt strömkrävande", säger Feldman.
”Genom att bygga ett mycket stort chip behåller Cerebras beräkningen och kommunikationen på ett enda chip, vilket dramatiskt minskar den totala energiförbrukningen.
GPU: er å andra sidan kluster många marker tillsammans genom komplexa växlar.
Detta kräver frekvent kommunikation utanför chip, via switchar och tillbaka till andra chips.
Denna process är långsam, ineffektiv och väldigt makt hungrig.
”
CS-1 använder en tiondel av kraften och utrymmet på ett rack med GPU: er som skulle ge motsvarande beräkningskraft.
Satori, den nya superdatorn som IBM byggde för MIT och ställdes ut vid Green AI hackathon, har också utformats för att utföra energieffektiv AI-utbildning.
Satori rankades nyligen som en av världens grönaste superdatorer.
"Satori är utrustat för att ge feedback om energi / kol till användarna, vilket gör det till ett utmärkt" laboratorium "för att förbättra koldioxidavtrycket både AI-hårdvara och programvara", säger IBMs Cohn.
Rekommenderas av våra redaktörer
Cohn anser också att de energikällor som används för att driva AI-hårdvara är lika viktiga.
Satori är nu inrymt i Massachusetts Green High Performance Computing Center (MGHPCC), som nästan uteslutande drivs av förnybar energi.
”Vi beräknade nyligen kostnaden för en hög arbetsbelastning på Satori vid MGHPCC jämfört med den genomsnittliga superdatorn i ett datacenter med den genomsnittliga blandningen av energikällor.
Resultaten är häpnadsväckande: Ett års körning av lasten på Satori skulle släppa ut så mycket kol i luften som lagras i cirka fem fullvuxna lönnträd.
Att köra samma belastning på den "genomsnittliga" maskinen skulle frigöra kolekvivalenten på cirka 280 lönnträd ", säger Cohn.
Yannis Paschalidis, chef för Boston Universitys centrum för informations- och systemteknik, föreslår en bättre integration av datacenter och energinät, som han beskriver som ”efterfrågan-svar” -modeller.
”Tanken är att samordna med nätet för att minska eller öka förbrukningen på begäran, beroende på elförsörjning och efterfrågan.
Detta hjälper verktyg att bättre hantera nätet och integrera fler förnybara energikällor i produktionsmixen, säger Paschalidis.
Till exempel, när förnybara energikällor som sol- och vindkraft är knappa, kan datacenter instrueras att minska förbrukningen genom att sakta ner beräkningsjobb och sätta AI-uppgifter med låg prioritet i paus.
Och när det finns ett överflöd av förnybar energi kan datacentren öka förbrukningen genom att påskynda beräkningarna.
Den smarta integrationen av kraftnät och AI-datacenter, säger Paschalidis, kommer att hjälpa till att hantera förnyelsebara energikällor och samtidigt minska behovet av att ha för mycket beredskapskapacitet i vilande elverk.
Framtiden för energieffektiv AI
Forskare och forskare letar efter sätt att skapa AI-system som inte behöver enorma mängder data under träning.
När allt kommer omkring använder den mänskliga hjärnan, som AI-forskare försöker replikera, en bråkdel av den data och kraft som nuvarande AI-system använder.
Under årets AAAI-konferens diskuterade Yann LeCun, en pionjär för djupinlärning, självövervakad inlärning, djupinlärningssystem som kan lära sig med mycket mindre data.
Andra, inklusive kognitiv forskare Gary Marcus, tror att vägen framåt är hybrid artificiell intelligens, en kombination av neurala nätverk och den mer klassiska regelbaserade metoden för AI.
Hybrid AI-system har visat sig vara mer data- och energieffektiva än rena neuralt nätverksbaserade system.
”Det är tydligt att den mänskliga hjärnan inte kräver stora mängder märkt data.
Vi kan generalisera från relativt få exempel och räkna ut världen med sunt förnuft.
Således,...