Algoritmer bestemmer enormt, hvordan vi lever og arbejder online.
De bestemmer, hvad vi ser online, og kan fortælle os, hvilken type sundhedspleje vi får.
I denne episode af Fast Forward forklarer Michael Kearns, medforfatter af The Ethical Algorithm: The Science of Ethical Algorithm Design, hvordan AI-systemer vil ændre verden til det bedre - hvis vi designer dem på den rigtige måde.
Dan Costa: Du er professor i computer- og informationsvidenskab ved University of Pennsylvania, og du har skrevet en bog kaldet Den etiske algoritme: Videnskaben om socialt bevidst algoritmedesign med medforfatter Aaron Roth, også ved University of Pennsylvania.
Det præsenterer virkelig en ramme for, hvordan vi kan bygge moralske maskiner, der rent faktisk vil overholde den slags etiske retningslinjer, som vi stræber efter.
Lad os starte med, hvorfor algoritmer er vigtige, hvad vi mener, når vi siger algoritme i form af AI, og hvad folk ikke ved om algoritmer selv?
Michael Kearns: Først og fremmest har algoritmer naturligvis eksisteret i meget, meget lang tid, siden før der var computere.
AI og machine learning er også meget gamle felter, men jeg tror, ??hvad der virkelig har ændret sig i de sidste 20 år, og især de sidste 10, er at AI og machine learning bruges til at blive brugt i videnskabelige applikationer, fordi det var her, der var tilstrækkelige data til at træne forudsigelig modeller.
Stigningen af ??forbrugerinternet har nu fået os alle til at generere reams og reams af data om vores aktiviteter, vores placeringer, vores præferencer, vores håb, vores frygt osv.
Nu er det muligt at bruge maskinlæring til at personliggøre algoritmisk beslutningstagning, nogle beslutninger, som vi kender til, og som algoritmer skal tage for os, og nogle gange beslutninger, som vi ikke engang er klar over.
Hvad er nogle af de beslutninger, som folk måske ikke er opmærksomme på?
Mange af eksemplerne i vores bog er, hvor beslutningen har en stor konsekvens for individet, og de er måske ikke engang klar over, at algoritmer bruges eller bruges til at hjælpe beslutningsprocessen.
Eksempler kan være ting som forbrugerudlån, hvad enten du får et lån eller et kreditkort, når du ansøger om det, beslutninger om optagelse på college, ansættelsesbeslutninger i HR-afdelinger og endda meget følsomme ting som sundhedspleje; og også hvilken straffesag du får, eller om du får prøveløsladelse, hvis du er fængslet.
De fleste mennesker er ikke klar over, at dette sker i både private virksomheder og i regeringen.
Ideelt set introduceres disse ting for at gøre beslutningsprocessen bedre og mere informeret og mindre partisk.
Hvorfor sker det ikke?
Jeg tror ikke, at det primære mål for de fleste algoritmiske beslutninger er at gøre tingene mindre forudindtagede, det er ofte at gøre det mere effektivt og udnytte det faktum, at vi har enorme mængder data, der kan bruges til at opbygge forudsigelige modeller .
Så i stedet for at begge mennesker direkte træffer beslutningerne, som ofte kan være langsomme og også være partiske på forskellige måder, er det lettere og hensigtsmæssigt at tage de data, du har, og i det væsentlige at træne en model.
Det er virkelig en form for selvprogrammering, ikke? I stedet for en computerprogrammerer, der siger, hvem der skal få et lån, og hvem ikke, baseret på de attributter, der er indgået i en låneansøgning, tager du bare en masse historiske data om folk, du gav lån til, som tilbagebetalte og ikke tilbagebetalte, og du prøver at lære en model, der adskiller den kreditværdige fra den ikke-kreditværdige.
Jeg tror, ??at ofte i erhvervslivet og andre steder er den primære drivkraft effektivitet, og vores bog handler virkelig om sikkerhedsskader, der kan komme fra at jagte disse effektivitetsgevinster.
Lad os tale om nogle af disse eksempler.
For et par uger siden var der en studere om et hospital der brugte en algoritme til at bestemme, hvem man skulle give lægehjælp til, og hvor meget lægehjælp man skulle give.
Der var en vis analyse, og det blev bestemt, at algoritmen systematisk var under-betjener afroamerikanske patienter og derfor overdrevent hvide patienter.
Ja, og jeg tror, ??det var faktisk ikke et hospital, det var mange hospitaler, der alle brugte en tredjepartsalgoritme, der havde det problem, du beskrev.
Det fremhæver en af ??de mange måder, hvorpå ting som race, køn og anden bias kan krybe ind i algoritmer.
I det særlige tilfælde var problemet ikke rigtig med algoritmen, som ofte er en kilde til bias eller diskrimination, og det var heller ikke med selve dataene, det var faktisk det mål, virksomheden brugte til at træne modellen.
Formålet med denne model var at forsøge at vurdere patienters helbred for at bestemme, hvilket niveau af sundhedsvæsen de havde brug for, eller at gribe ind med en eller anden behandling.
Men det er faktisk en kompliceret, flerdimensionel ting at måle nogens helbred.
Med andre ord er det svært at samle de rigtige data til at træne til dette mål.
Hvad dette firma tilsyneladende gjorde, var at sige: "Nå lad os bare bruge sundhedsudgifter som en fuldmægtig til sundhedsydelser.
Lad os antage, at i vores historiske datasæt var de mennesker, der havde højere sundhedsudgifter, de sygere, og folk med lavere sundhedsudgifter var de sundere dem.
" Problemet med dette er, at det lærte at diskriminere afroamerikanere, fordi de systematisk samlet havde lavere sundhedsomkostninger, ikke fordi de var mindre syge, men fordi de havde mindre adgang til sundhedsvæsenet.
Dette er et klassisk eksempel, hvor det, når du har et mål, er svært at målrette mod dette mål eller ville kræve en dyrere dataindsamlingsproces.
Derefter bruger de denne proxy, og denne proxy opretholdt i det væsentlige denne bias i deres model.
Det er interessant, for når du hører om bias i algoritmen, tror du, at der bestemt er et punkt, hvor du spørger om racebaggrund.
Det er faktisk meget sjældent tilfældet, det er de sekundære konsekvenser, de sammenhænge, ??som du måske ikke forstår, når du først programmerer algoritmen.
Det er rigtigt.
Faktisk tror jeg, at en af ??de ting, vi har lært i de seneste år, er, at bare fordi du ikke inkluderer en variabel som race eller køn i din model, er det absolut ingen garanti for, at din model ikke ender med at være diskriminerende efter race og efter køn.
Der er en række grunde til, at dette kan ske, og det er interessant, fordi der for eksempel inden for udlån og kredit er langvarige love i USA, der siger: "Du skal ikke bruge race som et input til dine forudsigelige modeller." I den tid, hvor disse love blev udviklet, tror jeg, at hensigten var at beskytte raceminoriteter mod diskrimination ved hjælp af modeller, men det sker alligevel.
En af de mange grunde til, at det kan ske, er, at der i disse dage, især når man kender så meget til os, er der så mange datakilder, der er tilgængelige.
Der er bare for mange fuldmagter til ting som race.
Jeg mener, du behøver ikke fortælle mig, hvad dit løb er for mig at finde ud af det, i det mindste i statistisk forstand fra andre datakilder.
Et uheldigt eksempel er, at i USA er dit postnummer allerede en ret god indikator for dit løb.
Så dette er den slags ting, der kan ske.
Lad os tale om et andet eksempel på en misforstået algoritme.
Du talte om kriminelle risikovurderingsalgoritmer, som omfatter en af ??disse algoritmer, der er blevet brugt i næsten 20 år nu.
Mange mennesker har gennemgået systemet, der har været nogle rapporter om, at der er fejl, retfærdighedsproblemer i algoritmen, men problemet er faktisk ret kompliceret og nuanceret.
Det var igen en meget relativt nylig kontrovers, som jeg tror hjalp med at fremme vores forståelse af udfordringerne ved algoritmisk retfærdighed.
En campus byggede denne kriminelle forudsigelsesmodel for recidivisme, næsten en Mindretalsrapport-type af model, der, baseret på en persons kriminelle historie, forsøger at forudsige, om de vil genoprette eller i det væsentlige genforpligte en voldelig forbrydelse engang i de næste to år.
Denne form for risikovurderingsmodeller bruges ofte i forskellige jurisdiktioner af dommere, der beslutter, om de skal give folk prøveløsladelse eller ej.
Så det er meget, meget konsekvent ting.
Den efterforsknings-nonprofit ProPublica kiggede hårdt på denne model og demonstrerede, at den havde en systematisk racemæssig bias, at den diskriminerede afroamerikanere og andre race-mindretal.
Så der var kontrovers, og der var frem og tilbage mellem ProPublica og det firma, der havde udviklet modellen, med ProPublica, der sagde: "Din model er uretfærdig." Derefter kom NorthPointe, som var det firma, der udviklede det, tilbage og sagde: "Nej, vi var bevidst opmærksomme på disse problemer, og vi sørgede for, at vores model var retfærdig, men vi brugte denne anden definition af retfærdighed.
Hvis du graver i ukrudtet på dette er begge disse definitioner af retfærdighed helt rimelige og ønskelige.
Faktisk vil du gerne have dem begge.
" Derefter begyndte forskere at skrabe hovedet og sige: "Okay, hvem er lige her?" Så satte nogle af dem mere teoretisk tilbøjelige sig ned og tænkte: "Er det endda matematisk muligt at tilfredsstille begge disse retfærdighedsdefinitioner samtidigt?" Så beviste de, at det ikke var tilfældet.
Dette er især oplysende eller foruroligende afhængigt af dit synspunkt, fordi det viser, at den algoritmiske undersøgelse af retfærdighed eller implementering af retfærdighed vil være lidt rodet, og at du muligvis bliver nødt til at at opgive en anden.
Jeg tror, ??vi har været ret klare over, hvor kompliceret det bliver meget hurtigt.
I din bog giver du nogle råd til, hvordan du bygger etik i disse algoritmer fra starten.
Hvordan skal vi gøre det?
Hovedformålet med vores bog er, at vi er optimister, vi er maskinlæringsforskere, men vi er også opmærksomme på den antisociale adfærd, som algoritmer har vist i de sidste fem år, og den stigende form for populær alarm over det.
Vi deler alarmen, og vi følte, at de fleste af de bøger, vi har læst, hvoraf mange vi meget kan lide, er meget gode til at påpege, hvad problemerne er; men...