Algoritmen bepalen enorm veel over de manier waarop we online leven en werken.
Ze bepalen wat we online zien en kunnen ons vertellen wat voor soort zorg we krijgen.
In deze aflevering van Fast Forward legt Michael Kearns, co-auteur van The Ethical Algorithm: The Science of Ethical Algorithm Design, uit hoe AI-systemen de wereld ten goede zullen veranderen - als we ze op de juiste manier ontwerpen.
Dan Costa: Je bent hoogleraar computer- en informatiewetenschappen aan de Universiteit van Pennsylvania en je hebt een boek geschreven met de titel The Ethical Algorithm: The Science of Socially Aware Algorithm Design met co-auteur Aaron Roth, ook aan de Universiteit van Pennsylvania.
Het biedt echt een raamwerk voor hoe we morele machines kunnen bouwen die daadwerkelijk voldoen aan het soort ethische richtlijnen waarnaar we streven.
Laten we beginnen met waarom algoritmen belangrijk zijn, wat we bedoelen als we algoritme in termen van AI zeggen en wat mensen zich niet realiseren over algoritmen zelf?
Michael Kearns: Allereerst bestaan ??algoritmen natuurlijk al heel, heel lang, voordat er computers waren.
AI en machine learning zijn ook heel oude velden, maar ik denk dat wat echt is veranderd in de afgelopen 20 jaar, en vooral de laatste 10, is dat AI en machine learning vroeger werden gebruikt in wetenschappelijke toepassingen, omdat daar voldoende gegevens waren om voorspellende trainingen te trainen.
modellen.
De opkomst van het consumenteninternet heeft er nu allemaal toe geleid dat we allemaal stapels gegevens hebben gegenereerd over onze activiteiten, onze locaties, onze voorkeuren, onze hoop, onze angsten, enzovoort.
Nu is het mogelijk om machine learning te gebruiken om algoritmische besluitvorming te personaliseren, sommige beslissingen waarvan we op de hoogte zijn en willen dat algoritmen voor ons worden genomen, en soms beslissingen waarvan we ons niet eens bewust zijn.
Wat zijn enkele van de beslissingen waarvan mensen zich misschien niet bewust zijn?
Veel van de voorbeelden in ons boek zijn waar de beslissing grote consequenties heeft voor het individu en ze zijn zich er misschien niet eens van bewust dat algoritmen worden gebruikt of worden gebruikt om het besluitvormingsproces te helpen.
Voorbeelden zijn zaken als consumentenleningen, of u nu een lening of een creditcard krijgt, beslissingen over toelating tot de universiteit, beslissingen over aanwerving op HR-afdelingen en zelfs zeer daaruit voortvloeiende zaken als gezondheidszorg; en ook welke strafrechtelijke straf u krijgt en of u voorwaardelijke vrijlating krijgt als u in de gevangenis zit.
De meeste mensen realiseren zich niet dat dit zowel bij particuliere bedrijven als bij de overheid gebeurt.
Idealiter worden deze dingen geïntroduceerd om het besluitvormingsproces beter en beter geïnformeerd en minder bevooroordeeld te maken.
Waarom gebeurt dat niet?
Ik denk niet dat het primaire doel van de meeste algoritmische besluitvorming is om dingen minder vooringenomen te maken, het is vaak om het efficiënter te maken en om te profiteren van het feit dat we enorme hoeveelheden gegevens hebben die kunnen worden gebruikt om voorspellende modellen te bouwen .
Dus in plaats van dat ofwel de mens rechtstreeks de beslissingen neemt, die vaak traag kan zijn en ook op verschillende manieren bevooroordeeld kan zijn, is het gemakkelijker en handiger om de gegevens die u hebt te nemen en in wezen een model te trainen.
Het is echt een vorm van zelfprogrammering, toch? In plaats van dat een computerprogrammeur zegt wie een lening zou moeten krijgen en wie niet, op basis van de kenmerken die in een leningaanvraag zijn ingevoerd, neem je gewoon een heleboel historische gegevens over mensen aan wie je leningen hebt verstrekt, die hebben terugbetaald en niet hebben terugbetaald, en je probeert een model te leren dat kredietwaardig en niet kredietwaardig scheidt.
Ik denk dat efficiëntie in het bedrijfsleven en elders de belangrijkste drijfveer is en dat ons boek in feite gaat over de bijkomende schade die kan ontstaan ??door het najagen van die efficiëntieverbeteringen.
Laten we het hebben over enkele van die voorbeelden.
Een paar weken geleden was er een studie over een ziekenhuis dat een algoritme gebruikte om te helpen bepalen aan wie medische zorg moest worden verleend en hoeveel medische zorg moest worden verleend.
Er was enige analyse en er werd vastgesteld dat het algoritme systematisch Afrikaans-Amerikaanse patiënten ondermaats en daarom blanke patiënten te veel bediende.
Ja, en ik denk dat het eigenlijk niet één ziekenhuis was, maar veel ziekenhuizen die allemaal een algoritme van een derde partij gebruikten, hadden het probleem dat je hebt beschreven.
Het belicht een van de verschillende manieren waarop zaken als ras, geslacht en andere vooringenomenheid in algoritmen kunnen binnensluipen.
In dat specifieke geval lag het probleem niet echt bij het algoritme, dat vaak een bron van vooringenomenheid of discriminatie is, en ook niet bij de gegevens zelf, het was eigenlijk het doel dat het bedrijf gebruikte om het model te trainen.
Het doel van dit model was om te proberen de gezondheid van patiënten te beoordelen om te beslissen welk niveau van gezondheidszorg ze nodig hadden of om in te grijpen bij een of andere behandeling.
Maar het daadwerkelijk meten van iemands gezondheid is een ingewikkeld, multidimensionaal iets.
Met andere woorden, het is moeilijk om de juiste gegevens te verzamelen om voor dat doel te trainen.
Wat dit bedrijf blijkbaar deed, was zeggen: 'Laten we de zorgkosten gewoon gebruiken als proxy voor gezondheidszorg.
Laten we aannemen dat in onze historische dataset de mensen met hogere ziektekosten de ziekere waren en de mensen met lagere ziektekosten gezonder.
degenen.
" Het probleem hiermee is dat het heeft geleerd om Afro-Amerikanen te discrimineren omdat ze systematisch over het algemeen lagere zorgkosten hadden, niet omdat ze minder ziek waren, maar omdat ze minder toegang hadden tot gezondheidszorg.
Dit is een klassiek voorbeeld waarbij, wanneer u één doel heeft, het moeilijk is om dat doel te bereiken of een duurder proces voor gegevensverzameling zou vereisen.
Vervolgens gebruiken ze deze proxy en die proxy heeft in wezen deze vooringenomenheid in hun model bestendigd.
Het is interessant omdat als je hoort over vooringenomenheid in het algoritme, je denkt dat er zeker een punt is waarop je vraagt ??naar raciale achtergronden.
Dat is eigenlijk heel zelden het geval, het zijn die secundaire gevolgen, die correlaties die je misschien niet begrijpt wanneer je het algoritme voor het eerst programmeert.
Klopt.
Ik denk zelfs dat een van de dingen die we de afgelopen jaren hebben geleerd, is dat, alleen omdat je geen variabele zoals ras of geslacht in je model opneemt, absoluut geen garantie is dat je model uiteindelijk niet discriminerend zal zijn.
op ras en geslacht.
Er zijn een aantal redenen waarom dit kan gebeuren, en het is interessant omdat er bijvoorbeeld op het gebied van kredietverlening en krediet al lang bestaande wetten in de VS zijn die zeggen: "U zult ras niet gebruiken als input voor uw voorspellende modellen." In het tijdperk dat deze wetten werden ontwikkeld, denk ik dat het de bedoeling was om raciale minderheden te beschermen tegen discriminatie door modellen, maar het gebeurt niettemin.
Een van de vele redenen waarom dit kan gebeuren, is dat er tegenwoordig, vooral wanneer er zoveel over ons bekend is, zoveel gegevensbronnen over ons beschikbaar zijn.
Er zijn gewoon te veel proxy's voor zaken als race.
Ik bedoel, je hoeft me niet te vertellen wat je ras voor mij is om erachter te komen, althans in statistische zin uit andere gegevensbronnen.
Een ongelukkig voorbeeld is dat in de Verenigde Staten uw postcode al een vrij goede indicator is van uw ras.
Dus dit is het soort dingen dat kan gebeuren.
Laten we het hebben over een ander voorbeeld van een verkeerd begrepen algoritme.
U had het over algoritmen voor criminele risicobeoordeling, die een van deze algoritmen omvat die nu al bijna 20 jaar wordt gebruikt.
Veel mensen hebben het systeem doorlopen, er zijn enkele meldingen dat er gebreken en eerlijkheidsproblemen in het algoritme zitten, maar het probleem is eigenlijk behoorlijk gecompliceerd en genuanceerd.
Dat was opnieuw een zeer relatief recente controverse die volgens mij heeft bijgedragen aan een beter begrip van de uitdagingen van algoritmische rechtvaardigheid.
Een campus heeft dit voorspellingsmodel voor criminele recidive gebouwd, een soort van bijna een Minderheidsverslag-type model dat, op basis van iemands criminele geschiedenis, probeert te voorspellen of ze de komende twee jaar een geweldsmisdrijf zullen herhalen of in wezen opnieuw zullen plegen.
Dit soort risicobeoordelingsmodellen worden vaak in verschillende rechtsgebieden gebruikt door rechters die beslissen of mensen al dan niet voorwaardelijke vrijlating krijgen.
Het zijn dus heel, heel consequente dingen.
De onderzoekende non-profitorganisatie ProPublica nam dit model onder de loep en toonde aan dat het een systematische raciale vooringenomenheid had, dat het discrimineerde tegen Afro-Amerikanen en andere raciale minderheden.
Er was dus controverse en er was heen en weer tussen ProPublica en het bedrijf dat het model had ontwikkeld, waarbij ProPublica zei: "Uw model is oneerlijk." Toen kwam NorthPointe, het bedrijf dat het ontwikkelde, terug en zei: "Nee, we waren ons bewust van deze problemen en we hebben ervoor gezorgd dat ons model eerlijk was, maar we gebruikten deze andere definitie van eerlijkheid.
Als je in het onkruid graaft.
op dit punt zijn beide definities van eerlijkheid volkomen redelijk en wenselijk.
Eigenlijk zou je ze allebei willen hebben.
" Toen begonnen onderzoekers hun hoofd te krabben en te zeggen: "Oké, wie is hier?" Toen gingen sommigen van hen, die meer theoretisch geneigd waren, zitten en dachten: "Is het zelfs wiskundig mogelijk om aan beide definities van eerlijkheid tegelijkertijd te voldoen?" Toen bewezen ze dat het niet zo was.
Dit is vooral verhelderend of verontrustend, afhankelijk van je standpunt, omdat het aantoont dat de algoritmische studie van eerlijkheid of implementatie van eerlijkheid nogal rommelig zal zijn en dat je misschien moet, als je om één soort eerlijkheid vraagt, om een ??andere op te geven.
Ik denk dat we vrij duidelijk zijn geweest over hoe ingewikkeld dit erg snel wordt.
In je boek geef je wat advies om vanaf het begin ethiek in deze algoritmen in te bouwen.
Hoe gaan we dat doen?
Het belangrijkste doel van ons boek is dat we optimisten zijn, we zijn onderzoekers op het gebied van machine learning, maar we zijn ons ook bewust van het antisociaal gedrag dat algoritmen de afgelopen vijf jaar hebben laten zien en het toenemend soort populaire alarm daarover.
We delen dat alarm en we hadden het gevoel dat de meeste boeken die we hebben gelezen, waarvan we er veel erg leuk vonden, heel goed zijn in het aangeven wat de problemen zijn; maar...