4.6.2 vervangen, verfijnen en verkleinen

Deze vertaling werd gemaakt door een computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 vervangen, verfijnen en verkleinen

Maak uw experiment menselijker door het vervangen van experimenten met niet-experimentele studies, het verfijnen van de behandelingen, en het verminderen van het aantal deelnemers.

Het tweede stuk van advies dat ik zou willen bieden over het ontwerpen van digitale experimenten betreft ethiek. Zoals de Restivo en Van de Rijt experiment op barnstars in Wikipedia shows, lagere kosten betekent dat ethiek een steeds belangrijker onderdeel van het onderzoek ontwerp zal worden. In aanvulling op de ethische kaders leidende menselijke proefpersonen onderzoek dat ik beschrijf in hoofdstuk 6, kunnen de onderzoekers het ontwerpen van digitale experimenten ook gebruik maken van ethische ideeën uit een andere bron: de ethische principes ontwikkeld om experimenten met dieren te leiden. In het bijzonder, in hun boek mijlpaal Principles of Humane experimentele techniek, Russell and Burch (1959) voorgestelde drie principes die proefdieronderzoek als leidraad moeten dienen: Vervang, verfijnen en verkleinen. Ik zou willen voorstellen dat deze drie R's ook kan worden gebruikt in een licht gewijzigde vorm tot het ontwerp van de menselijke experimenten te begeleiden. Met name,

Vervangen: Vervang de experimenten met minder invasieve methoden, indien mogelijk
Verfijn: Verfijn de behandeling om het zo onschuldig mogelijk te maken
Verminder: Verminder het aantal deelnemers aan het experiment zoveel mogelijk

Om concreet de drie R's te maken en te laten zien hoe ze mogelijk kunnen leiden tot een betere en meer humane experimentele opzet, zal ik een online veldexperiment dat ethisch debat gegenereerd te beschrijven. Dan beschrijf ik hoe de drie R suggereren concrete en praktische veranderingen in het ontwerp van het experiment.

Een van de meest ethisch besproken digitale veldexperimenten is "Emotional Contagion", die werd uitgevoerd door Adam Kramer, Jamie Gilroy, en Jeffrey Hancock (2014) . Het experiment vond plaats op Facebook en werd ingegeven door een mix van wetenschappelijke en praktische vragen. Op het moment, de dominante manier waarop gebruikers interactie met Facebook was de News Feed, een algoritmisch curator set van Facebook status updates van een gebruiker Facebook-vrienden. Sommige critici van Facebook had voorgesteld dat, omdat de News Feed heeft meestal positieve berichten-vrienden pronken met hun nieuwste party-het zou kunnen veroorzaken gebruikers te voelen verdrietig omdat hun leven minder spannend in vergelijking lijken. Anderzijds, misschien het gevolg is precies het tegenovergestelde; misschien het zien van uw vriend met een goede tijd zou je gelukkig te voelen? Om aan te pakken deze tegenstrijdige hypothese-en aan ons begrip van hoe een persoon emoties worden beïnvloed door haar vrienden 'te bevorderen emoties-Kramer en collega's liep een experiment. De onderzoekers geplaatst ongeveer 700.000 gebruikers in vier groepen voor een week: een 'negativiteit verlaagd "groep, voor wie de berichten met negatieve woorden (bijvoorbeeld, verdrietig) werden willekeurig geblokkeerd verschijnen de News Feed; een "positiviteit verlaagd" groep voor wie de berichten met positieve woorden (bijvoorbeeld, gelukkig) willekeurig werden geblokkeerd; en twee controlegroepen. In de controlegroep voor de "negativiteit verlaagd" groep werden willekeurig posten geblokkeerd in hetzelfde tempo als de "negativiteit verlaagd" groep, maar ongeacht de emotionele inhoud. De controle groep voor de "positiviteit verlaagd" groep werd gebouwd in een parallelle wijze. De opzet van dit experiment illustreert dat de geschikte controlegroep is niet altijd een ongewijzigd. Veeleer soms krijgt de controlegroep een behandeling om de precieze vergelijking te maken dat een vraagstelling vereist. In alle gevallen, de posten die werden geblokkeerd uit de News Feed waren nog steeds beschikbaar voor gebruikers via andere delen van de Facebook-website.

Kramer en collega's vinden dat voor deelnemers aan de positiviteit gereduceerde toestand, het percentage positieve woorden status updates verminderd en het percentage negatieve woorden vergroot. Anderzijds, voor deelnemers aan de negativiteit gereduceerde toestand, het percentage positieve woorden verhoogd en het percentage negatieve woorden af (Figuur 4.23). Maar deze effecten waren heel klein: het verschil in positieve en negatieve woorden tussen de behandelingen en controles was ongeveer 1 in 1000 woorden.

Figuur 4.23: Bewijs van emotionele besmetting (Kramer, Guillory, en Hancock 2014). Percentage positieve woorden en negatieve woorden door experimentele conditie. Bars vertegenwoordigen naar schatting standaard fouten.

Figuur 4.23: Bewijs van emotionele besmetting (Kramer, Guillory, and Hancock 2014) . Percentage positieve woorden en negatieve woorden door experimentele conditie. Bars vertegenwoordigen naar schatting standaard fouten.

Ik heb een bespreking van de wetenschappelijke aspecten van dit experiment te zetten in de verdere sectie lezing op het einde van het hoofdstuk, maar helaas, dit experiment is het meest bekend voor het genereren van ethische discussie. Slechts enkele dagen nadat dit artikel in Proceedings van de National Academy of Sciences werd gepubliceerd, was er een enorme protest van zowel onderzoekers als de pers. Outrage rond het papier gericht op twee belangrijke punten: 1) de deelnemers leverde geen toestemming verder dan de standaard Facebook-termen-of-service voor een behandeling die wat gedachte schade zou kunnen toebrengen aan de deelnemers en 2) de studie niet hadden ondergaan derden ethische bieden beoordeling (Grimmelmann 2015) . De ethische vragen die in dit debat veroorzaakt het tijdschrift naar een zeldzame "redactionele uiting van bezorgdheid" over de ethiek en de ethische toetsing proces voor het onderzoek snel te publiceren (Verma 2014) . In de daaropvolgende jaren is het experiment nog steeds een bron van intens debat en onenigheid, en dit meningsverschil kan het onbedoelde effect van het rijden in de schaduw vele andere experimenten die worden uitgevoerd door bedrijven hebben gehad (Meyer 2014) .

Gezien het feit dat achtergrondinformatie over Emotional Contagion, zou ik nu graag laten zien dat de 3 R's kan u adviseren over concrete, praktische verbeteringen voor de echte studies (wat je zou persoonlijk na te denken over de ethiek van dit experiment). De eerste R is vervangen: onderzoekers moeten trachten om experimenten te vervangen door minder invasieve en risicovolle technieken, indien mogelijk. Bijvoorbeeld, in plaats van uitvoeren van een experiment konden de onderzoekers hebben een natuurlijk experiment benut. Zoals beschreven in hoofdstuk 2, natuurlijke experimenten zijn situaties waarin er iets gebeurt in de wereld die de willekeurige toewijzing van behandelingen benadert (bijvoorbeeld een loterij om te beslissen wie zal worden opgesteld in het leger). Het voordeel van een natuurlijk experiment is dat de onderzoeker niet moet behandelingen leveren; het milieu, doet dat voor u. Met andere woorden, met een natuurlijke experiment, onderzoekers zou niet nodig zijn om experimenteel te manipuleren van mensen nieuwsfeeds.

In feite, bijna gelijktijdig met de Emotional Contagion experiment, Coviello et al. (2014) werd de exploitatie van wat een Emotional Contagion natuurlijk experiment zou kunnen worden genoemd. Hun aanpak, die een techniek genaamd instrumentele variabelen gebruikt, is een beetje ingewikkeld als je nog nooit eerder hebt gezien. Dus, om uit te leggen waarom het nodig was, laten bouwen tot het. Het eerste idee dat sommige onderzoekers zou kunnen hebben om emotionele besmetting te bestuderen zou zijn om uw berichten te vergelijken op dagen waar uw News Feed was zeer positief om je berichten op dagen waar uw News Feed was zeer negatief. Deze aanpak zou goed zijn als het doel was om de emotionele inhoud van uw berichten te voorspellen, maar deze aanpak is problematisch als het doel is om het causale effect van uw News Feed op uw berichten te bestuderen. Om het probleem met dit ontwerp te zien, overweeg dan Thanksgiving. In de Verenigde Staten, positieve berichten spike en negatieve berichten kelderen op Thanksgiving. Dus, op Thanksgiving, onderzoekers kunnen zien dat uw News Feed was zeer positief en dat je op de hoogte positieve dingen ook. Maar, kan uw positieve berichten zijn veroorzaakt door Thanksgiving niet door de inhoud van uw News Feed. In plaats daarvan, om het causale effect onderzoekers iets dat de inhoud van uw News Feed verandert zonder direct het veranderen van je emoties nodig te schatten. Gelukkig is er zoiets gebeurt de hele tijd: het weer.

Coviello en collega's vinden dat een regenachtige dag in iemands stad zal, gemiddeld, verminderen het aandeel van de posten die positief met ongeveer 1 procentpunt zijn en het aandeel van berichten dat de negatieve met ongeveer 1 procentpunt zijn. Vervolgens Coviello en collega's uitgebuit dit feit tot emotionele besmetting te bestuderen zonder de noodzaak om experimenteel te manipuleren iemand News Feed. In wezen wat ze gedaan hebben is maatregel hoe je berichten werden beïnvloed door het weer in de steden waar je vrienden wonen. Om te zien waarom dit zinvol is, stel je voor dat je woont in New York City en je hebt een vriend die in Seattle woont. Stel je nu voor dat op een dag het begint te regenen in Seattle. Deze regen in Seattle zal niet direct invloed op je humeur, maar het zal ertoe leiden dat uw News Feed minder positief en meer negatief zijn als gevolg van berichten van uw vriend. Zo is de regen in Seattle manipuleert willekeurig uw News Feed. Door deze intuïtie tot een betrouwbare statistische procedure is ingewikkeld (en de exacte aanpak van Coviello en collega's is een beetje niet-standaard), dus ik heb een meer gedetailleerde bespreking gezet in de verdere sectie lezen. Het belangrijkste om te onthouden over Coviello en de aanpak van collega's is dat het hen in staat stelde om emotionele besmetting te bestuderen zonder de noodzaak om een experiment dat mogelijk deelnemers konden schaden draaien, en het kan zijn dat in veel andere instellingen kunt u experimenten met andere te vervangen technieken.

Tweede in de 3 R's is Verfijn: onderzoekers moeten trachten hun behandelingen te verfijnen om de kleinst mogelijke schade veroorzaken. Bijvoorbeeld, in plaats van het blokkeren van inhoud die positief of negatief was, konden de onderzoekers hebben inhoud die positief of negatief was versterkt. Dit ontwerp zou het stimuleren van de emotionele inhoud van de deelnemers News Feeds zijn veranderd, maar het zou hebben gericht een van de bezorgdheid dat kritiek geuit: dat de experimenten zouden kunnen hebben veroorzaakt de deelnemers om belangrijke informatie in hun News Feed missen. Met het ontwerp door Kramer en collega's, een boodschap die belangrijk als snel wordt geblokkeerd als een die niet is. Echter, met een versterking ontwerp, de berichten die worden verplaatst zou die minder belangrijk zijn zijn.

Het derde R verminderen: onderzoekers moeten trachten het aantal deelnemers verminderen hun experiment, indien mogelijk. In het verleden, deze vermindering ging vanzelf omdat de variabele kosten van analoge experimenten was hoog, waarin onderzoek gestimuleerd om hun ontwerp en analyse optimaliseren. Als er echter nul variabele kostengegevens onderzoekers niet te maken kosten beperking van de omvang van het experiment, en dit kunnen leiden tot onnodig grote experimenten.

Zo zou Kramer en collega's hebben gebruikt voorbehandeling informatie over hun deelnemers-zoals voorbehandeling terbeschikkingstelling de analyse efficiënter gedrag te maken. Specifieker, in plaats van het vergelijken van het percentage positieve woorden ter behandeling en controle omstandigheden, Kramer en collega kon de verandering in de verhouding tussen positieve woorden omstandigheden vergeleken; benadering vaak difference-in-verschillen en dat nauw verwant aan de gemengde ontwerp dat ik eerder beschreven in het hoofdstuk (figuur 4,5). Dat wil zeggen, voor elke deelnemer, de onderzoekers kunnen een verandering score (nabehandeling gedrag - voorbehandeling gedrag) gemaakt en vervolgens vergeleken de verandering scores van de deelnemers aan de behandeling en controle omstandigheden. Dit verschil-in-verschillen aanpak is efficiënter statistisch, waardoor onderzoekers dezelfde statistische betrouwbaarheid aanzienlijk geringere monsters kunnen bereiken. Met andere woorden, door het niet behandelen van deelnemers als "widgets", onderzoekers kunnen vaak nauwkeuriger schattingen.

Zonder de ruwe gegevens is het moeilijk om te weten hoeveel efficiënter verschil-in-verschillen benadering in dit geval zou zijn. Maar, Deng et al. (2013) rapporteerde dat drie online experimenten op de Bing zoekmachine konden zij de variantie van de schattingen verminderen met ongeveer 50%, en vergelijkbare resultaten werden bij enkele online experimenten op Netflix (Xie and Aurisset 2016) . Deze 50% variantiereductie betekent dat de emotionele besmetting onderzoekers kunnen hun steekproef gehalveerd als ze een iets andere analysemethoden gebruikt had kunnen zijn. Met andere woorden, met een kleine verandering in de analyse 350.000 mensen zouden zijn gespaard deelneming aan het experiment.

Op dit punt zou je kunnen afvragen waarom de onderzoekers zou schelen als 350.000 mensen waren in Emotionele besmetting onnodig. Er zijn twee bijzondere kenmerken van Emotional Contagion die zorg met overdimensionering geschikte maken, en deze functies worden gedeeld door een groot aantal digitale veldexperimenten: 1) er onzekerheid over de vraag of het experiment schade zal toebrengen aan ten minste een aantal deelnemers en 2) de deelname was niet vrijwillig. In experimenten met deze twee kenmerken dienstig lijkt de experimenten zo klein mogelijk te houden.

Kortom, de drie-R's vervangen, verfijnen en het verminderen-zorgen principes die kunnen helpen onderzoekers bouwen ethiek in hun experimentele ontwerpen. Natuurlijk, elk van deze mogelijke veranderingen in Emotional Contagion introduceert trade-offs. Bijvoorbeeld bewijs uit natuurlijke experimenten is niet altijd zo schoon als bewijs uit gerandomiseerde experimenten en het stimuleren van mogelijk meer logistiek moeilijker te implementeren dan blok zijn geweest. Dus het doel van deze veranderingen suggereert was niet achteraf kritiek beslissingen van andere onderzoekers. Het was eerder illustreren hoe de drie R's in een realistische situatie worden toegepast.