Gör experimentet humanare genom att ersätta experiment med icke-experimentella studier, förfina behandlingarna, och minska antalet deltagare.
Den andra råd som jag skulle vilja erbjuda om att utforma digitala experiment rör etik. Som Restivo och van de Rijt experiment på barnstars i Wikipedia visar minskade kostnader innebär att etik kommer att bli en allt viktigare del av forskningsdesign. Utöver de etiska ramar som styr försöksperson som jag ska beskriva i kapitel 6, kan forskare utforma digitala experiment också utnyttja etiska idéer från en annan källa: de etiska principer som utvecklats för att vägleda experiment med djur. I synnerhet i sina banbrytande bok Principer för human experimentell teknik, Russell and Burch (1959) föreslog tre principer som bör vägleda djurförsök: Ersätt, Begränsa och minska. Jag skulle vilja föreslå att dessa tre R också kan användas, i en något modifierad form, för att styra utformningen av mänskliga experiment. Särskilt,
För att göra dessa tre R betong och visa hur de potentiellt kan leda till bättre och mer human experimentell design, ska jag beskriva en online fältförsök som genererade etisk debatt. Sedan ska jag beskriva hur de tre R föreslå konkreta och praktiska förändringar i utformningen av experimentet.
En av de mest etiskt debatterade digital fältförsök är "Emotionell smitta", som genomfördes av Adam Kramer, Jamie Gillroy, och Jeffrey Hancock (2014) . Experimentet genomfördes på Facebook och motiverades av en blandning av vetenskapliga och praktiska frågor. Vid den tiden, den dominerande sätt att användarna interagerat med Facebook var nyhetsflöde, en algoritm curerad uppsättning av Facebook statusuppdateringar från en användares Facebook-vänner. Vissa kritiker av Facebook hade föreslagit att eftersom News Feed har mestadels positiva inlägg-vänner som visar upp sina senaste party-det kan orsaka användare att känna sig ledsen eftersom deras liv verkar mindre spännande i jämförelse. Å andra sidan, är effekten kanske precis tvärtom; kanske se din vän har en god tid skulle göra du känner dig lycklig? För att ta itu dessa konkurrerande hypoteser och att öka vår förståelse för hur en persons känslor påverkas av hennes vänners känslor-Kramer och kollegor sprang ett experiment. Forskarna placeras ca 700.000 användare i fyra grupper för en vecka: a "negativitet reducerad" grupp, för vilka inlägg med negativa ord (t.ex. ledsen) randomiserades blockerad från att visas i nyhetsflödet; en "positivitet reducerad" grupp för vilka inlägg med positiva ord (t.ex. glad) randomiserades blockerad; och två kontrollgrupper. I kontrollgruppen för "negativitet reducerad" grupp, inlägg slumpvis blockeras i samma takt som den "negativitet reducerad" grupp men utan hänsyn till det emotionella innehållet. Kontrollgruppen för den "positivitet reducerad" grupp konstruerades på ett parallellt sätt. Utformningen av detta experiment visar att den lämpliga kontrollgruppen är inte alltid en utan ändringar. Snarare, ibland kontrollgruppen mottar en behandling för att skapa den exakta jämförelse som en forskningsfråga kräver. I samtliga fall, de tjänster som har blockerats från nyhetsflödet var fortfarande tillgängliga för användare via andra delar av Facebooks webbplats.
Kramer och kollegor fann att deltagarna i positivitet reducerade tillstånd, andelen positiva ord i sina statusuppdateringar minskat och andelen negativa ord ökat. Å andra sidan, för deltagare i negativitet reducerade tillstånd, andelen positiva ord ökat och andelen negativa ord minskat (figur 4.23). Dessa effekter var ganska små: skillnaden i positiva och negativa ord mellan behandlingarna och kontrollerna var cirka 1 i 1000 ord.
Jag har lagt en diskussion om de vetenskapliga aspekterna av detta experiment i avsnittet vidare läsning i slutet av kapitlet, men tyvärr är mest känd för att generera etisk debatt detta experiment. Bara några dagar efter detta dokument publicerades i Proceedings of the National Academy of Sciences, fanns en enorm ramaskri från både forskare och pressen. Upprördhet runt papperet fokuserat på två huvudpunkter: 1) deltagarna inte ger någon samtycke utöver standard Facebook terms-of-service till en behandling som en tanke kan orsaka skada på deltagare och 2) studien inte hade genomgått tredjeparts etisk översyn (Grimmelmann 2015) . De etiska frågor som tas upp i den här debatten orsakade tidskriften att snabbt publicera en sällsynt "redaktionellt uttryck för oro" om etik och etisk granskningsprocess för forskning (Verma 2014) . Under de följande åren, har experimentet fortsatt att vara en källa till intensiv debatt och oenighet, och detta oenighet kan ha haft den oavsiktliga effekten av att köra in i skuggorna många andra experiment som utförs av företag (Meyer 2014) .
Med tanke på att bakgrunden om Emotionell smitta, skulle jag nu vilja visa att tre R kan föreslå konkreta, praktiska förbättringar för riktiga studier (vad du kan personligen tycker om etiken i detta speciella experiment). Den första R är Ersätt: forskare bör sträva efter att ersätta experiment med mindre invasiva och riskfyllda metoder, om det är möjligt. Till exempel, snarare än att köra ett experiment, forskarna kunde ha utnyttjat en naturlig experiment. Som beskrivits i kapitel 2, naturliga experiment finns situationer där något händer i världen som approximerar den slumpmässiga tilldelningen av behandlingar (t.ex. ett lotteri för att avgöra vem som kommer att utarbetas i det militära). Fördelen av en naturlig experiment är att forskaren inte behöver leverera behandlingar; miljön gör det åt dig. Med andra ord, med en naturlig experiment, forskare skulle inte ha behövt experimentellt manipulera folks nyhetsflöden.
Faktum är att nästan samtidigt med Emotionell smitta experiment Coviello et al. (2014) var att utnyttja vad som skulle kunna kallas en Emotionell smitta naturligt experiment. Deras tillvägagångssätt, som använder en teknik som kallas instrumentella variabler, är lite komplicerat om du aldrig har sett det förut. Så, för att förklara varför det behövdes, låt oss bygga upp till det. Den första idén som vissa forskare kan behöva studera emotionell smitta skulle vara att jämföra dina inlägg på dagar där ditt nyhetsflöde var mycket positiva till dina inlägg på dagar där ditt nyhetsflöde var mycket negativ. Detta tillvägagångssätt skulle vara bra om målet var bara för att förutsäga det känslomässiga innehållet i dina inlägg, men detta tillvägagångssätt är problematiskt om målet är att studera orsaks effekten av ditt nyhetsflöde på dina inlägg. Att se problemet med denna design, anser tacksägelse. I USA, positiva inlägg spik och negativa inlägg rasar på Thanksgiving. Således, på Thanksgiving, kunde forskarna se att ditt nyhetsflöde var mycket positiv och att du skrivit positiva saker också. Men, kan dina positiva inlägg ha orsakats av Thanksgiving inte av innehållet i ditt nyhetsflöde. I stället för att uppskatta orsakssambandet forskare behöver något som förändrar innehållet i ditt nyhetsflöde utan att direkt ändra dina känslor. Lyckligtvis finns det något sådant händer hela tiden: vädret.
Coviello och kollegor fann att en regnig dag i någons stad kommer i genomsnitt minska andelen inlägg som är positiva med cirka 1 procentenhet och öka andelen tjänster som är negativa med cirka 1 procentenhet. Då Coviello och kollegor utnyttjas detta faktum att studera emotionell smitta utan att behöva experimentellt manipulera någons News Feed. I huvudsak vad de gjorde är mått på hur dina inlägg påverkades av vädret i de städer där dina vänner bor. Att se varför detta är vettigt, tänk dig att du bor i New York City och du har en vän som bor i Seattle. Tänk dig nu att en dag det börjar regna i Seattle. Detta regn i Seattle kommer inte direkt påverka ditt humör, men det kommer att orsaka ditt nyhetsflöde att vara mindre positiva och mer negativa på grund av din väns inlägg. Således, regnet i Seattle manipulerar slumpvis ditt nyhetsflöde. Turning denna intuition i ett tillförlitligt statistiskt förfarande är komplicerat (och den exakta metod som används av Coviello och kollegor är lite icke-standard) så jag har lagt en mer detaljerad diskussion i avsnittet vidare läsning. Det viktigaste att komma ihåg om Coviello och kollega inställning är att det möjligt för dem att studera emotionell smitta utan att behöva köra ett experiment som skulle kunna skada deltagarna, och det kan vara så att i många andra inställningar kan du ersätta experiment med andra tekniker.
Andra i 3 R är i kategorin: forskare bör sträva efter att förbättra sina behandlingar för att orsaka minsta skada som möjligt. Till exempel, snarare än att blockera innehåll som var antingen positiv eller negativ, forskarna kunde ha ökat innehåll som var positiv eller negativ. Denna öka utformning skulle ha förändrats det känslomässiga innehållet deltagare nyhetsfeeds men det skulle ha riktat en av den oro som kritiker uttryckte: att experimenten kunde ha orsakat deltagarna att missa viktig information i deras nyhetsflöde. Med designen som används av Kramer och kollegor, är lika sannolikt att vara blockerad som en som inte är ett meddelande som är viktigt. Men med en öka utformning, skulle de meddelanden som skulle förskjutas vara de som är mindre viktiga.
Slutligen är det tredje R Minska: forskare bör sträva efter att minska antalet deltagare i deras experiment, om det är möjligt. Förr i tiden, hände denna minskning naturligt eftersom den rörliga kostnaden för analoga experiment var hög, vilket uppmuntrade forskning för att optimera sin design och analys. Men när det är noll rörliga kostnadsdata, forskare inte inför en kostnad begränsning på storleken av deras experiment, och detta har potential att leda till onödigt stora experiment.
Till exempel kan Kramer och kollegor har använt förbehandling information om deras deltagare-såsom förbehandling utstationering beteende att göra sin analys mer effektiv. Mer specifikt, i stället för att jämföra andelen positiva ord i behandlings- och kontrollförhållanden, Kramer och kollegor kunde ha jämfört förändringen av andelen positiva ord mellan betingelser; ett tillvägagångssätt som ofta kallas skillnad-i-skillnader och som är nära besläktad med den blandade design som jag beskrev tidigare i kapitlet (Figur 4.5). Det vill säga, för varje deltagare, forskarna kunde ha skapat en förändring poäng (efterbehandling beteende - förbehandling beteende) och sedan jämförde förändringen av scores av deltagarna i behandlings- och kontrollvillkor. Denna skillnad-i-skillnader tillvägagångssätt är mer effektivt statistiskt, vilket innebär att forskarna kan uppnå samma statistiska förtroende med mycket mindre prover. Med andra ord, genom att inte behandla deltagarna som "widgets", forskare kan ofta få mer exakta uppskattningar.
Utan att ha rådata är det svårt att veta exakt hur mycket mer effektiv skillnad-i-skillnader tillvägagångssätt skulle ha varit i det här fallet. Men, Deng et al. (2013) rapporterade att i tre online experiment på Bing sökmotor de kunde minska variationen av sina beräkningar med ca 50%, och liknande resultat har rapporterats för några online experiment på Netflix (Xie and Aurisset 2016) . Denna variansreducerings 50% innebär att Emotionell smitta forskare skulle ha kunnat minska sin prov i hälften om de hade använt en något annorlunda analysmetoder. Med andra ord, med en liten förändring i analysen, 350.000 människor kan ha varit skonas deltagande i försöket.
Vid det här laget kanske du undrar varför forskare bör bry sig om 350.000 personer var i Emotionell smitta i onödan. Det finns två särdrag Emotionell smitta som gör bekymmer med överdimensionerad lämpligt, och dessa funktioner delas av många digitala fältförsök: 1) det råder osäkerhet om huruvida experimentet kommer till skada åtminstone vissa deltagare och 2) deltagande var inte frivillig. I experiment med dessa två egenskaper verkar det tillrådligt att hålla experimenten så små som möjligt.
Sammanfattningsvis tre R's-Ersätt Begränsa och minska-ge principer som kan hjälpa forskare att bygga upp etik i sina experimentell design. Naturligtvis var och en av dessa möjliga förändringar Emotionell smitta införs kompromisser. Till exempel är bevis från naturliga experiment inte alltid så rena som bevis från randomiserade experiment och öka kunde ha varit mer logistiskt svårt att genomföra än blocket. Så, var syftet att föreslå dessa förändringar inte andra gissa beslut av andra forskare. Snarare var det för att illustrera hur de tre R skulle kunna tillämpas i en realistisk situation.