4.2 Hvad er eksperimenter?

Denne oversættelse blev skabt af en computer. ×

4.2 Hvad er eksperimenter?

Randomiserede kontrollerede eksperimenter har fire vigtigste ingredienser: rekruttering af deltagere, randomisering af behandling, levering af behandling, og måling af resultater.

Randomiserede kontrollerede forsøg har fire hovedbestanddele: rekruttering af deltagere, randomisering af behandling, behandling af behandling og måling af resultater. Den digitale tidsalder ændrer ikke eksperimentets grundlæggende karakter, men det gør det lettere logistisk. For eksempel har det tidligere været svært at måle adfærd hos millioner af mennesker, men det sker nu rutinemæssigt i mange digitale systemer. Forskere, som kan finde ud af, hvordan man kan udnytte disse nye muligheder, vil kunne køre eksperimenter, der var umulige tidligere.

For at gøre dette lidt mere konkret - både hvad der er blevet det samme og hvad der er ændret - lad os overveje et eksperiment af Michael Restivo og Arnout van de Rijt (2012) . De ønskede at forstå effekten af uformelle peerbelønninger på redaktionelle bidrag til Wikipedia. De studerede især effekterne af barnstars , en pris, som enhver Wikipedian kan give til enhver anden Wikipedian for at anerkende hårdt arbejde og due diligence. Restivo og van de Rijt gav barnstars til 100 fortjenstfulde Wikipedians. Derefter spores de modtagernes efterfølgende bidrag til Wikipedia i de næste 90 dage. Meget til deres overraskelse var de mennesker, som de tildelte barnstars, tilbøjelige til at foretage færre redigeringer efter at have modtaget en. Barnestars syntes med andre ord at være afskrækkende end at opmuntre bidrag.

Heldigvis var Restivo og van de Rijt ikke i gang med et "perturb og observere" eksperiment; de kørte et randomiseret, kontrolleret eksperiment. Så udover at vælge 100 bedste bidragsydere til at modtage en barnestjerne, valgte de også 100 topbidragere, som de ikke gav en. Disse 100 tjente som kontrolgruppe. Og det var kritisk, hvem der var i behandlingsgruppen, og hvem der var i kontrolgruppen, blev bestemt tilfældigt.

Da Restivo og van de Rijt så på adfærd hos mennesker i kontrolgruppen, fandt de, at deres bidrag også faldt. Endvidere, da Restivo og van de Rijt sammenlignede personer i behandlingsgruppen (dvs. modtagne barnestars) til personer i kontrolgruppen, fandt de, at personer i behandlingsgruppen bidrog med omkring 60% mere. Med andre ord var begge gruppers bidrag døde, men kontrolgruppen havde så meget hurtigere.

Som denne undersøgelse illustrerer, er kontrolgruppen i forsøg kritiske på en måde, der er noget paradoksal. For at kunne måle effekten af barnstars præcist var det nødvendigt, at Restivo og van de Rijt observerede folk, der ikke modtog barnestars. Mange gange, forskere, der ikke er bekendt med eksperimenter, undlader at værdsætte den utrolige værdi af kontrolgruppen. Hvis Restivo og van de Rijt ikke havde haft en kontrolgruppe, ville de have trukket præcis den forkerte konklusion. Kontrolgrupper er så vigtige, at administrerende direktør for et større kasinofirma har sagt, at der kun er tre måder, hvorpå medarbejdere kan fyres fra hans firma: for tyveri, seksuel chikane eller for at køre et forsøg uden en kontrolgruppe (Schrage 2011) .

Restivo og van de Rijts studie illustrerer de fire vigtigste ingredienser i et forsøg: rekruttering, randomisering, intervention og resultater. Sammen giver disse fire ingredienser forskere mulighed for at bevæge sig ud over korrelationer og måle årsagssammenhængen af behandlinger. Specifikt betyder randomisering, at mennesker i behandlings- og kontrolgrupper vil være ens. Dette er vigtigt, fordi det betyder, at enhver forskel i udfaldet mellem de to grupper kan tilskrives behandlingen og ikke en confounder.

Ud over at være en god illustration af eksperimentets mekanikere viser Restivo og van de Rijts undersøgelse også, at logistik af digitale eksperimenter kan være helt anderledes end dem, der er forbundet med analoge eksperimenter. I Restivo og van de Rijts eksperiment var det let at give barnestuen til nogen, og det var nemt at spore udfaldet antal redigeringer over en længere periode (fordi redigeringshistorikken automatisk optages af Wikipedia). Denne evne til at levere behandlinger og måle resultater uden omkostninger er kvalitativt i modsætning til forsøg i fortiden. Selvom dette eksperiment involverede 200 personer, kunne det have været kørt med 2.000 eller endda 20.000 mennesker. Det vigtigste, der forhindrer forskerne i at scalere deres eksperiment med en faktor på 100, kostede ikke noget. det var etik. Det vil sige, at Restivo og van de Rijt ikke ønskede at give barnstars til uønskede redaktører, og de ønskede ikke, at deres eksperiment skulle forstyrre Wikipedia-samfundet (Restivo and Rijt 2012, 2014) . Jeg vender tilbage til nogle af de etiske overvejelser, der blev fremkaldt af eksperimenter senere i dette kapitel og i kapitel 6.

Afslutningsvis viser eksperimentet fra Restivo og van de Rijt klart, at mens eksperimentets grundlæggende logik ikke er ændret, kan logistik af digitale alderseksperimenter være dramatisk anderledes. Dernæst for at mere klart isolere de muligheder, der er skabt af disse ændringer, sammenligner jeg de eksperimenter, som forskere kan gøre nu med de slags eksperimenter, der er blevet gjort tidligere.