A face experimentul mai uman prin înlocuirea experimentelor cu studii de bază non-experimentale, rafinarea tratamentelor, precum și reducerea numărului de participanți.
Al doilea sfat pe care aș dori să-l ofer despre proiectarea experimentelor digitale se referă la etică. Așa cum arată experimentul Restivo și van de Rijt pe barnstars în Wikipedia, costul redus înseamnă că etica va deveni o componentă din ce în ce mai importantă a designului cercetării. Pe lângă cadrele etice care conduc cercetările subiecților umani pe care le voi descrie în capitolul 6, cercetătorii care proiectează experimente digitale pot, de asemenea, să folosească idei etice dintr-o altă sursă: principiile etice dezvoltate pentru a ghida experimente care implică animale. În special, în cartea lor de referință Principiile tehnicii experimentale umane , Russell and Burch (1959) propus trei principii care ar trebui să ghideze cercetarea pe animale: înlocuirea, rafinarea și reducerea. Aș vrea să propun ca aceste trei R-uri să poată fi folosite, de asemenea, într-o formă puțin modificată, pentru a ghida proiectarea experimentelor umane. În special,
Pentru a face aceste trei R concrete și pentru a arăta cum pot duce la un proiect experimental mai bun și mai uman, voi descrie un experiment de teren online care a generat dezbatere etică. Apoi, voi descrie modul în care cele trei R sugerează modificări concrete și practice la proiectarea experimentului.
Unul dintre cele mai etice dezbateri experimentate de câmp digital a fost condus de Adam Kramer, Jamie Guillroy și Jeffrey Hancock (2014) și a ajuns să fie numit "Contagiunea emoțională". Experimentul a avut loc pe Facebook și a fost motivat de un mix de științe și întrebări practice. În acel moment, modul dominant în care utilizatorii au interacționat cu Facebook a fost Feed Feed-ul, un set algoritmic de actualizări de status Facebook de la prietenii unui utilizator de pe Facebook. Unii critici ai Facebook au sugerat că, deoarece feed-ul de știri are în mare parte posturi pozitive - prieteni care își prezintă ultimul lor partid - aceasta ar putea determina utilizatorii să se simtă trist, deoarece viața lor părea mai puțin interesantă în comparație. Pe de altă parte, poate că efectul este exact opusul: poate că văd prietenul tău având un moment bun te-ar face să te simți fericit. Pentru a aborda aceste ipoteze concurente - și pentru a avansa înțelegerea noastră cu privire la modul în care emoțiile unei persoane sunt afectate de emoțiile prietenilor ei - Kramer și colegii au făcut un experiment. Ei au plasat în jur de 700.000 de utilizatori în patru grupuri timp de o săptămână: un grup "negativ redus", pentru care posturile cu cuvinte negative (de exemplu, "trist") au fost blocate aleatoriu de a apărea în Feed Feed; un grup cu "pozitivitate redusă" pentru care posturile cu cuvinte pozitive (de exemplu, "fericit") au fost blocate aleatoriu; și două grupuri de control. În grupul de control pentru grupul cu "negativitate redusă", posturile au fost blocate aleatoriu la aceeași rată cu grupul "negativ redus", dar fără a se ține seama de conținutul emoțional. Grupul de control pentru grupul cu "pozitivitate redusă" a fost construit în paralel. Proiectarea acestui experiment ilustrează faptul că grupul de control adecvat nu este întotdeauna unul fără modificări. Mai degrabă, uneori, grupul de control primește un tratament pentru a crea o comparație exactă pe care o necesită o întrebare de cercetare. În toate cazurile, postările care au fost blocate din fluxul de știri erau încă disponibile utilizatorilor prin alte părți ale site-ului Facebook.
Kramer și colegii au constatat că, pentru participanții la starea de reducere a pozitivității, procentajul cuvintelor pozitive din actualizările lor de stare a scăzut, iar procentul cuvintelor negative a crescut. Pe de altă parte, pentru participanții la starea de reducere a negativității, procentul de cuvinte pozitive a crescut și cel al cuvintelor negative a scăzut (figura 4.24). Cu toate acestea, aceste efecte au fost destul de mici: diferența dintre cuvintele pozitive și negative dintre tratamente și controale a fost de aproximativ 1 din 1000 de cuvinte.
Înainte de a discuta problemele etice ridicate de acest experiment, aș dori să descriu trei aspecte științifice folosind câteva din ideile din capitolul anterior. În primul rând, nu este clar modul în care detaliile actuale ale experimentului se conectează la revendicările teoretice; cu alte cuvinte, există întrebări despre validitatea construirii. Nu este clar că numărul de cuvinte pozitive și negative este de fapt un bun indicator al stării emoționale a participanților deoarece (1) nu este clar că cuvintele pe care oamenii le postulează sunt un bun indicator al emoțiilor lor și (2) nu este clar că tehnica specială de analiză a sentimentului pe care cercetătorii o foloseau este capabilă să deducă fiabil emoțiile (Beasley and Mason 2015; Panger 2016) . Cu alte cuvinte, s-ar putea să existe o măsură incorectă a unui semnal părtinitor. În al doilea rând, proiectarea și analiza experimentului nu ne spune nimic despre cine a fost cel mai afectat (de exemplu, nu există o analiză a eterogenității efectelor tratamentului) și ce ar putea fi mecanismul. În acest caz, cercetătorii aveau o mulțime de informații despre participanți, dar ei erau, în esență, tratați ca widget-uri în analiză. În al treilea rând, dimensiunea efectului în acest experiment a fost foarte mică; diferența dintre condițiile de tratament și de control este de aproximativ 1 din 1000 de cuvinte. În lucrarea lor, Kramer și colegii fac dovada că un efect de această dimensiune este important deoarece sute de milioane de oameni își accesează Daily Feed Feed-ul. Cu alte cuvinte, ei susțin că, chiar dacă efectele sunt mici pentru fiecare persoană, ele sunt mari în ansamblu. Chiar dacă ați accepta acest argument, nu este încă clar dacă un efect de această dimensiune este important cu privire la întrebarea științifică mai generală despre răspândirea emoției (Prentice and Miller 1992) .
În plus față de aceste întrebări științifice, la câteva zile după ce această lucrare a fost publicată în Proceedings of the National Academy of Sciences , a avut loc o criză enormă atât din partea cercetătorilor, cât și a presei (voi descrie argumentele din această dezbatere mai detaliat în capitolul 6 ). Problemele ridicate în această dezbatere au determinat revista să publice o "expresie editorială îngrijorătoare" rară despre etica și procesul de evaluare etică a cercetării (Verma 2014) .
Având în vedere fundalul despre contagiunea emoțională, aș dori acum să arăt că cele trei R-uri pot sugera îmbunătățiri concrete și concrete ale studiilor reale (indiferent ce ar putea să vă gândiți personal la etica acestui experiment specific). Primul R este înlocuit : cercetătorii ar trebui să încerce să înlocuiască experimentele cu tehnici mai puțin invazive și riscante, dacă este posibil. De exemplu, mai degrabă decât să derulați un experiment controlat randomizat, cercetătorii ar fi putut exploata un experiment natural . După cum este descris în capitolul 2, experimentele naturale sunt situații în care se întâmplă ceva în lume care aproximează repartizarea aleatorie a tratamentelor (de exemplu, o loterie care decide cine va fi elaborat în armată). Avantajul etic al unui experiment natural este că cercetătorul nu trebuie să livreze tratamente: mediul face asta pentru tine. De exemplu, aproape concomitent cu experimentul de contagiune emoțională, Lorenzo Coviello et al. (2014) au exploatat ceea ce se putea numi experimentul natural de contagiune emoțională. Coviello și colegii lui au descoperit că oamenii postează mai multe cuvinte negative și mai puține cuvinte pozitive în zilele în care plouă. Prin urmare, prin utilizarea variației aleatorii a vremii, au fost capabili să studieze efectul schimbărilor din feed-ul de știri fără a fi nevoie să intervină deloc. Era ca și cum vremea și-ar fi experimentat experimentul pentru ei. Detaliile procedurii lor sunt puțin complicate, însă cel mai important punct pentru scopurile noastre este acela că, folosind un experiment natural, Coviello și colegii au putut să învețe despre răspândirea emoțiilor fără a fi nevoiți să conducă propriul experiment.
Al doilea dintre cele trei R este rafinat : cercetătorii ar trebui să caute să-și perfecționeze tratamentele pentru a le face cât mai inofensive. De exemplu, mai degrabă decât să blocheze conținut care a fost fie pozitiv, fie negativ, cercetătorii ar fi putut amplifica conținut pozitiv sau negativ. Acest proiect de stimulare ar fi schimbat conținutul emoțional al fluxurilor de știri ale participanților, dar ar fi abordat una din preocupările exprimate de critici: experimentele ar fi putut cauza participanților să rateze informații importante în fluxul de știri. Cu designul folosit de Kramer și colegii săi, un mesaj care este important este probabil să fie blocat ca unul care nu este. Cu toate acestea, cu un design de stimulare, mesajele care ar fi strămutate ar fi cele care sunt mai puțin importante.
În sfârșit, al treilea R este redus : cercetătorii ar trebui să încerce să reducă numărul participanților la experimentul lor la minimul necesar pentru a-și atinge obiectivul științific. În experimentele analoage, acest lucru sa întâmplat în mod natural din cauza costurilor variabile ridicate ale participanților. Dar în experimentele digitale, în special cele cu cost variabil zero, cercetătorii nu se confruntă cu o constrângere a costurilor cu privire la mărimea experimentului lor și acest lucru are potențialul de a duce la experimente inutil de mari.
De exemplu, Kramer și colegii ar fi putut utiliza informații despre tratamentul pre-tratament despre participanții lor - cum ar fi comportamentul de post-tratament înainte de tratament - pentru a face analiza lor mai eficientă. Mai exact, comparativ cu compararea proporției cuvintelor pozitive în condițiile de tratament și de control, Kramer și colegii săi au comparat schimbarea în proporția cuvintelor pozitive dintre condiții; o abordare numită uneori un proiect mixt (figura 4.5) și uneori numită estimator diferență-diferență. Aceasta este, pentru fiecare participant, cercetatorii ar fi putut crea un scor de schimbare (post-tratament comportament \(-\) comportamentul de pre-tratament) și apoi a comparat scorurile de schimbare ale participanților la tratament și de control condițiile. Această abordare diferențială în diferențe este mai eficientă statistic, ceea ce înseamnă că cercetătorii pot obține aceeași încredere statistică utilizând eșantioane mult mai mici.
Fără a avea datele brute, este dificil să știm cu exactitate cât de mult ar fi fost mai eficient un estimator de diferențe în diferențe în acest caz. Dar ne putem uita la alte experimente legate de o idee grosolană. Deng et al. (2013) au raportat că, utilizând o formă a estimatorului diferenței diferențiale, au reușit să reducă varianța estimărilor lor cu aproximativ 50% în trei experimente online diferite; rezultate similare au fost raportate de Xie and Aurisset (2016) . Această reducere a varianței de 50% înseamnă că cercetătorii de contagiune emoțională ar fi putut să-și taie proba în jumătate dacă ar fi folosit o metodă de analiză puțin diferită. Cu alte cuvinte, cu o mică schimbare în analiză, 350 000 de oameni ar fi putut fi cruțați de participarea la experiment.
În acest moment, s-ar putea să vă întrebați de ce cercetătorii ar trebui să aibă grijă dacă 350 000 de oameni au fost în contagiune emoțională inutilă. Există două trăsături particulare ale Contagionului Emoțional, care îngrijorează cu o dimensiune excesivă adecvată, iar aceste trăsături sunt împărtășite de multe experimente în câmp digital: (1) există incertitudine cu privire la faptul dacă experimentul va dăuna cel puțin unora dintre participanți și (2) nu a fost voluntară. Se pare rezonabil să încerci să păstrezi experimente care au aceste caracteristici cât mai mici posibil.
Pentru a fi clar, dorința de a reduce mărimea experimentului nu înseamnă că nu trebuie să efectuați experimente mari cu costuri variabile la zero. Pur și simplu înseamnă că experimentele dvs. nu ar trebui să fie mai mari decât este necesar pentru a vă atinge obiectivul științific. O modalitate importantă de a vă asigura că un experiment are dimensiuni adecvate este de a efectua o analiză a puterii (Cohen 1988) . În epoca analogică, cercetătorii au efectuat, în general, analiza puterii pentru a se asigura că studiul lor nu era prea mic (adică sub-alimentat). Acum, totuși, cercetătorii ar trebui să facă analiza puterii pentru a se asigura că studiul lor nu este prea mare (adică, supra-alimentat).
În concluzie, cele trei R-înlocuiesc, rafinează și reduc - oferă principii care pot ajuta cercetătorii să elaboreze etica în desenele lor experimentale. Bineînțeles, fiecare dintre aceste posibile schimbări ale contacției emoționale introduce compromisuri. De exemplu, dovezile provenite din experimentele naturale nu sunt întotdeauna la fel de clare ca cele din experimentele randomizate, iar creșterea conținutului ar fi putut fi mai dificil de implementat din punct de vedere logistic decât blocarea conținutului. Deci, scopul sugerării acestor schimbări nu a fost acela de a ghici în al doilea rând deciziile altor cercetători. Mai degrabă, a fost de a ilustra modul în care cele trei R-uri ar putea fi aplicate într-o situație realistă. De fapt, problema compromisurilor vine tot timpul în designul cercetării, iar în era digitală, aceste compromisuri vor implica din ce în ce mai mult considerente etice. Mai târziu, în capitolul 6, voi oferi câteva principii și cadre etice care pot ajuta cercetătorii să înțeleagă și să discute aceste compromisuri.