4.6.2 etika qurun: dəyişdirin, dəqiqləşdirin və azaltın

Bu tərcümə kompüter ilə yaradılmışdır. ×

4.6.2 etika qurun: dəyişdirin, dəqiqləşdirin və azaltın

Qeyri-eksperimental işlər təcrübələr əvəz müalicə emalı və iştirakçıların sayının azaldılması ilə təcrübə daha insani olun.

Rəqəmsal eksperimentlərin layihələndirilməsi ilə bağlı təklif vermək istəmiş ikinci məsləhət məntiqi etikası ilə bağlıdır. Vikipediyada barnstars haqqında Restivo və van de Rijt təcrübəsi göstərir ki, azalmış xərclər etikanın tədqiqat dizaynının getdikcə əhəmiyyətli bir hissəsinə çevrilməsini nəzərdə tutur. Fəsil 6-da təsvir edəcəyəm ki, insan subyektləri tədqiq edən etik çərçivələrlə yanaşı, rəqəmsal eksperimentləri tərtib edən tədqiqatçılar etik fikirlərə müxtəlif mənbələrdən də yanaşırlar: heyvanları əhatə edən eksperimentlərə yönəlmiş etik prinsiplər. Xüsusən, "Humane Experimental Technique " nin əsas prinsipləri olan Russell and Burch (1959) , heyvan tədqiqatlarına rəhbərlik etməlidir: əvəz etmə, təmizləmək və azaltmaq üçün üç prinsip təklif etmişdir. Mən təklif edirəm ki, bu üç R-nin də istifadə edilə bilər - bir qədər dəyişdirilmiş formada - insan təcrübələrini tərtib etmək üçün. Xüsusilə,

Değiştir: mümkün olduqca az invaziv metodlarla eksperimentləri dəyişdirin.
Hassaslaştırma: Müalicəni mümkün qədər zərərsizləşdirmək üçün həssaslaşdırın.
Azaltın: Ekspertizdə iştirakçıların sayını mümkün qədər azaldın.

Bu üç R-nin konkretləşdirilməsi və potensial olaraq daha yaxşı və daha humanist eksperimental dizaynlara necə yol aça biləcəyini göstərmək üçün mən etik mübahisə yaradan online sahədə təcrübə təsvir edəcəyəm. Sonra, üç R-nin eksperimentin dizaynında konkret və praktik dəyişikliklərin necə olduğunu təsvir edəcəyəm.

Ən etik müzakirə olunan rəqəmsal sahə təcrübələrindən biri Adam Kramer, Ceymi Qilroy və Cefri Hancock (2014) tərəfindən aparılmış və "Duygusal Çağırış" adlandırılmışdır. Deney Facebookda keçirilmiş və elmi və praktiki suallar. O zaman Facebook istifadəçiləri ilə qarşılıqlı əlaqədə olan Facebook, Facebook istifadəçilərinin alqoritmik cəhətdən Facebook statusu yeniləmələrindən ibarətdir. Facebook-un bəzi tənqidçilərləri, News Feed-in ən son partiyasını göstərən müsbət post-dostlara malik olduğundan, istifadəçilərin kədərlənməsinə səbəb ola biləcəyini, çünki həyatlarının müqayisədə daha az heyecanlandığını irəli sürmüşdü. Digər tərəfdən, bəlkə təsirin tam əksidir: bəlkə də dostunuzun yaxşı bir zaman keçirdiyini görmək xoşbəxt hiss edər. Bu rəqabət fərziyyələrini həll etmək və bir insanın duyğularını dostlarının duyğularını necə təsir etdiyini anlamaq üçün - Kramer və həmkarları bir sınaq keçirdi. Bir həftədə təxminən 700 min istifadəçini dörd qrup halına gətirdilər: "mənfi-azaldılmış" qrup, mənfi sözlərlə (məsələn, "kədərli") olanlar Xəbərlər Feed-də təsadüfi olaraq bloklandı; müsbət sözlərlə (məsələn, "xoşbəxt") olan vəzifələr təsadüfi olaraq bloklanmış bir "pozitivlik-azaldılmış" qrup; və iki nəzarət qrupu. "Mənfi-azaldılmış" qrupun nəzarət qrupunda postlar təsadüfi olaraq "mənfi-azaldılmış" qrupla eyni dərəcədə bloklandı, lakin emosional məzmuna baxmayaraq. "Pozitiv azaldılmış" qrup üçün nəzarət qrupu paralel olaraq qurulmuşdur. Bu təcrübənin dizaynı müvafiq nəzarət qrupunun hər zaman bir dəyişiklik olmadığı ilə izah olunur. Əksinə bəzən nəzarət qrupu tədqiqat sualına ehtiyac duyduğu dəqiq müqayisə yaratmaq üçün bir müalicə alır. Bütün hallarda, News Feed-dən bloklanan mesajlar Facebookun digər hissələrindən istifadəçilərə hələ mövcuddur.

Kramer və iş yoldaşları, pozitivlikdən düşmüş vəziyyətdə iştirak edənlər üçün, vəziyyətlərinin yüksəlməsində müsbət sözlərin faizi azaldığını və mənfi sözlərin nisbətinin artdığını bildirdi. Digər tərəfdən, mənfi vəziyyətdə olanlar üçün pozitiv sözlərin sayı artıb və mənfi sözlər azaldı (şəkil 4.24). Ancaq bu təsirlər çox az idi: müalicə və nəzarət arasında müsbət və mənfi sözlər arasındakı fərq 1000 sözdə 1 idi.

Şəkil 4.24: Emosional böhranın sübutları (Kramer, Guillory və Hancock 2014). Mənfi-azaldılmış vəziyyətdə iştirakçılar daha az mənfi sözlər və daha çox müsbət sözlər istifadə etmişlər, pozitivlik azalmış vəziyyətdə iştirakçılar daha çox mənfi sözlər və daha az müsbət sözlər istifadə etmişlər. Barlar təxmin edilən standart səhvləri təmsil edir. Kramer, Guillory və Hancock'dan (2014) uyğundur, şəkil 1.

Şəkil 4.24: Emosional böhranın sübutları (Kramer, Guillory, and Hancock 2014) . Mənfi-azaldılmış vəziyyətdə iştirakçılar daha az mənfi sözlər və daha çox müsbət sözlər istifadə etmişlər, pozitivlik azalmış vəziyyətdə iştirakçılar daha çox mənfi sözlər və daha az müsbət sözlər istifadə etmişlər. Barlar təxmin edilən standart səhvləri təmsil edir. Kramer, Guillory, and Hancock (2014) uyğundur, şəkil 1.

Bu təcrübədə qaldırılan etik məsələləri müzakirə etməzdən əvvəl, fəsildə əvvəllər bəzi fikirlərdən istifadə edərək üç elmi məsələni təsvir edirəm. Birincisi, eksperimentin faktiki detallarının nəzəri iddialara necə qoşulduğu aydın deyil; başqa sözlə, quruluşun etibarlılığı ilə bağlı suallar var. Müsbət və mənfi sözlərin sayılması iştirakçıların emosional vəziyyətinin yaxşı göstəricisi olduğundan aydın deyildir, çünki (1) insanların yazdığı sözlərin duyğularının yaxşı göstəricisi olduğunu və 2) istifadə edilən tədqiqatçıların xüsusi duyğu təhlili üsulunun emosiyaların etibarlı şəkildə (Beasley and Mason 2015; Panger 2016) təmin edə biləcəyi (Beasley and Mason 2015; Panger 2016) . Başqa sözlə, yanlış bir siqnalın pis bir ölçüsü ola bilər. İkincisi, eksperimentin dizaynı və təhlili bizə ən çox təsirlənən (yəni, müalicə effektlərinin heterogenliyi təhlili yoxdur) və mexanizmin nə olacağına dair heç bir məlumat vermir. Bu vəziyyətdə, tədqiqatçılar iştirakçılar haqqında bir çox məlumatları var idi, lakin əsasən analizdə widget kimi qiymətləndirilmişlər. Üçüncüsü, bu sınaqda təsirin ölçüsü çox az idi; müalicə və nəzarət şərtləri arasındakı fərqi təxminən 1,000 sözlə 1dir. Kramer və həmkarları öz kağızlarında bu ölçünün təsirinin vacib olduğunu iddia edirlər, çünki yüz milyonlarla insan hər gün News Feed-ə daxil olur. Başqa sözlə desək, hər bir insanın təsiri az olsa da, ümumi olaraq böyükdür. Bu arqumenti qəbul etsəniz belə, bu ölçünün təsiri emosiyanın yayılması ilə bağlı daha ümumi elmi sual ilə bağlı olduğunun hələ aydın deyil (Prentice and Miller 1992) .

Bu elmi suallara əlavə olaraq, bu qəzetin Milli Elmlər Akademiyasının Təqdimatında dərc olunduqdan bir neçə gün sonra həm tədqiqatçılar, həm də mətbuatın böyük bir qəzəbi var idi (bu müzakirədə müzakirə olunan mübahisələrin 6-cı fəsildə daha ətraflı təsvir edəcəyəm) ). Bu mübahisədə qaldırılan məsələlər jurnalın etika və tədqiqat üçün etik baxış prosesi (Verma 2014) haqqında nadir "narahatlıq ifadə edən redaksiyada" dərc etməsinə səbəb oldu.

Duygusal Tərəqqi mövzusundakı fonları nəzərə alaraq, mən indi üç R-nin gerçək tədqiqatlar üçün konkret, praktiki təkmilləşdirmələr təklif edə biləcəyini (bu xüsusi təcrübənin etikası ilə bağlı nə düşündüyünüz olursa olsun) göstərmək istərdim. İlk R əvəz edir : tədqiqatçılar mümkün olduqca az invaziv və riskli üsullarla eksperimentləri əvəz etməlidirlər. Məsələn, təsadüfi yoxlanılmış bir sınaqdan istifadə etməklə, tədqiqatçılar təbii bir sınaqdan istifadə edə bilərdi. Fəsil 2-də təsvir edildiyi kimi, təbii təcrübələr dünyada müalicələrin təsadüfi atılmasına yaxınlaşan bir vəziyyətin olduğu vəziyyətlərdir (məsələn, hərbi birliyə kimin hazırlanacağını müəyyənləşdirmək üçün lotereya). Təbii bir təcrübənin etik üstünlüyü, tədqiqatçıın müalicə etməməsi deyil: ətraf mühit sizin üçün. Məsələn, demək olar ki, Duygusal Tənəffüs təcrübəsi ilə eyni zamanda, Lorenzo Coviello et al. (2014) bir Duygusal Çağırış təbii təcrübəsi adlandırıla bilənləri istismar edirdi. Coviello və həmkarları, insanlar yağış yağdığı günlərdə daha çox mənfi sözlər və daha az müsbət sözlər yazdıqlarını aşkarladılar. Buna görə havada təsadüfi dəyişikliklər istifadə edərək, News Feed-da dəyişikliklərin təsirinə müdaxilə etmədən ehtiyaclarını öyrənməyə qadir olduq. Hava sanki özləri üçün sınaq hazırlayırdı. Prosedurlarının detalları bir az mürəkkəbdir, amma burada məqsədlərimiz üçün ən vacib nöqtə təbii bir sınaqdan istifadə edərək, Coviello və həmkarları öz təcrübələrini yerinə yetirmədən ehtiyac duyulmadan yayılmaq barədə məlumat əldə edə bilirdilər.

Üç R-nin ikincisi həssasdır : tədqiqatçılar mümkün qədər zərərsizləşdirmək üçün onların müalicələrini yaxşılaşdırmağa çalışmalıdırlar. Məsələn, pozitiv və ya mənfi olan məzmunu maneə törətməməyin əvəzinə, tədqiqatçılar müsbət və ya mənfi olan məzmunları artırmış ola bilərdi. Bu gücləndirici dizayn iştirakçıların 'Xəbər Xəbərləri' nin emosional məzmununu dəyişdirmiş olardı, lakin tənqidçilər ifadə etdiyimiz narahatlıqlardan birinə müraciət edəcəkdi: bu təcrübələr iştirakçılara News Feed-da vacib məlumatları əldən verməsinə səbəb ola bilərdi. Kramer və iş yoldaşları tərəfindən istifadə edilən dizaynla, vacib olan bir mesaj, bir olmadığı kimi bağlana bilər. Bununla birlikdə, gücləndirici bir dizaynla köçürülən mesajlar daha az vacib olanlar olacaqdır.

Nəhayət, üçüncü R azalır : tədqiqatçılar öz təcrübələrində iştirakçıların sayını elmi məqsədə nail olmaq üçün lazım olan minimuma endirməyə çalışmalıdırlar. Analoq təcrübələrində, bu, iştirakçıların yüksək dəyişkən xərcləri ilə əlaqədar təbii olaraq baş vermişdir. Amma rəqəmli sınaqlarda, xüsusilə sıfır dəyişən xərcləmələrdə, tədqiqatçılar öz təcrübələrinin ölçüsündə bir xərc sərfi ilə üzləşmirlər və bu, lazımsız şəkildə böyük təcrübələrə gətirib çıxarmaq potensialına malikdir.

Məsələn, Kramer və həmkarları öz iştirakçıları haqqında əvvəlcədən müalicə məlumatlarını istifadə edə bilərlər, məsələn, əvvəlcədən müalicə göndərmə davranışı kimi - analizlərini daha səmərəli etmək. Daha spesifik olaraq, müalicə və nəzarət şəraitində müsbət sözlərin nisbətini müqayisə etmək əvəzinə, Kramer və həmkarları şərtlər arasında müsbət sözlərin nisbətindəki dəyişikliyi müqayisə edə bilərdi; bəzən qarışıq bir dizayn adlandırılan bir yanaşma (şəkil 4.5) və bəzən bir fərqi fərqlər tahmincisi olaraq adlandırırlar. Yəni, hər bir iştirakçı üçün, tədqiqatçılar bir dəyişmə skoru (müalicə sonrası davranış $-$ əvvəlcədən müalicə davranışı) yaratmış və sonra müalicə və nəzarət şəraitində iştirakçıların dəyişmə skorlarını müqayisə edə bilmişdir. Bu fərqi fərqlilik anlayışı statistikanın daha səmərəli olduğunu göstərir, yəni tədqiqatçılar daha kiçik nümunələri istifadə edərək eyni statistik təhlükəsizliyə nail ola biləcəklər.

Çörək məlumatları olmadıqda, bu vəziyyətdə bir fərq fərqi qiymətləndiricisi nə qədər daha səmərəli olduğunu dəqiq bilmək çətindir. Lakin kobud bir fikir üçün digər təcrübələrə baxa bilərik. Deng et al. (2013) müxtəlif fərqi fərqləndirici bir formanı istifadə edərək, üç fərqli online sınaqda onların təxminlərinin təxminini təxminən 50% azaltmağı bacardıqlarını bildirdi; oxşar nəticələr Xie and Aurisset (2016) tərəfindən bildirilmişdir. Bu 50% varyansın azaldılması Dəyişik Çağdaşlıq tədqiqatçılarının bir az fərqli analiz metodunu istifadə etdikləri təqdirdə onların nümunəsini yarıdan aşağıya endirdiklərini bildirir. Digər bir deyişlə, analizdə kiçik bir dəyişikliklə, 350 min nəfər təcrübəyə qatılmaqdan qorxurdu.

Bu nöqtədə, 350.000 adamın Lazımsız bir şəkildə Duyğulanma Çağırışında olmasına baxmayaraq tədqiqatçıların nə üçün qayğı göstərmələri merak edici ola bilər. Həddindən artıq ölçülü həssaslıqla əlaqədar narahatlıq yaradan Dəyişiklik Çağırışının iki xüsusiyyəti vardır və bu xüsusiyyətlər bir çox rəqəmsal sahədə təcrübə ilə bölüşdürülür: (1) eksperimentin ən azı bir iştirakçıya zərər verəcəyini və (2) iştirak etməyəcəyi barədə qeyri-müəyyənlik var könüllü olmadı. Bu xüsusiyyətləri mümkün qədər kiçik olan eksperimentləri davam etdirməyə çalışmaq məqsədəuyğun görünür.

Aydın olmaq üçün, sınağınızın ölçüsünü azaltmaq arzusu böyük, sıfır dəyişən qiymətli eksperimentlər etməməyinizə aid deyil. Bu yalnız sizin təcrübələrinizin elmi məqsədinizə çatmaq üçün lazım olduğunuzdan daha böyük olmaması deməkdir. Bir təcrübənin uyğun ölçülü olduğundan əmin olmaq üçün bir mühüm yol enerji təhlili aparmaqdır (Cohen 1988) . Analoq dövründə tədqiqatçılar ümumiyyətlə onların işinin çox kiçik olmadığına əmin olmaq üçün güc analizi etmişlər (yəni, güclü deyil). İndi isə tədqiqatçılar tədqiqatların çox böyük olmadığına əmin olmaq üçün güc analizini etməlidirlər (yəni çox güclü).

Nəticədə, üç R's-əvəzləyən, təmizləmək və azaltmaq, tədqiqatçıların etikasını eksperimental dizaynlarına çevirə biləcək prinsipləri təmin edir. Əlbəttə ki, bu Dəyişiklik Çağırışında meydana gələ biləcək dəyişikliklərdən hər biri ticarətdən çıxır. Məsələn, təbii təcrübələrdən gələn sübutlar həmişə randomizə edilmiş təcrübələrdən asılı olmayaraq, məzmunun artırılması məntiqi cəhətdən məzmunu bloklayandan daha çətin ola bilərdi. Beləliklə, bu dəyişiklikləri təklif etmək məqsədi digər tədqiqatçıların qərarlarını ikinci dəfə təxirə salmamaq idi. Əksinə, üç R-nin real vəziyyətdə necə tətbiq oluna biləcəyini göstərmək idi. Əslində, ticarət məsələləri hər zaman tədqiqat dizaynında inkişaf edir və rəqəmsal yaşda bu ticarət əməliyyatları daha çox etik mülahizələri əhatə edəcəkdir. Daha sonra, 6-cı fəsildə mən tədqiqatçılara bu ticarət məsələlərini anlamağa və müzakirə etməyə kömək edən bəzi prinsiplər və etik çərçivələr təklif edəcəyəm.