Нестандардни подаци су лоши за генерализацију изван узорка, али могу бити прилично корисни за упоређивање унутар узорка.
Неки социолози су навикли да раде са подацима који потичу из пробабилистичког случајног узорка из добро дефинисане популације, као што су сви одрасли у одређеној земљи. Ова врста података се назива репрезентативним подацима јер узорак "представља" већу популацију. Многи истраживачи награђују репрезентативне податке, а за неке репрезентативне податке синоним за ригорозну науку, док су нестандардни подаци синоним за неуједначеност. На најекстремнији начин, чини се да неки скептици верују да ништа не може да се научи од нестандардних података. Ако је истина, чини се да ово озбиљно ограничава оно што се може научити из великих извора података, јер многи од њих нису представници. Срећом, ови скептици су само делимично у праву. Постоје одређени истраживачки циљеви за које су неприступачни подаци очигледно недовољно одговарајући, али постоје и други за које би то могло бити прилично корисно.
Да бисмо разумели ову разлику, узмемо у обзир научни класик: студија Јохн Снова о избијању колере 1853-54 у Лондону. У то време многи лекари веровали су да је колера узрокована "лошим ваздухом", али снег је веровао да је то заразна болест, можда се проширила питком водом од канализације. Да би тестирао ову идеју, Сноу је искористио оно што сада можемо назвати природним експериментом. Упоређивао је стопе колере домаћинстава које послују две различите водоводне компаније: Ламбетх и Соутхварк & Ваукхалл. Ове компаније послужиле су сличним домаћинствима, али се оне разликовале на један важан начин: 1849. - неколико година прије почетка епидемије - Ламбетх је помјерио своју улазну тачку узводно од главног испуста отпадних вода у Лондону, док су Соутхварк & Ваукхалл напустили улазну воду низводно од испуштање отпадних вода. Када је Снеј упоредио стопе смртности од колере у домаћинствима која су служили две компаније, утврдио је да су клијенти компаније Соутхварк & Ваукхалл, компаније која је пружала потрошачима воде са отпадним водама, 10 пута више вероватно умрла од колере. Овај резултат даје снажне научне доказе за аргумент Снежа о узроку колере, иако није заснован на репрезентативном узорку људи у Лондону.
Међутим, подаци из ове две компаније не би били идеални за одговор на друго питање: која је била количина колере у Лондону током епидемије? За то друго питање, што је такође важно, било би много боље имати репрезентативни узорак људи из Лондона.
Као што илуструје Сноуов рад, постоје нека научна питања за која непрепозиционални подаци могу бити сасвим ефикасни и постоје и други за које није адекватно. Један сурови начин да се разликују ова два питања јесте да су нека питања у вези са поређењима узорка, а неке су у вези са генерализацијама ван узорка. Ова разлика може даље илустровати још једна класична студија у епидемиологији: британска студија лекара, која је играла важну улогу у демонстрацији да пушење узрокује рак. У овој студији, Рицхард Долл и А. Брадфорд Хилл су пратили око 25.000 доктора мушкараца већ неколико година и упоређивали су стопу смртности на основу количине коју су пушили након почетка студије. Долл и Хилл (1954) пронашли су снажну везу између експозиције и реакције: што је више људи пушило, вероватније је да ће умрети од рака плућа. Наравно, не би било паметно проценити распрострањеност рака плућа међу свим британским људима базираним на овој групи мушких доктора, али упоређивање унутар узорка и даље доказује да пушење узрокује рак плућа.
Сада када сам илустровао разлику између упоређивања унутар узорка и генерализацијом изван узорка, два упозорења су у реду. Прво, наравно постоје питања о томе колико ће однос који се налази у узорку мушких британских лекара задржати у узорку жена, британских лекара или мушких британских фабричких радника или женских немачких фабричких радника или многих других група. Ова питања су занимљива и важна, али се разликују од питања о томе колико можемо генерализовати са узорка на популацију. На примјер, примјетите да вјеројатно сумњате да ће однос између пушења и рака који је пронађен код мушких британских лијекова вероватно сличан у овим другим групама. Ваша способност да урадите ову екстраполацију не долази из чињенице да су мушки британски лекари пробабилистички случајни узорак из било које популације; Пре свега, долази од разумевања механизма који повезује пушење и рак. Дакле, генерализација из узорка на популацију из које је извучена је у великој мјери статистички проблем, али питања о преносивости узорка који се налазе у једној групи у другу групу је у великој мјери (Pearl and Bareinboim 2014; Pearl 2015) питање (Pearl and Bareinboim 2014; Pearl 2015) .
У овом тренутку, скептик може указати на то да је већина друштвених обрасца вероватно мање преносива у групи од односа између пушења и рака. И слажем се. У којој мјери треба очекивати да се обрасци могу пренијети, на крају је научно питање које треба одлучити на основу теорије и доказа. Не треба аутоматски претпоставити да ће обрасци бити преносиви, али не би требало претпоставити да они неће бити покретљиви. Ова донекле апстрактна питања о транспорту биће вам позната ако сте пратили расправе о томе колико истраживачи могу научити о људском понашању проучавајући студенте додипломске студије (Sears 1986, [@henrich_most_2010] ) . Упркос овим дебатама, било би неразумно рећи да истраживачи не могу ништа научити од студирања студената на додипломским студијама.
Друга опомена је да већина истраживача са неприступачним подацима није толико опрезна као Снов, Долл и Хилл. Дакле, да бих илустровао шта може погрешно када истраживачи покушају да изврше генерализацију од не-представника, желим да вам кажем о студији о изборима у Немачкој из 2009. године од Андраника Тумасјана и колега (2010) . Анализирајући више од 100.000 твитова, утврдили су да је удео твеетова који помињу политичку партију одговарали проценту гласова које је странка примила на парламентарним изборима (слика 2.3). Другим ријечима, показало се да су подаци из Твиттера, који су у суштини били бесплатни, могли замијенити традиционална истраживања јавног мњења, која су скупа због њиховог нагласка на репрезентативним подацима.
С обзиром на то што вероватно већ знате о Твиттер-у, одмах морате бити скептични према овом резултату. Немци на Твиттер-у 2009. нису били пробабилистички случајни узорак немачких бирача, а присталице неких партија би могле чвршће твитати о политици много чешће него присталице других странака. Стога, чини се да је изненађујуће што би све могуће предрасуде које сте могли замислити на неки начин отказати тако да би ти подаци били директно одражавајући немачке бираче. Заправо, резултати Tumasjan et al. (2010) показао се превише добро да би био истинит. Следећи документ Андреас Јунгхерр, Пасцал Јургенс и Харалд Сцхоен (2012) истакао је да је оригинална анализа искључила политичку партију која је заправо добила највише навода на Твиттеру: Пиратска странка, мала странка која се бори против владине регулације на Интернету. Када је Пиратска странка укључена у анализу, Твиттер помиње постаје ужасан предиктор изборних резултата (слика 2.3). Како овај примјер илуструје, кориштење нерепрезентативних великих извора података за оба извјештавања узорка може бити врло погрешно. Такође, требали бисте приметити да је чињеница да је било 100.000 твеетова у основи ирелевантно: пуно непрепозиционалних података је и даље нерегистрибуција, тема коју ћу се вратити у поглављу 3 када се расправљам о истраживањима.
Да закључимо, многи велики извори података нису репрезентативни узорци неког добро дефинисаног становништва. За питања која захтевају генерализацију резултата из узорка на популацију из које је извучена, ово је озбиљан проблем. Међутим, када се ради о поређењима узорка узорака, неистављајући подаци могу бити моћни, све док су истраживачи јасни у вези са карактеристикама свог узорка и подржавају тврдње о преносљивости са теоретским или емпиријским доказима. У ствари, надам се да ће велики извори података омогућити истраживачима да упореде више узорака у многим невладиним групама, а претпостављам да ће процјене из различитих група учинити више за унапређење друштвених истраживања него само једна процјена од случајних случајних узорак.