Непрезентативните податоци се лоши за генерализирање надвор од примерокот, но можат да бидат многу корисни за споредби во рамките на примерокот.
Некои општествени научници се навикнати да работат со податоци што потекнуваат од веројатен случајен примерок од добро дефинирана популација, како што се сите возрасни лица во одредена земја. Овој вид податоци се нарекуваат репрезентативни податоци, бидејќи примерокот "ја претставува" поголемата популација. Многу истражувачки податоци за репрезентативните податоци, како и за некои репрезентативни податоци, се синоним за ригорозна наука, додека непредлаганите податоци се синоними со слабост. На повеќето екстремни, некои скептици се чини дека веруваат дека ништо не може да се научи од непредвидени податоци. Ако е точно, ова би изгледало сериозно да го ограничи она што може да се научи од големи извори на податоци, бидејќи многу од нив се непримезни. За среќа, овие скептици се само делумно во право. Постојат одредени истражувачки цели за кои непредлаганите податоци се јасно несоодветни, но има и други за кои всушност може да бидат доста корисни.
За да ја разбереме оваа разлика, да го разгледаме научниот класик: студија на Џон Сноу за појава на колера од 1853-54 во Лондон. Во тоа време, многу лекари верувале дека колера била предизвикана од "лош воздух", но Сноу верувал дека тоа е заразна болест, можеби се шири со вода за пиење. За да ја тестираме оваа идеја, Снег го искористи она што сега можеме да го наречеме природен експеримент. Тој ги споредуваше стапките на холера на домаќинствата што ги служеа две различни водечки компании: Ламбет и Саутварк и Воксхал. Овие компании служеа слични домаќинства, но тие се разликуваа на еден важен начин: во 1849 - неколку години пред почетокот на епидемијата - Ламбет ја премести својата влезна точка возводно од главниот отпуст на канализацијата во Лондон, додека Саутварк и Воксхал ја напуштија влезната цевка по течението од исфрлање на отпадна вода. Кога Снег ги споредил стапките на смртност од колера во домаќинствата што ги служеа двете компании, тој открил дека потрошувачите на компанијата Саутварк и Воксхал, која им давала на потрошувачите вода со отпадна вода, биле 10 пати поголеми шанси да умрат од колера. Овој резултат дава силни научни докази за аргументот на Снег за причината за колера, иако не е заснована на репрезентативен примерок од луѓе во Лондон.
Податоците од овие две компании, сепак, нема да бидат идеални за одговарање на друго прашање: што беше преваленцата на колера во Лондон за време на појавата? За второто прашање, кое исто така е важно, би било подобро да се има репрезентативен примерок од луѓе од Лондон.
Како што илустрира работата на снегот, постојат некои научни прашања за кои непредлаганите податоци можат да бидат доста ефективни и има други за кои не е добро прилагоден. Еден суров начин да се разликуваат овие два вида на прашања е дека некои прашања се однесуваат на примероци во рамките на примерокот, а некои се за вонредни примероци. Оваа разлика може дополнително да се илустрира со друга класична студија во епидемиологијата: британската докторска студија, која одигра важна улога во демонстрирањето дека пушењето предизвикува рак. Во оваа студија, Ричард Долл и А. Брадфорд Хил следеле околу 25.000 машки лекари неколку години и ги споредувале стапките на смртност врз основа на износот што пушеле кога започнала студијата. Куклата и Хил (1954) најдоа силна изложеност-одговор: колку повеќе луѓе пушеле, толку е поголема веројатноста да умрат од рак на белите дробови. Се разбира, не е мудро да се процени преваленцата на рак на белите дробови кај сите британски луѓе врз основа на оваа група машки лекари, но споредбата во рамките на примерокот сè уште обезбедува доказ дека пушењето предизвикува рак на белите дробови.
Сега, кога ја илустрирав разликата помеѓу споредби во рамките на примерокот и генерализирањето надвор од примерокот, постојат две ограничувања. Прво, постојат природни прашања во врска со степенот до кој односот што го има во примерокот од машки британски лекари, исто така, ќе се одржи во примерок од женски, британски доктори или машки британски фабрички работници или женски германски фабрички работници или многу други групи. Овие прашања се интересни и важни, но тие се различни од прашањата за степенот до кој може да се генерализираме од примерок до население. Забележи, на пример, дека веројатно се сомневате дека односот помеѓу пушењето и ракот што бил пронајден кај машките британски лекари најверојатно ќе биде сличен во овие други групи. Вашата способност да ја направите оваа екстраполација не произлегува од фактот дека машките британски доктори се веројатен случајен примерок од било која популација; туку доаѓа од разбирање на механизмот што ги поврзува пушењето и ракот. Така, генерализирањето од примерокот до популацијата од кое е изготвено е во голема мера статистичко прашање, но прашањата за преносливост на модел се наоѓаат во една група во друга група, во голема мера е нестатистичко прашање (Pearl and Bareinboim 2014; Pearl 2015) .
Во овој момент, скептик може да посочи дека повеќето социјални модели се веројатно помалку преносливи во групите од односот помеѓу пушењето и ракот. И јас се согласувам. Степенот до кој треба да очекуваме моделите да бидат преносливи е крајно научно прашање кое треба да се реши врз основа на теоријата и доказите. Не треба автоматски да се претпостави дека обрасците ќе бидат преносливи, но ниту треба да се претпостави дека тие нема да бидат преносливи. Овие донекаде апстрактни прашања за преносливост ќе ви бидат познати ако ги следите дебатите за тоа колку истражувачи можат да учат за човековото однесување со проучување студенти на додипломски студии (Sears 1986, [@henrich_most_2010] ) . И покрај овие дебати, сепак, би било неразумно да се каже дека истражувачите не можат ништо да научат од студирањето студенти на додипломски студии.
Второто предупредување е дека повеќето истражувачи со нерепрезентативни податоци не се толку внимателни како Снег, Кукла и Хил. Значи, за да го илустрирам она што може да тргне наопаку кога истражувачите се обидуваат да направат генерализација од нерепрезентативни податоци, би сакал да ви кажам за една студија за германските парламентарни избори во 2009 година од Андраник Тумасјан и неговите колеги (2010) . Со анализирање на повеќе од 100.000 твитови, тие откриле дека процентот на твитови во кои се споменува политичка партија соодветствува на процентот на гласови што партијата ги прими на парламентарните избори (слика 2.3). Со други зборови, се чини дека податоците од Твитер, кои во суштина беа слободни, може да ги заменат традиционалните истражувања на јавното мислење, кои се скапи поради нивниот акцент на репрезентативните податоци.
Со оглед на она што веројатно веќе знаете за Твитер, треба веднаш да се скептични за овој резултат. Германците на Твитер во 2009 година не беа веројатен случајен примерок од германските гласачи, а поддржувачите на некои партии би можеле да твитат за политиката многу почесто отколку поддржувачи на други партии. Така, изгледа изненадува што сите можни предрасуди што би можеле да ги замислите, некако ќе се откажат, така што овие податоци ќе бидат директно одраз на германските гласачи. Всушност, резултатите во Tumasjan et al. (2010) се покажа како премногу добра за да биде вистина. Следната книга на Андреас Јунгер, Паскал Јургенс и Харалд Шон (2012) истакна дека оригиналната анализа ја исклучува политичката партија која всушност ги добила најмногу споменувањата на Твитер: Партиската пиратска партија, мала партија што се бори против владината регулатива на Интернет. Кога Пиратската партија беше вклучена во анализата, Твитер споменува дека е ужасен индикатор за изборните резултати (слика 2.3). Како што покажува овој пример, користењето на нерепрезентативни големи извори на податоци за извршување на генерализирање надвор од мострата може да оди многу погрешно. Исто така, треба да забележите дека фактот дека имало 100.000 твитови во основа е ирелевантно: многу непредлагани податоци сè уште не се репрезентативни, тема што ќе се вратам во глава 3 кога ќе разговарам за анкети.
Да се заклучи, многу големи извори на податоци не се репрезентативни примероци од некое добро дефинирано население. За прашања кои бараат генерализирање на резултатите од примерокот на населението од кое е изготвено, ова е сериозен проблем. Но, за прашања во врска со споредби во рамките на примерокот, непредвидливите податоци може да бидат моќни, се додека истражувачите се јасни за карактеристиките на нивниот примерок и ги поддржуваат тврдењата за транспортност со теоретски или емпириски докази. Всушност, мојата надеж е дека големите извори на податоци ќе им овозможат на истражувачите да направат повеќе споредби во рамките на примерокот во многу непредлагани групи, и претпоставувам дека проценките од многу различни групи ќе направат повеќе за да ги унапредат социјалните истражувања од една единствена проценка од веројатност пример.