Непредставените данни са лоши за генерализациите извън извадката, но могат да бъдат доста полезни за сравнения в рамките на извадката.
Някои социолози са свикнали да работят с данни, които идват от вероятностна случайна извадка от добре дефинирана популация, като всички възрастни в определена държава. Този вид данни се наричат представителни данни, тъй като образецът "представлява" по-голямата популация. Много изследователи печелят представителни данни, а за някои представителни данни е синоним на строга наука, докато непредставените данни са синоними на слабости. Най-крайно, някои скептици изглежда вярват, че от непредставените данни не може да се научи нищо. Ако това е вярно, това би очевидно ограничи онова, което може да се извлече от големите източници на данни, тъй като много от тях не са представителни. За щастие тези скептици са само частично прави. Съществуват някои изследователски цели, за които непредставените данни очевидно не са добре пригодени, но има и други, за които би могло да бъде доста полезно.
За да разберем тази разлика, нека да разгледаме научна класика: проучването на Джон Сноу за избухването на холерата от 1853-54 в Лондон. По това време много лекари смятаха, че холерата е причинена от "лош въздух", но Сноу вярва, че това е инфекциозна болест, вероятно разпространявана с питейна вода, която се отвежда в канализацията. За да изпробва тази идея, Сноу се възползва от това, което сега можем да наречем естествен експеримент. Той сравнява нивата на холера на домакинствата, обслужвани от две различни водни компании: Lambeth и Southwark & Vauxhall. Тези компании са обслужвали подобни домакинства, но те се различават по един важен начин: през 1849 г. - няколко години преди началото на епидемията - Ламбет премества входната си точка нагоре по течението на главния канализационен отпадък в Лондон, докато Southwark & Vauxhall напуснаха входа си отвеждане на канализацията. Когато Snow сравнява смъртността от холера в домакинствата, обслужвани от двете компании, той установи, че клиентите на Southwark & Vauxhall - компанията, която предоставя на клиентите вода, която е замърсена с отпадъчни води, са били 10 пъти по-склонни да умрат от холера. Този резултат дава силни научни доказателства за твърдението на Сноу относно причината за холерата, въпреки че не се основава на представителна извадка от хора в Лондон.
Данните от тези две компании обаче не биха били идеални за отговор на друг въпрос: каква беше разпространението на холерата в Лондон по време на избухването? За този втори въпрос, който също е важен, би било много по-добре да има представителна извадка от хора от Лондон.
Както илюстрира работата на Сноу, има някои научни въпроси, за които непредставените данни могат да бъдат доста ефективни и има други, за които не е подходяща. Един груб начин за разграничаване на тези два вида въпроси е, че някои въпроси са за сравнения в рамките на извадките, а някои са за генерализации извън извадката. Това разграничение може да бъде допълнително илюстрирано от друго класическо проучване в областта на епидемиологията: проучването на британските лекари, което изигра важна роля в демонстрирането, че тютюнопушенето причинява рак. В това проучване Ричард Дол и А. Брадфорд Хил следваха приблизително 25 000 лекари мъже в продължение на няколко години и сравняват смъртността си въз основа на количеството, което са пушили, когато изследването е започнало. Куклата и Хил (1954) откриват силна връзка между експозицията и реакцията: колкото по-тежки са пушачите, толкова по-вероятно е те да умрат от рак на белия дроб. Разбира се, би било неразумно да се прецени разпространението на рак на белите дробове сред всички британци въз основа на тази група мъже, но сравнението в рамките на извадката все още показва, че тютюнопушенето причинява рак на белите дробове.
Сега, след като илюстрирах разликата между сравненията в рамките на извадката и генерализациите извън извадката, две предупреждения са в ред. Първо, има естествени въпроси относно степента, до която връзката, която има в извадка от мъжки британски лекари, също ще се проведе в извадка от жени, британски лекари или британски работници от британската фабрика или жени-германски фабрики или много други групи. Тези въпроси са интересни и важни, но те се различават от въпросите за степента, до която можем да обобщим от една проба към едно население. Забележете например, че вероятно подозирате, че връзката между тютюнопушенето и рака, открита при мъже британски лекари, вероятно ще бъде сходна в тези други групи. Вашата способност да правите тази екстраполация не произтича от факта, че мъжките британски лекари са вероятностна случайна извадка от всяко население; а идва от разбирането на механизма, който свързва тютюнопушенето и рака. По този начин обобщаването от извадката на населението, от което се извлича, е до голяма степен статистически въпрос, но въпросите за транспортируемостта на модела, който се намира в една група в друга група, до голяма степен са нестатистически въпрос (Pearl and Bareinboim 2014; Pearl 2015) .
В този момент един скептик може да посочи, че повечето социални модели вероятно са по-малко транспортируеми в групи, отколкото връзката между тютюнопушенето и рака. И аз съм съгласен. Степента, в която трябва да очакваме моделите да бъдат транспортируеми, е в крайна сметка научен въпрос, който трябва да бъде решен въз основа на теория и доказателства. Не следва автоматично да се предполага, че моделите ще бъдат транспортируеми, но не трябва да се приеме, че те ще бъдат транспортируеми. Тези малко абстрактни въпроси относно транспортируемостта ще ви бъдат познати, ако сте проследили дебатите за това колко учени могат да научат за човешкото поведение, като учат студенти (Sears 1986, [@henrich_most_2010] ) . Въпреки тези дебати, обаче, би било неразумно да се каже, че изследователите не могат да научат нищо от изучаване на студентите.
Второто предупреждение е, че повечето изследователи с непредставени данни не са толкова внимателни, колкото Сняг, Кукла и Хил. Така че, за да илюстрирам какво може да се обърка, когато изследователите се опитват да направят извадка от обобщение от непредставените данни, бих искал да ви разкажа за проучване на немските парламентарни избори през 2009 г. от Andranik Tumasjan и колеги (2010) . Чрез анализа на повече от 100 000 туитове, те установиха, че процентът на tweets, споменаващ политическа партия, съответства на дела на гласовете, които партията получи на парламентарните избори (фигура 2.3). С други думи, изглежда, че данните от Twitter, които по същество са безплатни, биха могли да заменят традиционните проучвания на общественото мнение, които са скъпи поради акцента върху представителните данни.
Предвид това, което вероятно вече знаете за Twitter, трябва незабавно да сте скептични за този резултат. Германците на Twitter през 2009 г. не бяха вероятностна случайна извадка от германски гласоподаватели, а поддръжниците на някои партии можеха много по-често да пишат за политиката, отколкото привържениците на други партии. По този начин изглежда изненадващо, че всички възможни отклонения, които бихте могли да си представите, по някакъв начин ще бъдат отменени, така че тези данни да отразяват пряко германските гласоподаватели. Всъщност резултатите от Tumasjan et al. (2010) се оказа твърде добър, за да е истина. Последващ доклад на Андреас Юнгхер, Паскал Юргенс и Харалд Шоен (2012) посочва, че първоначалният анализ изключва политическата партия, която всъщност е получила най-много споменавания в Twitter: пиратската партия, малка партия, която се бори с правителствената регулация на интернет. Когато пиратската партия е включена в анализа, споменаването на Twitter се превръща в ужасен предсказващ резултат от изборите (фигура 2.3). Както илюстрира този пример, използването на непредставителни големи източници на данни за генериране на извадки от извадки може да се окаже много погрешно. Също така трябва да забележите, че фактът, че има 100 000 туитове, всъщност не е релевантен: много непредставителни данни все още не са представителни, тема, на която ще се върна в глава 3, когато обсъждам проучвания.
В заключение, много големи източници на данни не са представителни проби от добре дефинирана популация. За въпроси, които изискват обобщаване на резултатите от извадката за населението, от което е изготвена, това е сериозен проблем. Но за въпроси относно сравненията в рамките на извадките непредставените данни могат да бъдат мощни, стига изследователите да са ясни относно характеристиките на тяхната извадка и да подкрепят твърденията за транспортируемост с теоретични или емпирични доказателства. Всъщност се надявам, че големите източници на данни ще позволят на изследователите да направят повече сравнения в рамките на проби в много непредставителни групи и предполагам, че оценките от много различни групи ще направят повече за напредъка в социалните изследвания, отколкото една прогноза от вероятностна случайна проба.