Репрезентативті емес деректер жалпылама іріктеу үшін жаман емес, бірақ іріктеме ішіндегі салыстыру үшін өте пайдалы болуы мүмкін.
Кейбір әлеуметтанушылар белгілі бір елдегі барлық ересектер сияқты белгілі бір халықтан ықтимал кездейсоқ үлгіден келетін деректермен жұмыс істеуге үйренеді. Деректердің бұл түрі өкілетті деректер деп аталады, себебі үлгі «үлкен» адамды білдіреді. Көптеген зерттеушілер өкілетті деректерді жүлдеге алады, ал кейбіреулері деректерді қатаң ғылыммен синонимдеумен айналысады, ал репрезентативті емес деректердің нашарлауы синоним болып табылады. Ең шеткі жағдайда, кейбір скептиктер репрезентативтік емес мәліметтерден ештеңе білуге болмайды деп ойлайды. Егер шын болса, бұл үлкен дерек көздерінен үйренуге болатын нәрсені шектеу сияқты көрінеді, себебі олардың көбісі репрезентативтік емес. Бақытымызға орай, бұл скептиктер тек ішінара дұрыс. Жекелеген зерттеу мақсаттары бар, олар үшін репрезентативті деректер дұрыс сәйкес келмейді, бірақ ол шын мәнінде пайдалы болуы мүмкін басқа да бар.
Бұл айырмашылықты түсіну үшін, ғылыми классиканы қарастырайық: Джон Сноу Лондондағы 1853-54 сиыр жарақатын зерттеу. Сол кезде көптеген дәрігерлер холераға «жаман ауа» себеп болған деп есептеді, бірақ Сноу бұл жұқпалы ауру, мүмкін, ағынды сумен араласқан ауыз суы болған деп ойлады. Бұл идеяны сынау үшін, Қар қазір табиғи эксперимент деп атайтын нәрселерді пайдаланды. Ол Lambeth, Southwark & Vauxhall компаниялары екі түрлі су компаниялары қызмет ететін үй шаруашылықтарының тырысқақ мөлшерін салыстырды. Бұл компаниялар бірдей үй шаруашылықтарына қызмет етті, бірақ олар бір маңызды жолмен ерекшеленді: 1849 жылы - эпидемия басталғанға дейін бірнеше жыл бұрын - Ламбет Лондондағы негізгі ағынды суларды ағызу нүктесін көтерді, ал Southwark & Vauxhall мұнай құбырынан шығатын құбырды ағысты ағынды суларды ағызу. Қар кезінде екі компанияда қызмет ететін үй шаруашылықтарында тырысқақ өлімін салыстырған кезде, ол Оңтүстік Варк пен Ваухалл тұтынушыларының тұтынушыларға арнап сумен жабдықталған суды бұзудан өлетінін 10 есе артық деп тапты. Бұл нәтиже Лондондағы адамдардың өкілдік үлгісіне негізделмегеніне қарамастан, Сноудың холердің пайда болу себептері туралы дәлелді ғылыми дәлелдемелерін береді.
Алайда, осы екі компаниялардың деректері басқа сұраққа жауап беру үшін өте қолайлы болмайды: Лондонда вирус кезінде вирустардың таралуы қандай болды? Бұл екінші мәселе үшін маңызды, ол Лондоннан келген адамдардың өкілдік үлгісіне ие болар еді.
Сноу жұмысында суреттелгендей, репрезентативті деректер өте тиімді болуы мүмкін кейбір ғылыми мәселелер бар және олар үшін жақсы емес. Бұл екі сұрақты бір-бірінен айыра білудің бір жолы - кейбір сұрақтардың іріктеу үлгісі туралы, ал кейбіреулері іріктеуден тыс қорыту туралы. Бұл айырмашылықты эпидемиологиядағы тағы бір классикалық зерттеуден көруге болады: Британдық дәрігерлерді зерттеу, темекі шегудің қатерлі ісікке әкелетінін көрсететін маңызды рөл атқарады. Бұл зерттеуде Ричард Долл мен А Брэдфорд Хилл бірнеше жылдар бойы шамамен 25 мың ер дәрігерге еріп, өлім-жітім көрсеткішін зерттеу басталған кезде шылым шегетін мөлшерге қарай салыстырды. Долл және Хилл (1954) күшті әсер ету реакциясы байланысын анықтады: адамдар неғұрлым ауыр темекі шегеді, соншалықты олар өкпенің қатерлі ісігінен өледі. Әрине, бұл ерлер дәрігерлерінің тобына негізделген барлық британдық адамдар арасында өкпе рагынының таралуын бағалау дұрыс болмас еді, бірақ ішіндегі үлгілерді салыстыру әлі де темекі шегудің өкпенің қатерлі ісігіне себепкер екенін дәлелдейді.
Енді іріктеу үлгісі мен іріктеуден тыс қорыту арасындағы айырмашылықты суреттеп бергенімде, екі ескерту орын алады. Біріншіден, британдық ерлер британдық дәрігерлердің үлгісінде болатын қарым-қатынастар дәрежесі туралы сұрақтар, әрине, әйелдер, британдық дәрігерлердің немесе британдық фабрика қызметкерлерінің немесе неміс неміс зауытының қызметкерлері немесе басқа да көптеген топтарда болады. Бұл сұрақтар қызықты әрі маңызды, бірақ олар үлгімен халыққа қаншалықты дәрежеде жалпылауға болатынынан сұрақ-жауаптардан ерекшеленеді. Мысалы, ерлер британдық дәрігерлерден табылған темекі шегу мен қатерлі ісік арасындағы қарым-қатынастың осы басқа топтарда ұқсастығына ұқсайтыныңызға назар аударыңыз. Бұл экстраполяцияны жасай білу қабілеті британдық ерлердің дәрігерлері кез-келген халықтан ықтимал кездейсоқ үлгі болып табылатынынан емес. керісінше, темекі шегу мен қатерлі ісікке байланысты механизмді түсінуден туындайды. Осылайша, үлгіден халыққа жинақталуы көбінесе статистикалық мәселе болып табылады, бірақ бір топтағы басқа топқа табылған үлгіні тасымалдау туралы мәселелер көбінесе статистикалық емес мәселе болып табылады (Pearl and Bareinboim 2014; Pearl 2015) .
Осы кезде скептический көптеген әлеуметтік модельдер темекі шегу мен қатерлі ісік арасындағы қарым-қатынастардан гөрі аз топтарға тасымалдануы мүмкін екенін көрсетеді. Мен келісемін. Тасымалдауға болатын үлгілердің дәрежесі, сайып келгенде, теория мен дәлелдерге негізделген шешім қабылдау керек ғылыми мәселе. Автоматты деп болжауға болмайды, бұл модельдер тасымалданатын болады, бірақ олар сондай-ақ тасымалданатын болады деп болжауға болмайды. Тасымалдау туралы осы бірнеше дерексіз сұрақтар бакалавриаттың оқушылары арқылы оқушылардың қаншалықты мінез-құлық туралы қаншалықты зерттеушілері туралы білуге болатыны туралы пікірталастармен танысқаныңызда сізге таныс болады (Sears 1986, [@henrich_most_2010] ) . Алайда, бұл пікірталастарға қарамастан, зерттеушілер бакалавриат студенттерін оқудан ештеңе біле алмайды деп айту мүмкін болмас еді.
Екінші ескерту - репрезентативтік емес мәліметтерді зерттеушілердің көпшілігі Snow немесе Doll және Hill сияқты мұқият емес. Мәселен, зерттеушілер іріктеуден тыс емес жалпылама ақпаратты ұсынбауға тырысқан кезде, немқұрайлылықты көрсету үшін, мен сіздерге 2009 жылғы Алмания парламентінің сайлауы туралы және Андраник Тумасьянның (2010) әріптестерін зерттеу туралы айтып бергім келеді. 100 мыңнан астам твитке талдау жасай отырып, олар саяси партия туралы айтылған дауыстардың үлесі парламенттік сайлауға қатысқан партиялардың дауыстарының үлесіне сәйкес келді (2.3-сурет). Басқаша айтқанда, шын мәнінде тегін болатын Twitter деректері дәстүрлі қоғамдық пікір сараптамаларын алмастыра алатыны көрінді, бұл олардың өкілдік деректерге ерекше назар аударуына байланысты қымбат.
Твиттер туралы білетіндігіңізді ескере отырып, сіз бұл нәтижеге күмәнданбаңыз. 2009 жылы Twitter-дегі немістер неміс сайлаушыларының ықтимал кездейсоқ іріктемесі емес еді, ал кейбір партиялардың жақтастары басқа партиялардың жақтастарына қарағанда саясат туралы твиттерді әлдеқайда жиі қолдануы мүмкін. Мәселен, таңқаларлық, бұл барлық ықтимал ұғымдар, сіз ойлайсыз, қандай да бір түрде жойылады, бұл деректер тікелей көрсететін болады неміс сайлаушылар. Шындығында, Tumasjan et al. (2010) шынайы болу үшін тым жақсы болды. Andreas Jungherr, Pascal Jürgens және Harald Schoen (2012) Қорытынды құжатында, түпнұсқалық талдау Твиттерде ең көп айтылған саяси партияны жоққа шығарғанын атап өтті: Pirate Party, мемлекеттік реттеуді Интернеттің. Қарақшылық партиясы талдауға кіргенде, Твиттердің айтуы сайлау нәтижелерінің қорқынышты болжаушысы болып табылады (2.3-сурет). Осы мысалда көрсетілгендей, үлгілі емес деректерді жинау үшін үлкен емес деректер көздерін пайдалану өте қате болуы мүмкін. Сондай-ақ, 100 мыңға жуық твит бар екендігін ескеру керек. Көптеген репрезентативті деректер бұрынғысынша өкілдіксіз, зерттеу тақырыбын талқылаған кезде 3-тарауға қайта оралайтын тақырып бар.
Қорытындылай келе, көптеген деректер көздері белгілі бір халықтың өкілдік үлгілері емес. Сынамадан жиналған халыққа жалпылама нәтижелерді талап ететін сұрақтар үшін бұл өте маңызды мәселе. Бірақ, іріктеме ішіндегі салыстыру туралы сұрақтар бойынша, зерттеушілер өз үлгілерінің сипаттамалары туралы және теориялық немесе эмпирикалық дәлелдемелермен тасымалдану туралы талаптарды қолдайтын болғандықтан, репрезентативті деректер күшті болуы мүмкін. Шын мәнінде, менің көзімше, үлкен дерек көздері зерттеушілерге көптеген репрезентативті емес топтардағы үлгілерді салыстыру үшін мүмкіндік береді және менің болжауымша, көптеген топтардың бағалауы әлеуметтік зерттеулерді алдын ала болжау үшін әлдеқайда көп кездейсоқ емес, үлгі.