Ոչ ներկայացուցչական տվյալները վատ են ընտրանքի ընդհանրացման համար, բայց կարող են բավականին օգտակար լինել ներսում նմուշների համեմատությունների համար:
Որոշ սոցիալական գիտնականներ սովոր են աշխատել այն տվյալների հետ, որոնք գալիս են լավ հստակ բնակչության թվաքանակի հավանական հավանական նմուշից, ինչպես, օրինակ, որոշակի երկրի բոլոր մեծահասակները: Տվյալ տվյալներն անվանում են ներկայացուցչական տվյալներ, քանի որ նմուշը ներկայացնում է ավելի մեծ բնակչությունը: Շատ հետազոտողներ մրցանակներ են տալիս ներկայացուցչական տվյալների վրա, եւ որոշ ներկայացուցիչներ ներկայացված են հստակ գիտությամբ, մինչդեռ ոչ ներկայացուցչական տվյալները համընկնում են sloppiness- ի հետ: Առավել ծայրահեղ դեպքում, որոշ թերահավատներ կարծես հավատում են, որ ոչինչ չի կարելի սովորել ոչ ներկայացուցչական տվյալների մասին: Եթե ճիշտ է, ապա դա կարծես խիստ սահմանափակ է, թե ինչ կարող է սովորել մեծ տվյալների աղբյուրներից, քանի որ նրանցից շատերը ոչ ներկայացուցչական են: Բարեբախտաբար, այս թերահավատները մասամբ ճիշտ են: Կան որոշակի հետազոտական նպատակներ, որոնց համար ոչ ներկայացուցչական տվյալները հստակ չեն համապատասխանում իրականությանը, բայց կան ուրիշներ, որոնց համար դա կարող է իրականում շատ օգտակար լինել:
Այս տարբերակն իմանալու համար եկեք դիտենք գիտական դասական: Ջոն Սնոուի ուսումնասիրությունը Լոնդոնում 1853-54 թթ. Խոլերայի բռնկումը: Այդ ժամանակ շատ բժիշկներ հավատում էին, որ խոլերան առաջացրել է «վատ օդ», սակայն Սնոուն հավատում էր, որ դա վարակիչ հիվանդություն է, որը, թերեւս, տարածվում է կոյուղաջրերի միջոցով: Այս գաղափարը փորձելու համար, Սնոուն օգտվեց այն բանիից, թե ինչ կարող ենք այժմ կոչել բնական փորձարկում: Նա համեմատեց երկու տարբեր ջրային ընկերությունների կողմից ծառայած տնային տնտեսությունների խոլերայի դրույքաչափերի հետ. Lambeth եւ Southwark & Vauxhall: Այս ընկերությունները ծառայում էին նմանատիպ տնային տնտեսություններին, սակայն նրանք տարբերվում էին մի կարեւոր ձեւով. 1849 թ.-ին սկսվել է համաճարակի մի քանի տարի առաջ, Լամբեթը տեղափոխվել է Լոնդոնում գտնվող հիմնական կեղտաջրերի հեռացման կետը, մինչդեռ Southwark & Vauxhall- ը դուրս է եկել խողովակաշարից դեպի ներքեւ: կեղտաջրերի հեռացում: Երբ Սնոուն համեմատում էր խոլերայի մահացության ցուցանիշները երկու ընկերությունների կողմից տնային տնտեսություններում, նա գտավ, որ Southwark- ի եւ Vauxhall- ի հաճախորդները, որոնք ապահովում էին հաճախորդներին կոյուղու խճճված ջուրը, ավելի քան 10 անգամ ավելի շատ էին մահանում խոլերայից: Այս արդյունքը ապահովում է խոշոր եղջերուի պատճառների մասին Սնոուի փաստարկի ամուր գիտական ապացույցը, չնայած այն հիմնված չէ Լոնդոնում մարդկանց ներկայացուցչական ընտրանքի վրա:
Այս երկու ընկերությունների տվյալները, սակայն, իդեալական չեն լինի այլ հարցին պատասխանելու համար. Ինչ է տեղի ունեցել Լոնդոնում խոլերայի տարածվածության շրջանում: Այդ երկրորդ հարցի համար, որը նույնպես կարեւոր է, ավելի լավ կլիներ, որ Լոնդոնից մարդկանց ներկայացուցչական ընտրանք լինի:
Սնոուի աշխատանքը ցույց է տալիս, որ կան որոշ գիտական հարցեր, որոնց համար ոչ ներկայացուցչական տվյալները կարող են բավականին արդյունավետ լինել, եւ կան ուրիշներ, որոնց համար դա լավ չէ: Այս երկու տեսակի հարցերը տարբերակելու հոյակապ ձեւերից մեկն այն է, որ որոշ հարցեր վերաբերում են ներսում ընտրանքի համեմատությանը, իսկ ոմանք, օրինակելի դրույթներից: Այս տարբերակումը կարող է հետագայում եւս մեկ դասական ուսումնասիրություն կատարել համաճարակաբանության մեջ. Բրիտանացի բժիշկների ուսումնասիրությունը, որը կարեւոր դեր է խաղացել, ցույց տալով, որ ծխելը քաղցկեղ է առաջացնում: Այս ուսումնասիրության մեջ Ռիչարդ Դոլլը եւ Ա. Բրեդֆորդ Հիլը մի քանի տարի շարունակ հետեւում էին մոտավորապես 25,000 տղամարդկանց բժիշկների եւ համեմատում էին մահացության ցուցանիշները `հիմնվելով այն ուսումնասիրության վրա, երբ ծխում էին: Տիկլին եւ Հիլլը (1954) գտել են ուժեղ ազդեցության արձագանքման հարաբերություններ. Ավելի խիտ մարդիկ ծխում են, ավելի հավանական է, որ նրանք մահանում են թոքերի քաղցկեղից: Իհարկե, խելամիտ կլինի գնահատել թոքերի քաղցկեղի տարածվածությունը բոլոր բրիտանացիների շրջանում, որոնք հիմնված են այս տղամարդու բժիշկների վրա, սակայն ներսում նմուշի համեմատությունը դեռեւս ապացուցում է, որ ծխելը առաջացնում է թոքերի քաղցկեղ:
Այժմ, ես պատկերացնում եմ ներսում ընտրանքի համեմատությունների եւ նմուշից դուրս ընդհանրացման միջեւ տարբերությունը, երկու խանգարումներ են կատարվում: Նախ, բնականաբար, կան հարցեր, որոնց հարաբերությունները, որոնք անցկացվում են արական բրիտանացի բժիշկների օրինակով, կանցկացնեն նաեւ կանանց, բրիտանացի բժիշկների կամ տղամարդկանց բրիտանացի գործարարների կամ գերմանական գործարանի աշխատողներ կամ շատ այլ խմբեր: Այս հարցերը հետաքրքիր են եւ կարեւոր, բայց դրանք տարբեր են այն հարցերից, թե որքանով կարելի է ընդլայնել նմուշից մինչեւ բնակչություն: Ուշադրություն դարձրեք, օրինակ, որ հավանաբար կասկածում եք, որ ծխախոտի եւ քաղցկեղի միջեւ փոխհարաբերությունները, որոնք հայտնաբերվել են արական բրիտանացի բժիշկներում, հավանաբար նման են մյուս մյուս խմբերի: Ձեր արտահանման ձեր ունակությունը չի բխում այն բանից, որ բրիտանացի բժիշկները ցանկացած բնակչությունից հավանականորեն պատահական նմուշներ են. Փոխարենը, դա գալիս է ծխելու եւ քաղցկեղի հետ կապված մեխանիզմի հասկացությունից: Այսպիսով, նմուշից հանրությանը ընդգրկողը, որը կազմված է, հիմնականում վիճակագրական խնդիր է, բայց մի խմբի մյուս խմբում հայտնաբերված տիպի փոխադրման մասին հարցեր հիմնականում անկայուն հարց են (Pearl and Bareinboim 2014; Pearl 2015) :
Այս պահին թերահավատությունը կարող է մատնանշել, որ շատ սոցիալական նախադրյալներ, հավանաբար, ավելի քիչ տեղափոխելի են խմբերում, քան ծխելը եւ քաղցկեղի միջեւ փոխհարաբերությունները: Եվ ես համաձայն եմ: Այն աստիճանը, որով մենք պետք է ակնկալենք, որ տիպերը տեղափոխելի են, ի վերջո գիտական հարց է, որը պետք է որոշվի տեսության եւ ապացույցի հիման վրա: Չպետք է ավտոմատ կերպով ենթադրվի, որ նախշերով կտեղափոխվեն, բայց չպետք է ենթադրել, որ դրանք չեն տեղափոխվի: Տրանսպորտային առումով որոշակի վերացական հարցերը ձեզ ծանոթ կլինեն, եթե դուք հետեւել եք բանավեճերին, թե որքան հետազոտողներ կարող են սովորել մարդու վարքագծի մասին `սովորում ուսանողների կողմից (Sears 1986, [@henrich_most_2010] ) : Չնայած այդ բանավեճերին, սակայն, անիմաստ է ասել, որ հետազոտողները չեն կարող սովորել բակալավրիատ ուսանողներ:
Երկրորդ նախազգուշացումն այն է, որ շատ հետազոտողներ, որոնք ոչ ներկայացուցչական տվյալներ չունեն, այնքան էլ զգույշ չեն, որքան Snow կամ Doll եւ Hill. Այնպես որ, ցույց տալու, թե ինչ կարող է գնալ սխալ է, երբ հետազոտողները փորձում են դարձնել an out-of-նմուշի ընդհանրացում է nonrepresentative տվյալներով, ես ցանկանում եմ պատմել ձեզ մի ուսումնասիրության 2009 թ.-ի գերմանական խորհրդարանական ընտրությունների Անդրանիկ Tumasjan եւ գործընկերների (2010) : Քննարկելով ավելի քան 100,000 թվիթերը, նրանք պարզեցին, որ քաղաքական կուսակցությանը հիշատակող թվիթերի համընկնումները համապատասխանում են խորհրդարանական ընտրություններում ստացած ձայների համամասնությանը (նկար 2.3): Այլ կերպ ասած, պարզ դարձավ, որ Twitter- ի տվյալները, որոնք, ըստ էության, ազատ են, կարող են փոխարինել ավանդական հասարակական կարծիքի հետազոտությունները, որոնք թանկ են, քանի որ ներկայացված տվյալները շեշտադրում են:
Հաշվի առնելով այն ամենը, ինչ դուք հավանաբար արդեն տեղյակ եք Twitter- ում, դուք պետք է անմիջապես թերահավատորեն վերաբերվեք այս արդյունքին: Գերմանացիները 2009 թ. Twitter- ում գերմանացի ընտրողների հավանական ոչ պատահական նմուշներ չեն եղել, եւ որոշ կուսակցությունների կողմնակիցները կարող են շատ ավելի հաճախակի քաղաքականություն վարել, քան մյուս կուսակցությունների կողմնակիցները: Այսպիսով, զարմանալի է թվում, որ հնարավոր բոլոր կողմնակալությունների մասին, որոնք դուք կարող եք պատկերացնել, ինչ-որ կերպ անջատել, որպեսզի այդ տվյալները ուղղակիորեն արտացոլեն գերմանացի ընտրողների կողմից: Իրականում, Tumasjan et al. (2010) արդյունքները Tumasjan et al. (2010) Պարզվեց, որ չափազանց լավ է իրական լինել: Անդրեաս Ջունգերրի, Պասկալ Յուրգենսի եւ Հարալդ Շոենի (2012) դիտորդական թերթը նշում է, որ բնօրինակը վերլուծությունը բացառել է այն քաղաքական կուսակցությանը, որն իրականում ստացել էր Twitter- ում ամենից շատ գրառումները. Pirate Party, Ինտերնետից: Վերլուծության մեջ ընդգրկվելիս Pirate Party- ն, Twitter- ը հիշեցնում է ընտրությունների արդյունքների ահավոր կանխատեսում (նկար 2.3): Քանի որ այս օրինակը ցույց է տալիս, օգտագործելով ոչ ներկայացրած մեծ տվյալների աղբյուրները, ընտրանքի ընդհանրացումներից կարելի է շատ սխալ լինել: Բացի այդ, պետք է նկատել, որ այն փաստը, որ 100.000 թվիթներ եղել են, հիմնականում անտեղի են. Շատ ներկայացուցչական տվյալներ դեռեւս ոչ ներկայացուցչական են, այն թեման, որը ես կվերադառնամ 3-րդ գլխում, երբ ես քննարկումներ կանցնեմ:
Վերջում, շատ մեծ տվյալների աղբյուրները որոշակի նմուշներ չեն հանդիսանում որոշ լավ բնակավայրերից: Հարցերի համար, որոնք պահանջում են նմուշի արդյունքների համախմբման արդյունքներ, որոնցից այն կազմվել է, դա լուրջ խնդիր է: Սակայն ներսում նմուշների համեմատությունների վերաբերյալ հարցերի համար ոչ ներկայացուցչական տվյալները կարող են հզոր լինել, քանի դեռ հետազոտողները պարզ են իրենց նմուշի բնութագրերի եւ դրանց մասին տեսական կամ փորձագիտական ապացույցների հետ փոխադրման վերաբերյալ պահանջների վերաբերյալ: Իրականում, իմ հույսն այն է, որ մեծ տվյալների աղբյուրները հնարավորություն կտան հետազոտողներին ավելի շատ ներգրավված օրինակներ վերցնել ոչ ներգրավված խմբերի մեջ, եւ իմ կանխատեսումը, որ տարբեր խմբերի հաշվարկները կանցնեն ավելի շատ սոցիալական հետազոտությունների նախապատրաստման համար, քան մեկ գնահատական հավանական հավանականությամբ նմուշ: