Այս գլխում չընդգրկված մի տեսակ դիտարկումը ազգագրությունը է: Թվային տարածքներում ազգագրության վերաբերյալ ավելի շատ տեղեկությունների համար տես Boellstorff et al. (2012) , Եւ խառը թվային եւ ֆիզիկական տարածքներում ազգագրության վերաբերյալ ավելի մանրամասն, տես Lane (2016) :
«Մեծ տվյալների» մասին ոչ մի կոնսենսուսի սահմանումը չկա, բայց շատ սահմանումներ կարծես կենտրոնանում են «3 Vs» -ին, ծավալին, բազմազանությանը եւ արագությանը (օրինակ, Japec et al. (2015) ): Տես De Mauro et al. (2015) սահմանումների վերանայման համար:
Կառավարության վարչական տվյալների իմ ներգրավումը մեծ տվյալների կատեգորիայի մեջ մի քիչ անսովոր է, չնայած մյուսներն էլ այս գործը կատարել են, ներառյալ Legewie (2015) , Connelly et al. (2016) , իսկ Einav and Levin (2014) : Հետազոտության համար կառավարական վարչարարական տվյալների արժեքի մասին ավելին կարելի է գտնել Card et al. (2010) , Adminstrative Data Taskforce (2012) , եւ Grusky, Smeeding, and Snipp (2015) :
Կառավարության վիճակագրական համակարգում ներգրավված վարչական հետազոտությունների համար, մասնավորապես, ԱՄՆ մարդահամարի բյուրոն, տես Jarmin and O'Hara (2016) : Շվեդիայի Շվեդիայում վարչական գրանցումների ուսումնասիրության գիրքային երկարամյա բուժման համար տես Wallgren and Wallgren (2007) :
Գլխում ես համառոտորեն համեմատում եմ ավանդական հետազոտության մասին, ինչպիսիք են Ընդհանուր սոցիալական հետազոտությունը (GSS) սոցիալական լրատվամիջոցների տվյալների աղբյուրը, ինչպես Twitter- ը: Ավանդական հետազոտությունների եւ սոցիալական լրատվամիջոցների տվյալների միջեւ մանրամասն եւ ուշադիր համեմատության համար տես Schober et al. (2016) :
Այս 10 հատկանիշները մեծ տվյալների են նկարագրվել մի շարք տարբեր ձեւերով մի շարք տարբեր հեղինակների. Գրելու այն տեսակետը, որ ազդում էր այս հարցերի վրա իմ մտածողության մեջ, ներառում է Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) Tufekci (2014) Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , « Goldstone and Lupyan (2016) :
Այս գլխի ամբողջ ընթացքում օգտագործում եմ թվային հետքեր , որոնք ես կարծում եմ համեմատաբար չեզոք: Մեկ այլ հայտնի է ժամկետ թվային հետքերով է թվային footprints (Golder and Macy 2014) , սակայն քանի որ Hal Abelson, Քեն Ledeen, եւ Հարրի Lewis (2008) նշում են, ավելի տեղին տերմին է, թերեւս, թվային մատնահետքերը: Երբ դուք ստեղծում եք ոտնահետքեր, դուք տեղյակ եք, թե ինչ է տեղի ունենում, եւ ձեր footprints- ը, որպես կանոն, չի կարող ձեզ անձամբ ծանոթանալ: Նույնը չի համապատասխանում ձեր թվային հետքերին: Փաստորեն, դուք ամբողջությամբ թողնում եք հետքերը, որոնց մասին շատ քիչ գիտելիքներ ունեք: Եվ, չնայած այդ հետքերը չունեն ձեր անունը, նրանք հաճախ կարող են կապվել ձեզ հետ: Այլ կերպ ասած, դրանք ավելի շատ մատնահետքեր են նման: Անտեսանելի եւ անձը հաստատող:
Լրացուցիչ տեղեկությունների համար, թե ինչու է մեծ տվյալների հավաքումը վիճակագրական փորձարկումներ մատուցելու համար, տես M. Lin, Lucas, and Shmueli (2013) եւ McFarland and McFarland (2015) : Այս խնդիրները պետք է հանգեցնել հետազոտողներին կենտրոնանալ գործնական նշանակության վրա, այլ ոչ թե վիճակագրական նշանակություն ունենալ:
Լրացուցիչ տեղեկությունների համար, թե ինչպես Raj Chetty- ը եւ գործընկերները ձեռք են բերել հարկային գրառումները, տես Mervis (2014) :
Խոշոր տվյալների հավաքագրումը կարող է ստեղծել հաշվողական խնդիրներ, որոնք ընդհանրապես դուրս են մեկ համակարգչի հնարավորություններից: Հետեւաբար, մեծ տվյալների հավաքագրման համար հաշվարկներ կատարող հետազոտողները հաճախ աշխատում են բազմաթիվ համակարգիչների վրա, ինչը երբեմն կոչվում է զուգահեռ ծրագրավորում : Զուգահեռ ծրագրավորման ներդրման համար, մասնավորապես, Hadoop կոչվող լեզուն, տես Vo and Silvia (2016) :
Երբեւէ հաշվի առնելը, կարեւոր է հաշվի առնել, արդյոք դուք համեմատում եք ճիշտ նույն մարդկանց ժամանակի ընթացքում կամ արդյոք դուք համեմատում եք որոշ փոփոխվող մարդկանց խմբին, տես, օրինակ, Diaz et al. (2016) :
Ոչ ակտիվ միջոցառումների մասին դասական գիրք Webb et al. (1966) : Այդ գրքում ներկայացված օրինակները առաջացնում են թվային տարիքը, սակայն դրանք դեռ լուսավորվում են: Մարդկանց օրինակները, որոնք փոխում են իրենց վարքագիծը, զանգվածային հսկողության առկայության պատճառով, տես Penney (2016) եւ Brayne (2014) :
Ռեակտիվիզմը սերտորեն կապված է այն բանի հետ, որ հետազոտողները պահանջում են պահանջարկի ազդեցություն (Orne 1962; Zizzo 2010) եւ Hawthorne ազդեցությունը (Adair 1984; Levitt and List 2011) :
Լրացուցիչ տեղեկությունների համար տես Dunn (1946) , Fellegi and Sunter (1969) եւ Fellegi and Sunter (1969) (պատմական) եւ Larsen and Winkler (2014) (ժամանակակից): Նման մոտեցումներն էլ մշակվել են համակարգչային գիտության մեջ, ինչպիսիք են տվյալների կրկնօրինակում, օրինակների նույնականացում, անունի համապատասխանություն, կրկնօրինակման հայտնաբերում եւ կրկնօրինակների հայտնաբերում (Elmagarmid, Ipeirotis, and Verykios 2007) : Կան նաեւ գաղտնիության պահպանման մոտեցումներ գրառումների հետ կապված, որոնք չեն պահանջում անձամբ ճանաչող տեղեկությունների փոխանցում (Schnell 2013) : Ֆեյսբուքը նաեւ մշակել է իրենց ձայնագրությունները կապակցված քվեարկության վարքագիծը կապելու գործընթաց. դա կատարվել է գնահատելու փորձարկումը, որը ես ձեզ կասեմ 4-րդ գլուխում (Bond et al. 2012; Jones et al. 2013) :
Շինարարության վավերականության մասին ավելին Shadish, Cook, and Campbell (2001) տես Shadish, Cook, and Campbell (2001) գլուխ 3:
Լրացուցիչ տեղեկությունների համար AOL որոնման մուտքագրման սխալը տես Ohm (2010) : Ես խորհուրդ եմ տալիս ընկերությունների եւ ընկերությունների հետ համագործակցության վերաբերյալ գլխի 4-ում, երբ նկարագրում եմ փորձեր: Մի շարք հեղինակներ մտահոգություն են հայտնել այն հետազոտությունների վերաբերյալ, որոնք հենվում են անհասանելի տվյալների վրա, տես Huberman (2012) եւ boyd and Crawford (2012) :
Մի լավ միջոց է համալսարանի հետազոտողները ձեռք բերել տվյալների հասանելիությունը է աշխատել մի ընկերության, որպես պրակտիկանտ կամ հայտնվելու գիտաշխատող: Ի լրումն հնարավորություն է տալիս տվյալների հասանելիության, այս գործընթացը կօգնի նաեւ հետազոտողը ավելին իմանալ այն մասին, թե ինչպես է տվյալները ստեղծվել է, ինչը կարեւոր է վերլուծության.
Կառավարության տվյալների հասանելիության առումով Mervis (2014) Քննարկում է, թե ինչպես Raj Chetty- ը եւ գործընկերները ձեռք են բերել սոցիալական շարժունակության հետազոտություններում օգտագործվող հարկային գրառումները:
Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) եւ Kruskal and Mosteller (1980) ավելի շատ «ներկայացուցչականության» պատմության համար:
Ձյունի եւ Տիկի եւ Հիլլի աշխատանքների իմ ամփոփագրերը կարճ էին: Խոլերայում Սնոուի աշխատանքի մասին ավելի մանրամասն կարելի է գտնել Freedman (1991) : Մեծ Բրիտանիայի բժիշկների ուսումնասիրության համար տես Doll et al. (2004) եւ Keating (2014) :
Շատ հետազոտողներ կզարմանան, որ չնայած Տոլլին եւ Հիլդը հավաքել են կանանց բժիշկների եւ 35 տարեկանից բժիշկների տվյալների հավաքագրումը, նրանք նախնական տվյալներով չեն օգտագործել այդ տվյալները: Քանի որ նրանք պնդում էին. «Քանի որ թոքերի քաղցկեղը համեմատաբար հազվադեպ է կանանց եւ 35 տարեկան տղամարդկանց համար, մի քանի տարի առաջ այդ խմբերի համար հնարավոր չէ ձեռք բերել օգտակար թվեր: Հետեւաբար այս նախնական զեկույցում մենք մեր ուշադրությունը սեւեռեցինք 35 տարեկան եւ ավելի բարձր տարիքի տղամարդկանց համար »: Rothman, Gallacher, and Hatch (2013) , որն ունի սադրիչ կոչում,« Ինչու պետք է խուսափել ներկայացուցչականությունից », ավելի ընդհանուր փաստարկ դիտավորյալ ստեղծելով ոչ ներկայացրած տվյալներ:
Ներկայացուցչությունը հիմնական խնդիրն է այն հետազոտողների եւ կառավարությունների համար, ովքեր ցանկանում են ամբողջ ժողովրդի մասին հայտարարություններ անել: Սա ավելի քիչ մտահոգիչ է ընկերությունների համար, որոնք սովորաբար կենտրոնացած են իրենց օգտագործողների վրա: Լրացուցիչ տեղեկությունների համար, թե ինչպես վիճակագրական Նիդերլանդները համարում է բիզնեսի խոշոր տվյալների ոչ ներկայացչելիության հարցը, տես Buelens et al. (2014) :
Մեծ տվյալների աղբյուրների ոչ ներկայացուցչական բնույթի վերաբերյալ մտահոգություն K. Lewis (2015b) հետազոտողների օրինակների համար տեսեք boyd and Crawford (2012) , K. Lewis (2015b) եւ Hargittai (2015) :
Սոցիալական հետազոտությունների եւ համաճարակաբանական հետազոտությունների նպատակների ավելի մանրամասն համեմատության համար տես Keiding and Louis (2016) :
Թվիթեր օգտագործելու փորձերի մասին ավելի շատ ընտրողների համար, օրինակ, ընտրողների մասին, մասնավորապես, 2009 թ. Գերմանիայի ընտրություններից հետո, տես Jungherr (2013) եւ Jungherr (2015) : Tumasjan et al. (2010) աշխատանքից հետո Tumasjan et al. (2010) հետազոտողները ամբողջ աշխարհում օգտվել են հետաքրքրաշարժ մեթոդներից, ինչպիսիք են զգայունության վերլուծությունը `տարբերելու կողմերի դրական եւ բացասական հիշատակումները` Twitter- ի տվյալների (Gayo-Avello 2013; Jungherr 2015, chap. 7.) կանխատեսելու համար տարբեր տեսակի ընտրություններ (Gayo-Avello 2013; Jungherr 2015, chap. 7.) : Ահա թե ինչպես Huberty (2015) ամփոփեց ընտրությունների կանխատեսման այս փորձերի արդյունքները.
«Սոցիալական մեդիայի վրա հիմնված բոլոր հայտնի կանխատեսման մեթոդները ձախողվել են, երբ ենթարկվում են ճշմարիտ հեռանկարային ընտրությունների կանխատեսման պահանջներին: Այս ձախողումները երեւում են սոցիալական մեդիայի հիմնական հատկությունների շնորհիվ, այլ ոչ թե մեթոդական կամ ալգորիթմային դժվարությունների: Մի խոսքով, սոցիալական մեդիան չի եւ, հավանաբար, երբեք չի առաջադրի ընտրազանգվածի կայուն, անկողմնակալ, ներկայացուցչական պատկերը: եւ սոցիալական լրատվամիջոցների հարմարավետության նմուշները բավարար չեն այդ խնդիրների լուծման համար:
Գլուխ 3-ում ես նկարագրում եմ նմուշառման եւ գնահատման մասին ավելի մանրամասն: Նույնիսկ եթե տվյալները ոչ ներկայացուցչական են, որոշակի պայմաններում դրանք կարող են կշռված լինել լավ գնահատականներ տալու համար:
Համակարգի կուտակումը դժվար է տեսնել դրսից: Այնուամենայնիվ, «MovieLens» նախագիծը (քննարկվել է ավելի շատ գլուխ 4-ում) ավելի քան 15 տարի է, ինչ ակադեմիական հետազոտական խումբ է: Այսպիսով, նրանք կարողացել են փաստաթղթավորել եւ կիսել այն տեղեկատվությունը, թե համակարգը ժամանակի ընթացքում է զարգացել եւ ինչպես դա կարող է ազդել վերլուծության վրա (Harper and Konstan 2015) :
Մի շարք գիտնականներ ուշադրություն են դարձնում Twitter- ում: Liu, Kliman-Silver, and Mislove (2014) եւ Tufekci (2014) :
Բնակչության կախվածության հետ կապված մի մոտեցում է ստեղծել օգտվողների վահանակ, որը թույլ է տալիս հետազոտողներին ժամանակի ընթացքում ուսումնասիրել նույն մարդկանց, տես Diaz et al. (2016) :
Ես առաջին անգամ լսեցի Ջոն Քլեյնբերգի կողմից օգտագործված «ալգորիթմային խառնաշփոթ» տերմինը, սակայն, ցավոք, չեմ հիշում, թե երբ եւ որտեղ է խոսքը: Առաջին անգամ տպագրված տերմինը տեսել եմ Anderson et al. (2015) , որը հետաքրքիր քննարկում է, թե ինչպես ծանոթագրող կայքերի կողմից օգտագործվող ալգորիթմները կարող են բարդացնել հետազոտողների այդ կայքէջերից տվյալների օգտագործման ունակությունը սոցիալական նախասիրությունների ուսումնասիրման համար: Այս մտահոգությունը բարձրացրեց K. Lewis (2015a) `ի պատասխան Anderson et al. (2014) :
Facebook- ից բացի, Twitter- ը նաեւ խորհուրդ է տալիս մարդկանց օգտվել օգտագործողների համար, triadic փակման գաղափարի հիման վրա: տես Su, Sharma, and Goel (2016) : Այսպիսով, Twitter- ի եռյակի փակման մակարդակը որոշակի մարդկային միտում է, triadic- ի փակման եւ որոշակի ալգորիթմական միտում, որը խթանում է եռյակի փակումը:
Ավելի շատ կատարողականության համար, մասնավորապես, այն գաղափարը, որ որոշ սոցիալական գիտությունների տեսությունները «շարժիչներ չեն տեսախցիկները» (այսինքն, ձեւավորում են աշխարհը, այլ ոչ թե պարզապես նկարագրում են), - ասաց Mackenzie (2008) :
Կառավարական վիճակագրական մարմինները կոչում են տվյալների մաքրման վիճակագրական տվյալների խմբագրում : De Waal, Puts, and Daas (2014) նկարագրում են հետազոտության տվյալների համար մշակված վիճակագրական տվյալների մշակման մեթոդները եւ ուսումնասիրում այն չափերը, որոնց կիրառելի են մեծ տվյալների աղբյուրների համար, եւ Puts, Daas, and Waal (2015) ներկայացնում են մի քանի գաղափարներ, ավելի ընդհանուր լսարան:
Սոցիալական բոտերի ակնարկի համար տես Ferrara et al. (2016) : Հետազոտության որոշ օրինակներ, որոնք կենտրոնացած են Twitter- ում սպամի հայտնաբերման վրա, տես Clark et al. (2016) եւ Chu et al. (2012) : Վերջապես, Subrahmanian et al. (2016) նկարագրում է DARPA Twitter- ի մարտահրավերների արդյունքները, զանգվածային համագործակցություն, որը նախատեսված է Twitter- ում բոտերի հայտնաբերման մոտեցումները համեմատելու համար:
Ohm (2015) վերանայում է զգայուն տեղեկատվության գաղափարի մասին ավելի վաղ հետազոտություն եւ առաջարկում է բազմաֆունկցիոնալ փորձարկում: Նա առաջարկում է չորս գործոնները վնասների մեծությունը, վնասի հավանականությունը, գաղտնի հարաբերությունների առկայությունը, եւ արդյոք ռիսկը արտացոլում է մեծամասնական մտահոգությունները:
Նյու Յորքի տաքսիների Ֆարբերի ուսումնասիրությունը հիմնված էր « Camerer et al. (1997) ավելի վաղ ուսումնասիրության վրա Camerer et al. (1997) , որն օգտագործեց թղթե թերթերի երեք տարբեր հարմարավետ նմուշներ: Այս նախորդ ուսումնասիրությունը ցույց է տվել, որ վարորդները կարծես թիրախ աշխատակիցներ էին. Նրանք ավելի քիչ էին աշխատել այն օրերին, երբ իրենց աշխատավարձը բարձր էր:
Հետագա աշխատանքում Քինգն ու գործընկերները հետագայում ուսումնասիրել են Չինաստանում օնլայն գրաքննությունը (King, Pan, and Roberts 2014, [@king_how_2016] ) : Չինաստանում առցանց գրաքննությունը գնահատելու հարակից մոտեցման համար տես Bamman, O'Connor, and Smith (2012) : Ավելի շատ վիճակագրական մեթոդների վերաբերյալ, ինչպիսին օգտագործվում է « King, Pan, and Roberts (2013) , գնահատելու 11 միլիոն գրառումների զգացումը, տես Hopkins and King (2010) : Ավելի քան վերահսկվող սովորելու համար տես James et al. (2013) (պակաս տեխնիկական) եւ Hastie, Tibshirani, and Friedman (2009) (ավելի տեխնիկական):
Կանխատեսումը արդյունաբերական տվյալների գիտության մեծ մասն է (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) : Սոցիոլոգների կողմից տարածված կանխատեսումների մի տեսակն է ժողովրդագրական կանխատեսումը. տես, օրինակ, Raftery et al. (2012) :
Google Flu Trends- ը առաջինը չէ, որ որոնման տվյալները օգտագործելու համար արդեն իսկ հայտնաբերված գրիպի տարածվածությունը: Փաստորեն, ԱՄՆ-ում հետազոտողները (Polgreen et al. 2008; Ginsberg et al. 2009) եւ Շվեդիա (Hulth, Rydevik, and Linde 2009) պարզել են, որ որոշ որոնման տերմիններ (օրինակ, «գրիպ») կանխատեսել են հանրային առողջության պահպանման ազգային հսկողություն նախքան այն թողարկվելը: Հետագայում բազմաթիվ, շատ այլ ծրագրեր փորձել են օգտագործել թվային հետքային տվյալներ հիվանդության հսկողության հայտնաբերման համար, տես Althouse et al. (2015) վերանայման համար:
Առողջական արդյունքների կանխատեսման համար թվային հետքային տվյալների օգտագործման հետ մեկտեղ, նույնպես եղել է հսկայական աշխատանք, օգտագործելով Twitter- ի տվյալները `կանխատեսելու ընտրական արդյունքները: Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (գլուխ 7) եւ Huberty (2015) : Կենտրոնական բանկերում տնտեսական ցուցանիշների, ինչպիսիք են համախառն ներքին արդյունքը (ՀՆԱ) ներկայումս տարածված է, տես Bańbura et al. (2013) : աղյուսակ 2.8-ը ներառում է մի քանի օրինակներ, որոնք օգտագործում են մի շարք թվային հետքեր, որոնք կանխատեսում են աշխարհում ինչ-որ իրադարձություն:
Թվային հետք | Արդյունք | Մեջբերում |
---|---|---|
Twitter- ը | ԱՄՆ-ում կինոյի գրասենյակի եկամուտը | Asur and Huberman (2010) |
Որոնել տեղեկամատյանները | ԱՄՆ-ում ֆիլմերի, երաժշտության, գրքերի եւ վիդեո խաղերի վաճառք | Goel et al. (2010) |
Twitter- ը | Dow Jones Արդյունաբերական Միջին (ԱՄՆ ֆոնդային շուկա) | Bollen, Mao, and Zeng (2011) |
Սոցիալական մեդիա եւ որոնման տեղեկամատյաններ | Միացյալ Նահանգների, Միացյալ Թագավորության, Կանադայի եւ Չինաստանի ներդրողների զգացմունքների եւ ֆոնդային շուկաների հետազոտություններ | Mao et al. (2015) |
Որոնել տեղեկամատյանները | Սինգապուրում եւ Բանգկոկում Dengue Fever- ի տարածվածությունը | Althouse, Ng, and Cummings (2011) |
Վերջիվերջո, Ջոն Քլեյնբերգը եւ գործընկերները (2015) նշեցին, որ կանխատեսման խնդիրները բաժանվում են երկու, ենթադրաբար տարբեր կատեգորիաներով, եւ սոցիալական գիտնականները հակված են կենտրոնանալ մեկի վրա եւ անտեսել մյուսը: Պատկերացրեք մեկ քաղաքական գործիչ, ես նրան կանչում եմ Աննային, որը երաշտի դեմ է կանգնած եւ պետք է որոշի, թե արդյոք շաման վարձել, անձրեւի պար անել, անձրեւի ավելացման համար: Մեկ այլ քաղաքական գործիչ, ես նրան կոչ եմ անում Բեթիին, պետք է որոշի, թե արդյոք հովանոց ձեռք բերելու համար աշխատելու խուսափել տան ճանապարհին թաց լինելուց: Աննան եւ Բեթին կարող են ավելի լավ որոշումներ կայացնել, եթե նրանք հասկանան եղանակը, բայց նրանք պետք է իմանան տարբեր բաներ: Աննան պետք է հասկանա, թե արդյոք անձրեւի պարը անձրեւ է առաջացնում: Բեթը, մյուս կողմից, պատճառ չունի պատճառի մասին հասկանալու համար. նա պարզապես պետք է ճշգրիտ կանխատեսում: Սոցիալական հետազոտողները հաճախ կենտրոնանում են այնպիսի խնդիրների վրա, ինչպիսիք են Աննան, որը Կլեյնբերգը եւ գործընկերները կոչում են «անձրեւի նման պես» քաղաքականության խնդիրներ, քանի որ դրանք ներառում են պատճառահետեւանքային խնդիրներ: Բեթիին պատկանող այնպիսի հարցեր, որոնք Կլեյնբերգը եւ գործընկերները կոչում են «հովանու նման» քաղաքականության խնդիրներ, նույնպես կարող են շատ կարեւոր լինել, բայց շատ ավելի քիչ ուշադրություն են դարձրել սոցիալական հետազոտողների կողմից:
PS Political Science ամսագիրը սիմպոզիում էր ունեցել մեծ տվյալների, պատճառահետեւանքային եւ ֆորմալ տեսության վերաբերյալ, եւ Clark and Golder (2015) ամփոփում են յուրաքանչյուր ներդրումը: Ամերիկայի Միացյալ Նահանգների Գիտությունների ազգային ակադեմիայի գիտական տեղեկագիրն ունեցել է սիմպոզիում, պատճառահետեւանքային ելույթների եւ մեծ տվյալների մասին, իսկ Shiffrin (2016) ամփոփում է յուրաքանչյուր ներդրումը: Մեքենաների ուսուցման մոտեցումները, որոնք փորձում են ավտոմատ կերպով հայտնաբերել մեծ փորձարկումներ մեծ տվյալների աղբյուրների մեջ, տես Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , եւ Sharma, Hofman, and Watts (2016) :
Բնական փորձերի առումով, Dunning (2012) Ներկայացնում է ներածական, գիրքային վերաբերմունք, բազմաթիվ օրինակներ: Բնական փորձերի թերահավատորեն դիտարկելու համար տես Rosenzweig and Wolpin (2000) (տնտեսագիտություն) կամ Sekhon and Titiunik (2012) (քաղաքական գիտություն): Deaton (2010) եւ Heckman and Urzúa (2010) պնդում են, որ բնական փորձարկումների վրա կենտրոնանալը կարող է հանգեցնել հետազոտողներին ուշադրություն դարձնելու համար աննշան պատճառական հետեւանքների գնահատման վրա, Imbens (2010) այս փաստարկները հաշվարկում է բնական փորձերի արժեքի ավելի լավատեսական տեսքով:
Նկարագրելով, թե ինչպես հետազոտողը կարող է գնալ ծառայության արդյունքների գնահատման ազդեցությունը գնահատելու համար, ես նկարագրում եմ գործիքային փոփոխականներ կոչված տեխնիկան: Imbens and Rubin (2015) , իրենց 23-րդ եւ 24-րդ գլուխներում, ներկայացում են որպես ներածություն եւ օգտագործվում են որպես վիճակախաղի նախագիծ: Զինվորական ծառայության ազդեցությունը կոմպիլյատորների վրա երբեմն կոչվում է համադրող միջին պատճառական ազդեցություն (CAcE) եւ երբեմն տեղական միջին բուժման ազդեցությունը (LATE): Sovey and Green (2011) , Angrist and Krueger (2001) եւ Bollen (2012) առաջարկում են քաղաքագիտության, տնտեսագիտության եւ սոցիոլոգիայի գործիքային փոփոխականների օգտագործման վերաբերյալ ակնարկներ, իսկ « Sovey and Green (2011) տրամադրում է «ընթերցողի ստուգման ցուցակ» գնահատելով ուսումնասիրությունները, օգտագործելով գործիքային փոփոխականներ:
Ստացվում է, որ 1970-ի վիճակախաղը ոչ թե պատահականորեն պատահական չէր, կարճ շեղումներ մաքուր պատահականությունից (Fienberg 1971) : Berinsky and Chatfield (2015) պնդում են, որ այս փոքր շեղումը կարեւոր չէ եւ քննարկում է պատշաճ կատարված randomizations կարեւորությունը:
Համեմատության առումով տես Stuart (2010) լավատեսական վերանայման համար եւ Sekhon (2009) հոռետեսական վերանայման համար: Համեմատության համար ավելի շատ նմանատիպ մի հատիկացմամբ տես Ho et al. (2007) : Յուրաքանչյուր մարդու համար կատարյալ կատարյալ հանդիպում գտնելը հաճախ դժվար է, եւ դա բերում է մի շարք բարդություններ: Նախ, երբ ճշգրիտ հանդիպումները հնարավոր չէ, հետազոտողները պետք է որոշեն, թե ինչպես կարելի է չափել երկու միավորի միջեւ հեռավորությունը եւ եթե տվյալ հեռավորությունը բավականին մոտ է: Երկրորդ բարդությունը ծագում է, երբ հետազոտողները ցանկանում են բուժման խմբի յուրաքանչյուր դեպքի համար բազմակի հանդիպումներ օգտագործել, քանի որ դա կարող է հանգեցնել ավելի ճշգրիտ գնահատականների: Այս երկու հարցերը, ինչպես նաեւ ուրիշներ, մանրամասն նկարագրված են Imbens and Rubin (2015) 18-րդ գլուխներում: Տես նաեւ II մասի ( ??? ) :
Տես Dehejia and Wahba (1999) օրինակով, որտեղ համապատասխան մեթոդները կարողացան կազմել գնահատականներ, որոնք նման էին randomized վերահսկվող փորձից: Սակայն, տեսեք Arceneaux, Gerber, and Green (2006) եւ Arceneaux, Gerber, and Green (2010) օրինակներ, երբ համապատասխան մեթոդները չհաջողվեց վերարտադրել փորձարարական չափանիշ:
Rosenbaum (2015) եւ Hernán and Robins (2016) առաջարկում են այլ խորհուրդներ մեծ տվյալների աղբյուրների մեջ օգտակար համեմատություններ հայտնաբերելու համար: