ერთი ასეთი მეთოდი, რომელიც არ შედის ამ თავში, არის ეთნოგრაფია. მეტი ეთნოგრაფიის ციფრულ სივრცეებში, იხილეთ Boellstorff et al. (2012) , და მეტი ეთნოგრაფიის შერეული ციფრული და ფიზიკური სივრცეების, იხილეთ Lane (2016) .
"დიდი მონაცემები" არ არსებობს ერთიანი კონსენსუსის განსაზღვრა, მაგრამ ბევრი განმარტებები, როგორც ჩანს, "3 Vs": მოცულობა, მრავალფეროვნება და სიჩქარე (მაგ., Japec et al. (2015) ). იხილეთ De Mauro et al. (2015) განმარტებასთან დაკავშირებით.
ჩემი მონაცემებით ადმინისტრაციული მონაცემების დიდი ნაწილი კატეგორიაში დიდი ოდნავ უცნაურია, თუმცა Legewie (2015) გააკეთა ეს შემთხვევა, მათ შორის Legewie (2015) , Connelly et al. (2016) , და Einav and Levin (2014) . კვლევისთვის ადმინისტრაციული მონაცემების ღირებულების შესახებ უფრო მეტი ინფორმაციისთვის იხილეთ Card et al. (2010) , Adminstrative Data Taskforce (2012) , და Grusky, Smeeding, and Snipp (2015) .
მთავრობის სტატისტიკური სისტემის შიგნიდან ადმინისტრაციული კვლევის თვალსაზრისით, კერძოდ, აშშ-ს აღწერის ბიურო, იხილეთ Jarmin and O'Hara (2016) . შვედეთის სტატისტიკის დეპარტამენტის ადმინისტრაციული ჩანაწერების კვლევის წიგნის სიგრძეზე Wallgren and Wallgren (2007) .
თავი მე მოკლედ შევადარეთ ტრადიციულ კვლევას, როგორიცაა სოციალური კვლევის (GSS) სოციალური მედიის მონაცემთა წყარო, როგორიცაა Twitter. ტრადიციული კვლევებისა და სოციალური მედიის მონაცემებს შორის საფუძვლიანი და ფრთხილად შედარებისთვის, იხ. Schober et al. (2016) .
დიდი მონაცემების ეს 10 მახასიათებანი აღწერილია მრავალფეროვანი სხვადასხვა გზებით სხვადასხვა ავტორების მიერ. წერა, რომ გავლენა მოახდინა ჩემი აზროვნების ამ საკითხებზე მოიცავს Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , და Goldstone and Lupyan (2016) .
ამ თავში მთელი რიგი ციფრული კვალი , რომელიც მე ვფიქრობ შედარებით ნეიტრალურია. კიდევ ერთი პოპულარული ტერმინი ციფრული კვალი არის ციფრული ნაკვალევი (Golder and Macy 2014) , მაგრამ, როგორც Hal Abelson, Ken Ledeen და ჰარი Lewis (2008) აღვნიშნო, უფრო სწორი ტერმინი, ალბათ, ციფრული თითის ანაბეჭდები. როდესაც ქმნის ნაკვალევი, თქვენ იცით, რა ხდება და თქვენი ნაკვალევი ზოგადად არ შეიძლება აღმოჩნდეს პირადად. იგივე არ არის თქვენი ციფრული კვალი. სინამდვილეში, თქვენ ტოვებს ყველაფერს, რის შესახებაც ძალიან ცოტა ცოდნა გაქვთ. და მიუხედავად იმისა, რომ ეს კვალი არ აქვს თქვენი სახელი მათ, ისინი ხშირად უკავშირდება უკან თქვენ. სხვა სიტყვებით რომ ვთქვათ, ისინი თითის ანაბეჭდებივით არიან: უხილავი და პირადად იდენტიფიცირება.
უფრო მეტი ინფორმაციისთვის, თუ რამდენად მნიშვნელოვანია სტატისტიკური ტესტების პრობლემატიკა, იხ. M. Lin, Lucas, and Shmueli (2013) და McFarland and McFarland (2015) . ამ საკითხებმა უნდა გამოიწვიოს მკვლევარები ფოკალურ მნიშვნელობას და არა სტატისტიკურ მნიშვნელობას.
მეტი Mervis (2014) ჩეტი და კოლეგები საგადასახადო ჩანაწერებზე, იხილეთ Mervis (2014) .
მსხვილი მონაცემებით შეიძლება ასევე შექმნან კომპიუტერული სისტემები, რომლებიც ზოგადად ერთი კომპიუტერის შესაძლებლობების მიღმაა. ამდენად, მკვლევარები, რომლებიც დიდ მონაცემთა ბაზებზე აკეთებდნენ, ბევრ კომპიუტერზე მუშაობდნენ, პროცესი ზოგჯერ პარალელურ პროგრამას უწოდებდა. პარალელური პროგრამების დანერგვის მიზნით, კერძოდ, ენა ჰადოპად მოიხსენიება, Vo and Silvia (2016) .
მონაცემების მუდმივად განხილვისას მნიშვნელოვანია, განიხილოს თუ არა ზუსტად იმავე ადამიანების შედარება დროთა განმავლობაში ან შეადარებთ თუ არა ადამიანთა შეცვლის ჯგუფს; იხილეთ მაგალითად, Diaz et al. (2016) .
კლასიკური წიგნი nonreactive ზომები Webb et al. (1966) . ამ წიგნის მაგალითებს ციფრულ ასაკს მიაღწევენ, მაგრამ ჯერ კიდევ განათებული არიან. მაგალითისთვის, ადამიანების მიერ ქცევის შეცვლის გამო, მასობრივი დაკვირვების შედეგად, იხილეთ Penney (2016) და Brayne (2014) .
რეაქტიულობა მჭიდროდაა დაკავშირებული მკვლევართა მოთხოვნის შედეგებზე (Orne 1962; Zizzo 2010) და ჰოთორნის ეფექტი (Adair 1984; Levitt and List 2011) .
დამატებითი ინფორმაციისთვის იხილეთ Dunn (1946) და Fellegi and Sunter (1969) (ისტორიული) და Larsen and Winkler (2014) (თანამედროვე). მსგავსი მიდგომები ასევე შემუშავდა კომპიუტერულ მეცნიერებაში, როგორიცაა მონაცემთა deduplication, მაგალითად იდენტიფიკაცია, სახელი დამთხვევა, დუბლიკატი გამოვლენა და დუბლიკატის ჩანაწერის გამოვლენა (Elmagarmid, Ipeirotis, and Verykios 2007) . ასევე არსებობს კონფიდენციალურობის შენარჩუნების მიდგომები, რომლებიც დაკავშირებულია კავშირი, რომელიც არ საჭიროებს პირადობის იდენტიფიცირების ინფორმაციის გადაცემას (Schnell 2013) . Facebook- მა ასევე შეიმუშავა პროცესი, რათა დაარეგისტრიროს მათი ჩანაწერები კენჭისყრის ქცევაზე; ეს გაკეთდა იმ ექსპერიმენტის შესაფასებლად, რომელიც მე გეტყვით დაახლოებით თავი 4 (Bond et al. 2012; Jones et al. 2013) .
მშენებლობის მოქმედების უფრო მეტად, იხილეთ Shadish, Cook, and Campbell (2001) მე -3 თავი.
დამატებითი ინფორმაციისთვის AOL ძიების ჩასაწერად, იხილეთ Ohm (2010) . მე ვურჩევ რჩევებს, რომლებიც მეწარმეებსა და მთავრობებთან პარტნიორობის შესახებ მე -4 თავში მიუთითებენ. რიგი ავტორები გამოთქვამენ შეშფოთებას კვლევის შესახებ, რომელიც ეფუძნება მიუწვდომელ მონაცემებს, იხილეთ Huberman (2012) და boyd and Crawford (2012) .
ერთი კარგი გზა უნივერსიტეტის მკვლევარები შეიძინოს მონაცემების ხელმისაწვდომობის მუშაობა კომპანია სტაჟიორად ან გამოჩენის მკვლევარი. გარდა ამისა, საშუალებას იძლევა მონაცემების ხელმისაწვდომობა, ამ პროცესში ასევე დაეხმარება მკვლევარი მეტი, თუ როგორ მონაცემები შეიქმნა, რომელიც მნიშვნელოვანია ანალიზი.
მთავრობის მონაცემების ხელმისაწვდომობის თვალსაზრისით, Mervis (2014) განიხილავს რა როჟ ჩეტიმ და კოლეგებმა სოციალური მობილობის შესახებ კვლევაში გამოყენებული საგადასახადო ჩანაწერების ხელმისაწვდომობა.
Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) და Kruskal and Mosteller (1980) .
თოვლისა და გოკის თოვლისა და მუშაობის მოკლე მიმოხილვა მოკლედ იყო. უფრო მეტი თოვლის მუშაობის შესახებ ქოლერის შესახებ, იხილეთ Freedman (1991) . მეტი ბრიტანეთის ექიმების შესწავლა იხილეთ Doll et al. (2004) და Keating (2014) .
ბევრმა მკვლევარმა გაოცებული უნდა გაიგოს, რომ მიუხედავად იმისა, რომ თოჯინა და ჰილმა ქალი ექიმებისა და 35 წლამდე ექიმებისგან შეაგროვეს მონაცემები, ისინი განზრახ არ იყენებდნენ ამ მონაცემებს მათი პირველი ანალიზით. როგორც ისინი ამტკიცებდნენ: "ვინაიდან ფილტვის კიბოს შედარებით იშვიათია ქალების და მამაკაცების 35 წლამდე, სასარგებლო მოღვაწეები ნაკლებად სავარაუდოა, რომ ამ ჯგუფებში გარკვეული წლების განმავლობაში მოვიდეს. აქედან გამომდინარე, ამ წინასწარ ანგარიშში ჩვენ 35 Rothman, Gallacher, and Hatch (2013) უფროსი ასაკის ადამიანთა ყურადღებას Rothman, Gallacher, and Hatch (2013) " Rothman, Gallacher, and Hatch (2013) , რომელსაც პროვოკაციული სათაური აქვს" რატომ უნდა ავიცილოთ წარმომადგენლობა ", უფრო ზოგადი არგუმენტი განზრახ ქმნის არაპროპორციულ მონაცემებს.
Nonrepresentativeness არის მთავარი პრობლემა მკვლევარები და მთავრობები, რომელთაც სურთ გააკეთონ განცხადებები მთელი მოსახლეობის შესახებ. ეს ნაკლებად შეშფოთებულია კომპანიებისთვის, რომლებიც, როგორც წესი, ფოკუსირებული არიან თავიანთ მომხმარებლებზე. უფრო მეტი სტატისტიკის შესახებ, როგორებიცაა ნიდერლანდები ბიზნესის დიდი მონაცემების nonrepresentativeness საკითხი, იხ Buelens et al. (2014) .
მკვლევართა მაგალითების გამოხატვა შეშფოთებას გამოხატავს დიდი მონაცემთა წყაროების არა-წარმომადგენლობითი ხასიათის შესახებ, იხილეთ boyd and Crawford (2012) , K. Lewis (2015b) და Hargittai (2015) .
სოციოლოგიური გამოკვლევებისა და ეპიდემიოლოგიური კვლევების მიზნების უფრო დეტალურად, იხილეთ Keiding and Louis (2016) .
Twitter- ზე უფრო მეტი ძალისხმევა ამომრჩეველთა შესახებ Jungherr (2013) ამომრჩეველთა განზოგადების, განსაკუთრებით კი 2009 წლის გერმანიის არჩევის შემთხვევაში, იხილეთ Jungherr (2013) და Jungherr (2015) . შემდგომი მუშაობის Tumasjan et al. (2010) მკვლევარები მთელს მსოფლიოში იყენებენ ფსიქოლოგიის მეთოდებს, როგორიცაა განწყობის ანალიზის გამოყენებით პარტიების დადებითი და უარყოფითი (Gayo-Avello 2013; Jungherr 2015, chap. 7.) - არჩევნების სხვადასხვა ტიპის პროგნოზების პროგნოზირებისთვის Twitter- ის მონაცემების გაუმჯობესების მიზნით (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . აქ Huberty (2015) შეაჯამა არჩევნების პროგნოზირების ამ მცდელობების შედეგები:
"ყველა ცნობილი პროგნოზირების მეთოდები, რომლებიც დაფუძნებულია სოციალურ მედიაზე, ვერ მოხერხდა, როდესაც რეალური პროგნოზირების პროგნოზირების მოთხოვნები ექვემდებარება. ეს ჩავარდნები გამოწვეულია სოციალური მედიის ფუნდამენტური თვისებების გამო, ვიდრე მეთოდოლოგიური ან ალგორითმული სირთულეები. მოკლედ, სოციალურ მედიას არ აქვს და, ალბათ, არასდროს მოვახდენთ ამომრჩეველთა სტაბილური, მიუკერძოებელი, წარმომადგენლობითი სურათი; და სოციალური მედიის კომფორტული ნიმუშები არ გააჩნიათ საკმარისი მონაცემები ამ პრობლემების გადასაჭრელად. "
მე -3 თავის მე -3 ნაწილში მე დეტალებს ვგულისხმობ შერჩევასა და შეფასებას. მაშინაც კი, თუ მონაცემები არაპროფესიონალიანია, გარკვეულ პირობებში შეიძლება შეწონილი იყოს კარგი შეფასებები.
სისტემის დრიფტი ძალიან ძნელია გარეთ გარედან. თუმცა, ფილმების კინემატოგრაფის პროექტი (განხილულია მე -4 თავი) უკვე 15 წელზე მეტია აკადემიური კვლევითი ჯგუფის მიერ. ამდენად, მათ შეძლეს დოკუმენტურად და გაუზიარონ ინფორმაცია იმის შესახებ, თუ როგორ მოხდა სისტემის დროთა განმავლობაში და როგორ შეიძლება გავლენა მოახდინოს ანალიზზე (Harper and Konstan 2015) .
რიგი მკვლევარებმა ყურადღება გაამახვილეს Twitter- ში: Liu, Kliman-Silver, and Mislove (2014) და Tufekci (2014) .
ერთი მიდგომა, რომელიც ეხება მოსახლეობის რჩევას, წარმოადგენს მომხმარებელთა პანელს, რომელიც საშუალებას აძლევს მკვლევარებს დროულად შეისწავლონ იგივე ადამიანები, იხ. Diaz et al. (2016) .
მე პირველად მოვისმინე ტერმინი "ალგორითმურად დაბნეული", რომელიც გამოიყენებოდა ჯონ კლინბერგის მიერ საუბრისას, მაგრამ სამწუხაროდ, არ მახსოვს როდის და სად იყო საუბარი. პირველად, რომ ვნახე ვადაში ბეჭდვითი იყო Anderson et al. (2015) , რომელიც საინტერესოა იმის შესახებ, თუ როგორ შეიძლება გამოყენებულ იქნას ალგორითმები დათარიღებული ადგილების მიერ, რაც ართულებს მკვლევართა შესაძლებლობას გამოიყენოს მონაცემები ამ ვებ-გვერდებზე სოციალური შეხედულების შესასწავლად. ეს შეშფოთება დადგა K. Lewis (2015a) Anderson et al. (2014) .
გარდა იმისა, რომ Facebook, Twitter ასევე რეკომენდაციას ხალხი წევრებს დაიცვას საფუძველზე იდეა triadic დახურვა; იხ Su, Sharma, and Goel (2016) . ასე, რომ ტრიდიკულ დახურვა Twitter- ში არის ტრიდიკულ დახურვასთან დაკავშირებული ზოგიერთი ტენდენციისა და ტრიდიკულ დახურვასთან დაკავშირებული ზოგიერთი ალგორითმის ტენდენციის კომბინაცია.
უფრო მეტიც, რომ იდეა, რომ ზოგიერთი სოციალური მეცნიერებების თეორიები "ძრავები არა კამერები" (ანუ ისინი ქმნიან მსოფლიოს, ვიდრე უბრალოდ აღწერს) - სე Mackenzie (2008) .
სამთავრობო სტატისტიკური უწყებები მონაცემების დასუფთავების სტატისტიკური მონაცემების რედაქციას უწოდებენ. De Waal, Puts, and Daas (2014) აღწერს სტატისტიკური მონაცემების რედაქტირების მეთოდებს, რომლებიც შემუშავებულია კვლევის მონაცემებისთვის და შეისწავლის იმ ზომებს, რომლებსაც ისინი იყენებენ დიდ მონაცემთა წყაროებს და Puts, Daas, and Waal (2015) წარმოგიდგენთ იმავე იდეებს უფრო ზოგადი აუდიტორია.
სოციალური ბოტების მიმოხილვისთვის, იხილეთ Ferrara et al. (2016) . ზოგიერთი მაგალითისთვის, რომელიც ორიენტირებულია Spam- ში, Twitter- ზე მოძიებაზე, იხილეთ Clark et al. (2016) და Chu et al. (2012) . საბოლოოდ, Subrahmanian et al. (2016) აღწერს შედეგებს DARPA Twitter Bot გამოწვევა, მასობრივი თანამშრომლობა შექმნილია შედარების მიდგომები გამოვლენის წერილების შესახებ Twitter.
Ohm (2015) განიხილავს ადრე კვლევის შესახებ იდეა მგრძნობიარე ინფორმაცია და გთავაზობთ მრავალ ფაქტორს ტესტი. ოთხი ფაქტორი ის არის ის, რომ ის ზიანს აყენებს ზიანს, ზიანის ალბათობას, კონფიდენციალური ურთიერთობის არსებობას, და რისკი ასახავს მაჟორიტარულ შეშფოთებას.
ნიუ-იორკში ფარერის მიერ ჩატარებული ტაქსების შესწავლა Camerer et al. (1997) მიერ ადრე შესწავლას Camerer et al. (1997) რომელიც სამი განსხვავებული ნიმუშის ნიმუშების ქაღალდის მოგზაურობის ფურცლებს იყენებდა. წინამდებარე კვლევამ აჩვენა, რომ მძღოლები, როგორც ჩანს, მიზნობრივი შემოსავლები იყვნენ: ისინი ნაკლებად მუშაობდნენ იმ დღეებში, სადაც მათი ხელფასები უფრო მაღალი იყო.
მომდევნო ნაწარმოებში, მეფე და კოლეგებმა კიდევ უფრო შეისწავლეს ონლაინ ცენზურა ჩინეთში (King, Pan, and Roberts 2014, [@king_how_2016] ) . ჩინეთში ონლაინ ცენზურის გაზომვის კუთხით, იხილეთ Bamman, O'Connor, and Smith (2012) . მეტი სტატისტიკური მეთოდები, როგორიცაა King, Pan, and Roberts (2013) 11 მილიონი პოსტის განწყობის შესაფასებლად, იხილეთ Hopkins and King (2010) . მეტი ზედამხედველობითი სწავლის, იხილეთ James et al. (2013) (ნაკლებად ტექნიკური) და Hastie, Tibshirani, and Friedman (2009) (უფრო ტექნიკური).
პროგნოზირება ინდუსტრიული მონაცემების მეცნიერების დიდი ნაწილია (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . ერთი ტიპის პროგნოზირება, რომელიც საყოველთაოდ გაკეთებულია სოციალური მკვლევარების მიერ არის დემოგრაფიული პროგნოზირება; იხილეთ, მაგალითად, Raftery et al. (2012) .
Google Flu ტენდენციები არ ყოფილა პირველი პროექტი, რომელიც იყენებს მონაცემების გამოყენებას nowcast გრიპის პრევალენტობისთვის. სინამდვილეში, აშშ-ში მკვლევარები (Polgreen et al. 2008; Ginsberg et al. 2009) და შვედეთი (Hulth, Rydevik, and Linde 2009) აღმოაჩინეს, რომ გარკვეული საძიებო ტერმინები (მაგალითად, "გრიპი") პროგნოზირებული იყო საზოგადოებრივი ჯანდაცვის სახელმწიფო ზედამხედველობის მონაცემები მანამდე გაათავისუფლეს. შემდგომში ბევრ სხვა პროექტს შეეცადა გამოეყენებინა ციფრული კვალი მონაცემები დაავადების მეთვალყურეობის გამოვლენის მიზნით; იხილეთ Althouse et al. (2015) მიმოხილვა.
ციფრული კვალი მონაცემების გამოყენების გარდა, ჯანმრთელობის შედეგების პროგნოზირებისთვის, ასევე დიდი რაოდენობით მუშაობდა Twitter მონაცემებით, რათა მოხდეს არჩევნების შედეგების პროგნოზირება; მიმოხილვა იხილეთ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (თავი 7), და Huberty (2015) . ეკონომიკური მაჩვენებლების ნოვატორიზაცია, როგორიცაა მთლიანი შიდა პროდუქტი (მთლიანი შიდა პროდუქტი), ასევე ცენტრალურ ბანკებში არის საერთო, იხილეთ Bańbura et al. (2013) . ცხრილი 2.8 შეიცავს რამოდენიმე მაგალითს, რომლებიც გამოიყენებენ გარკვეულ ციფრულ მონაცემებს მსოფლიოს ზოგიერთ ღონისძიებაზე.
ციფრული კვალი | შედეგი | ციტირება |
---|---|---|
ყუთების საოფისე შემოსავლები აშშ-ში | Asur and Huberman (2010) | |
ძიების ჟურნალი | ფილმების, მუსიკის, წიგნების და ვიდეო თამაშების გაყიდვები აშშ-ში | Goel et al. (2010) |
დოუ ჯონსის ინდუსტრიული საშუალო (აშშ საფონდო ბაზარი) | Bollen, Mao, and Zeng (2011) | |
სოციალური მედია და ძებნის ჟურნალები | ინვესტორთა განწყობისა და საფონდო ბაზრების კვლევები შეერთებულ შტატებში, გაერთიანებულ სამეფოში, კანადასა და ჩინეთში | Mao et al. (2015) |
ძიების ჟურნალი | სინგაპურსა და ბანგკოკში დენგუის სიხშირის გავრცელება | Althouse, Ng, and Cummings (2011) |
საბოლოოდ, ჯონ კლიენბერგმა და კოლეგებმა (2015) აღნიშნა, რომ პროგნოზირების პრობლემები ორ, ძნელად განსხვავებულ კატეგორიებად გადაქცევდა და სოციალური მეცნიერები ერთმანეთს ყურადღებას ამახვილებენ და მეორეზე უგულებელყოფენ. წარმოიდგინეთ ერთი პოლიტიკოსი, მე მოვუწოდებ მას ანა, რომელიც გვალვის წინაშე დგას და უნდა გადაწყვიტოს თუ არა შამანი დაიქირავოს წვიმის ცეკვა, რომ გაიზარდოს წვიმის შანსი. კიდევ ერთი პოლიტიკოსი, მე მოვუწოდებ მისი Betty, უნდა გადაწყვიტოს თუ არა მიიღოს ქოლგა მუშაობა, რათა თავიდან ავიცილოთ მიღების სველი გზაზე სახლში. ანა და ბეტიმ შეიძლება უკეთესი გადაწყვეტილება მიიღონ, თუ ისინი ამინდის გაგებას, მაგრამ მათ უნდა იცოდნენ განსხვავებული რამ. ანა უნდა გაიგოს, წვიმის ცეკვა იწვევს თუ არა წვიმს. Betty, მეორეს მხრივ, არ უნდა გვესმოდეს არაფერი მიზეზით; მას მხოლოდ ზუსტი პროგნოზი სჭირდება. სოციალური მკვლევარები ხშირად ფოკუსირებულნი არიან ისეთ პრობლემებზე, როგორიცაა ანა, რომელიც კლეინბერგს და კოლეგებს "წვიმის ცეკვის მსგავსი" პოლიტიკის პრობლემებს უწოდებენ, რადგანაც ისინი მიზეზების შესახებ კითხვებს ასახელებენ. კითხვები, როგორიცაა ბეტი, რომელსაც კლეინბერგი და კოლეგები "ქოლგის მსგავსი" პოლიტიკის პრობლემებს უწოდებენ, შეიძლება საკმაოდ მნიშვნელოვანი იყოს, მაგრამ სოციალური მეცნიერებისაგან ბევრად ნაკლები ყურადღება მიაქციეს.
ჟურნალი PS პოლიტიკურ მეცნიერებათა დიდი სიმბოლო იყო დიდი მონაცემები, მიზეზობრივი დასკვნა და ფორმალური თეორია და Clark and Golder (2015) შეაჯამეს თითოეული წვლილი. ამერიკის შეერთებული შტატების მეცნიერებათა ეროვნული აკადემიის Shiffrin (2016) ჰქონდათ სიმპოზიუმი მიზეზობრივი დასკვნისა და დიდი მონაცემების შესახებ, ხოლო Shiffrin (2016) აჯამებს თითოეულ წვლილს. მანქანათმცოდნეობის მისაღწევად, რომელიც ცდილობენ ავტომატურად აღმოაჩინონ ბუნებრივი ექსპერიმენტები დიდი მონაცემთა წყაროების შიგნით, იხილეთ Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , და Sharma, Hofman, and Watts (2016) .
ბუნებრივი ექსპერიმენტების თვალსაზრისით, Dunning (2012) უზრუნველყოფს შესავალი, წიგნის სიგრძე მკურნალობას მრავალი მაგალითით. ბუნებრივი ექსპერიმენტების სკეპტიკური თვალსაზრისით იხილეთ Rosenzweig and Wolpin (2000) (ეკონომიკა) ან Sekhon and Titiunik (2012) (პოლიტიკური მეცნიერება). Deaton (2010) და Heckman and Urzúa (2010) ამტკიცებენ, რომ ბუნებრივი ექსპერიმენტების ფოკუსირება შეიძლება გამოიწვიოს მკვლევარებს, ყურადღება გაამახვილონ არახელსაყრელი მიზეზების ეფექტიანობაზე; Imbens (2010) ამ არგუმენტებს ბუნებრივი ექსპერიმენტების ღირებულების უფრო ოპტიმისტურ ხედვას Imbens (2010) .
როდესაც აღწერს თუ როგორ მკვლევარს შეეძლო ემსახურებოდა ეფექტი ემსახურება ეფექტი ემსახურება, მე აღწერს ტექნიკა მოუწოდა ინსტრუმენტული ცვლადები . Imbens and Rubin (2015) და 24-ე თავებში, Imbens and Rubin (2015) დანერგვასა და გამოყენებას. დამსაქმებელთა სამხედრო სამსახურის ეფექტი ზოგჯერ უწოდებენ შესაბამის გამომწვევ მიზეზობრივ ეფექტს (CACE) და ხანდახან ადგილობრივ საშუალო მკურნალობის ეფექტი (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , და Bollen (2012) გთავაზობთ მიმოხილვას ინსტრუმენტული ცვლადების გამოყენებას პოლიტიკურ მეცნიერებაში, ეკონომიკაში და სოციოლოგიაში და Sovey and Green (2011) უზრუნველყოფს "მკითხველის ჩამონათვალი" სწავლის შეფასების ინსტრუმენტული ცვლადების გამოყენებით.
აღმოჩნდება, რომ 1970 წლის ლატარიის არ იყო, ფაქტობრივად სწორად რანდომიზებული; იყო პატარა გადახრები სუფთა შემთხვევითობისგან (Fienberg 1971) . Berinsky and Chatfield (2015) ამტკიცებს, რომ ეს მცირე გადახრა არ არის არსებითად მნიშვნელოვანი და განიხილოს მნიშვნელობა სწორად ჩატარებული randomization.
შესატყვისობის თვალსაზრისით, იხილეთ Stuart (2010) ოპტიმისტური მიმოხილვისა და Sekhon (2009) პესიმისტური მიმოხილვისთვის. უფრო მეტი შესატყვისი, როგორც სახის pruning, ვხედავ Ho et al. (2007) . თითოეული პირისთვის ერთხელადაა დამკვიდრებული მატჩი ხშირად რთულია, და ეს რამდენიმე სირთულეა. პირველი, როდესაც ზუსტი მატჩები არ არის ხელმისაწვდომი, მკვლევარებმა უნდა გადაწყვიტონ, თუ როგორ გავზომოთ მანძილი ორ ერთეულს შორის და თუ ეს მანძილი ახლოს არის საკმარისი. მეორე სირთულე წარმოიქმნება, თუ მკვლევარები გვინდა, რომ თითოეულ შემთხვევაში მკურნალობის ჯგუფში გამოვიყენოთ მრავალი მატჩი, რადგან ეს შეიძლება უფრო ზუსტი შეფასებებით გამოვიდეს. ორივე ეს საკითხი, ისევე როგორც სხვ., დეტალურადაა აღწერილი Imbens and Rubin (2015) . იხილეთ აგრეთვე II ნაწილი ( ??? ) .
იხ. Dehejia and Wahba (1999) , სადაც დამუშავებული მეთოდები შეძლებდნენ რანდომიზებული კონტროლირებად ექსპერიმენტთან შედარებით. თუმცა, იხილეთ Arceneaux, Gerber, and Green (2006) და Arceneaux, Gerber, and Green (2010) მაგალითები, სადაც შესაბამისი მეთოდები ვერ მოხერხდა ექსპერიმენტული ბენჩმარკის რეპროდუცირებაზე.
Rosenbaum (2015) და Hernán and Robins (2016) გთავაზობთ სხვა რჩევებს სასარგებლო შედარებებით გამოვლენაში დიდი მონაცემთა წყაროებიდან.