Ang isang uri ng pagmamasid na hindi kasama sa kabanatang ito ay ethnography. Para sa higit pa sa etnograpya sa mga digital na puwang, tingnan ang Boellstorff et al. (2012) , at para sa higit pa sa etnograpya sa magkahalong digital at pisikal na puwang, tingnan ang Lane (2016) .
Walang isang pinagkaisahang kahulugan ng "malaking data," ngunit maraming mga kahulugan ang tila tumutuon sa "3 Vs": dami, iba't, at bilis (hal., Japec et al. (2015) ). Tingnan ang De Mauro et al. (2015) para sa pagsusuri ng mga kahulugan.
Ang pagsasama ko ng data ng administrasyon ng pamahalaan sa kategorya ng malaking data ay hindi karaniwan, kahit na ang iba ay gumawa din ng kasong ito, kabilang ang Legewie (2015) , Connelly et al. (2016) , at Einav and Levin (2014) . Para sa higit pa tungkol sa halaga ng data ng administratibong pamahalaan para sa pananaliksik, tingnan ang Card et al. (2010) , Adminstrative Data Taskforce (2012) , at Grusky, Smeeding, and Snipp (2015) .
Para sa isang pagtingin sa administratibong pananaliksik mula sa loob ng statistical system ng pamahalaan, lalo na sa US Census Bureau, tingnan ang Jarmin and O'Hara (2016) . Para sa isang libro-haba na paggamot ng mga pananaliksik ng mga rekord ng rekord sa Statistics Sweden, tingnan ang Wallgren and Wallgren (2007) .
Sa kabanata, maikli kong inihambing ang tradisyunal na survey tulad ng General Social Survey (GSS) na may pinagmulan ng data ng social media tulad ng Twitter. Para sa isang masusing at maingat na paghahambing sa pagitan ng mga tradisyunal na survey at data ng social media, tingnan ang Schober et al. (2016) .
Ang mga 10 katangian ng malaking data ay inilarawan sa iba't ibang mga paraan sa pamamagitan ng iba't ibang iba't ibang mga may-akda. Ang pagsulat na nakaimpluwensya sa aking pag-iisip sa mga isyung ito ay kinabibilangan ng Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , at Goldstone and Lupyan (2016) .
Sa buong kabanatang ito, ginamit ko ang terminong digital na bakas , na sa palagay ko ay medyo neutral. Ang isa pang sikat na termino para sa mga digital na bakas ay ang mga digital footprint (Golder and Macy 2014) , ngunit bilang Hal Abelson, Ken Ledeen, at Harry Lewis (2008) ituro, ang isang mas angkop na term ay marahil digital na mga fingerprint . Kapag lumikha ka ng mga bakas ng paa, alam mo kung ano ang nangyayari at ang iyong mga bakas ng paa ay hindi maaaring masusunod sa iyo mismo ng iyong mga footprint. Ang parehong ay hindi totoo para sa iyong mga digital na bakas. Sa katunayan, iniiwan mo ang mga bakas sa lahat ng oras kung saan mayroon kang napakaliit na kaalaman. At, bagaman ang mga bakas na ito ay wala ang iyong pangalan sa mga ito, maaari silang madalas na maiugnay sa iyo. Sa madaling salita, ang mga ito ay mas katulad ng mga fingerprints: hindi nakikita at personal na pagkilala.
Para sa higit pa sa kung bakit ang mga malalaking dataset ay nagbibigay ng mga pagsubok sa istatistikang problema, tingnan ang M. Lin, Lucas, and Shmueli (2013) at McFarland and McFarland (2015) . Ang mga isyung ito ay dapat na humantong sa mga mananaliksik upang tumuon sa mga praktikal na kabuluhan sa halip na statistical kabuluhan.
Para sa higit pa tungkol sa kung paano makuha ni Raj Chetty at mga kasamahan ang access sa mga talaan ng buwis, tingnan ang Mervis (2014) .
Ang mga malalaking dataset ay maaari ring lumikha ng mga problema sa computational na sa pangkalahatan ay lampas sa mga kakayahan ng isang computer. Samakatuwid, ang mga mananaliksik na gumagawa ng mga pag-compute sa mga malalaking dataset ay madalas na kumalat sa trabaho sa maraming mga computer, isang proseso kung minsan ay tinatawag na parallel programming . Para sa isang pagpapakilala sa parallel programming, sa partikular na isang wika na tinatawag na Hadoop, tingnan ang Vo and Silvia (2016) .
Kapag isinasaalang-alang ang data na laging, mahalaga na isaalang-alang kung ikaw ay naghahambing sa eksaktong parehong mga tao sa paglipas ng panahon o kung iyong hinahambing ang ilang pagbabago ng grupo ng mga tao; tingnan ang halimbawa, Diaz et al. (2016) .
Ang isang klasikong aklat sa mga di-aktibong hakbang ay ang Webb et al. (1966) . Ang mga halimbawa sa aklat na iyon ay nanguna sa digital age, ngunit nagpapaliwanag pa rin ang mga ito. Para sa mga halimbawa ng mga taong nagbabago ng kanilang pag-uugali dahil sa pagkakaroon ng mass surveillance, tingnan ang Penney (2016) at Brayne (2014) .
Ang reaktibiti ay malapit na nauugnay sa kung ano ang tinatawag ng mga mananaliksik na mga epekto ng demand (Orne 1962; Zizzo 2010) at ang Hawthorne effect (Adair 1984; Levitt and List 2011) .
Para sa higit pa sa linkage linkage, tingnan Dunn (1946) at Fellegi and Sunter (1969) (makasaysayang) at Larsen and Winkler (2014) (modernong). Ang mga katulad na pamamaraan ay binuo din sa agham ng computer sa ilalim ng mga pangalan tulad ng data deduplication, pagkakakilanlan ng pagkakataon, pagtutugma ng pangalan, duplicate detection, at duplicate detection record (Elmagarmid, Ipeirotis, and Verykios 2007) . Mayroon ding mga diskarte sa pagpapanatili ng pagkapribado upang magtala ng linkage na hindi nangangailangan ng pagpapadala ng personal na pagkilala ng impormasyon (Schnell 2013) . Ang Facebook ay bumuo din ng isang proseso upang maiugnay ang kanilang mga tala sa pag-uugali ng pagboto; ito ay ginawa upang masuri ang isang eksperimento na sasabihin ko sa iyo tungkol sa kabanata 4 (Bond et al. 2012; Jones et al. 2013) .
Para sa higit pa sa pagtatayo ng bisa, tingnan ang kabanata 3 ng Shadish, Cook, and Campbell (2001) .
Para sa higit pa sa debug ng paghahanap ng AOL, tingnan ang Ohm (2010) . Nag-aalok ako ng payo tungkol sa pakikisosyo sa mga kumpanya at pamahalaan sa kabanata 4 kapag naglalarawan ako ng mga eksperimento. Ang isang bilang ng mga may-akda ay nagpahayag ng mga alalahanin tungkol sa pananaliksik na umaasa sa hindi ma-access na data, tingnan ang Huberman (2012) at boyd and Crawford (2012) .
Isang mabuting paraan para sa unibersidad mananaliksik upang kumuha ng data access ay upang gumana sa isang kumpanya bilang isang makulong o pagbisita researcher. Sa karagdagan sa pagpapagana ng access sa data, ang prosesong ito ay makakatulong din sa mga researcher matuto nang higit pa tungkol sa kung paano ang data ay nilikha, kung saan ay mahalaga para sa pagtatasa.
Sa mga tuntunin ng pagkakaroon ng pag-access sa data ng pamahalaan, Mervis (2014) kung paano nakuha ni Raj Chetty at mga kasamahan ang access sa mga talaan ng buwis na ginamit sa kanilang pananaliksik sa panlipunang kadaliang-kilos.
Para sa higit pa sa kasaysayan ng "representativeness" bilang isang konsepto, tingnan ang Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , at Kruskal and Mosteller (1980) .
Ang mga buod ko sa trabaho ni Snow at ang gawain ng Doll at Hill ay maikli. Para sa higit pa sa trabaho ni Snow sa kolera, tingnan ang Freedman (1991) . Para sa higit pa sa Pag-aaral ng mga Doktor sa Britanya tingnan ang Doll et al. (2004) at Keating (2014) .
Maraming mananaliksik ay mabigla upang malaman na kahit na ang Doll at Hill ay nakolekta ang data mula sa mga babaeng doktor at mula sa mga doktor sa ilalim ng 35, sinasadya nilang hindi ginagamit ang data na ito sa kanilang unang pagtatasa. Bilang argued sila: "Dahil ang kanser sa baga ay relatibong bihirang sa mga kababaihan at lalaki sa ilalim ng 35, ang mga kapaki-pakinabang na numero ay hindi maaaring makuha sa mga grupong ito para sa ilang taon na darating. Sa ganitong preliminary report, nakuha na namin ang aming pansin sa mga lalaki na nasa edad na 35 at mas mataas. " Rothman, Gallacher, and Hatch (2013) , na may pamagat na nakakapagsalita na" Bakit dapat na iwasan ang representatibo, "gumawa ng mas pangkalahatang argumento para sa halaga ng sadyang paglikha ng di-naghahatid ng data.
Ang hindi paghahayag ay isang pangunahing problema para sa mga mananaliksik at gobyerno na nais gumawa ng mga pahayag tungkol sa isang buong populasyon. Ito ay mas mababa sa isang pag-aalala para sa mga kumpanya, na kung saan ay karaniwang nakatuon sa kanilang mga gumagamit. Para sa higit pa tungkol sa kung paano isinasaalang-alang ng Statistics Netherlands ang isyu ng hindi nagpahayag ng malaking data ng negosyo, tingnan ang Buelens et al. (2014) .
Para sa mga halimbawa ng mga mananaliksik na nagpapahayag ng pag-aalala tungkol sa di-kinatawan na kalikasan ng mga malalaking data source, tingnan ang boyd and Crawford (2012) , K. Lewis (2015b) , at Hargittai (2015) .
Para sa isang mas detalyadong paghahambing ng mga layunin ng mga social survey at epidemiological research, tingnan ang Keiding and Louis (2016) .
Para sa higit pa sa mga pagtatangka na gamitin ang Twitter upang gumawa ng mga pangkalahatang Jungherr (2013) tungkol sa mga botante, lalo na ang kaso mula sa 2009 na Aleman na halalan, tingnan ang Jungherr (2013) at Jungherr (2015) . Kasunod sa gawain ng Tumasjan et al. (2010) mananaliksik sa buong mundo ay gumamit ng mga paraan ng pagnanasa-tulad ng paggamit ng pagtatasa ng damdamin upang makilala ang positibo at negatibong pagbanggit ng mga partido-upang mapagbuti ang kakayahan ng data ng Twitter upang mahulaan ang iba't ibang uri ng mga halalan (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Narito kung paano Huberty (2015) ang mga resulta ng mga pagtatangka na mahulaan ang mga halalan:
"Ang lahat ng mga kilalang paraan ng pagtataya na nakabatay sa social media ay nabigo kapag nasasailalim sa mga hinihingi ng tunay na pagtingin sa hinaharap na elektoral. Lumilitaw ang mga pagkabigo na ito dahil sa mga pangunahing katangian ng social media, sa halip na sa mga pamamaraan o mga problema sa algorithm. Sa maikling salita, ang social media ay hindi, at marahil ay hindi kailanman, ay nag-aalok ng isang matatag, walang pinapanigan, kinatawan larawan ng mga manghahalal; at mga halimbawa ng kaginhawaan ng social media ay walang sapat na data upang ayusin ang mga problemang ito post hoc. "
Sa kabanata 3, ilalarawan ko ang sampling at kuru-kuro sa mas malaking detalye. Kahit na ang data ay hindi representante, sa ilalim ng ilang mga kondisyon, maaari silang timbangin upang makabuo ng mga magagandang pagtatantya.
Ang paglipad ng system ay napakahirap upang makita mula sa labas. Gayunpaman, ang proyekto ng MovieLens (tinalakay nang higit pa sa kabanata 4) ay tumakbo nang higit sa 15 taon sa pamamagitan ng isang pangkat na pang-akademikong pananaliksik. Kaya, nakapag-dokumento at nagbahagi ng impormasyon tungkol sa paraan na lumaki ang sistema sa paglipas ng panahon at kung paano ito maaaring makaapekto sa pagtatasa (Harper and Konstan 2015) .
Ang isang bilang ng mga iskolar ay nakatutok sa Liu, Kliman-Silver, and Mislove (2014) sa Twitter: Liu, Kliman-Silver, and Mislove (2014) at Tufekci (2014) .
Ang isang diskarte sa pakikitungo sa populasyon ay lumilikha ng isang panel ng mga gumagamit, na nagpapahintulot sa mga mananaliksik na pag-aralan ang parehong mga tao sa paglipas ng panahon, tingnan ang Diaz et al. (2016) .
Nalaman ko muna ang terminong "nakakalito sa algorithm" na ginamit ni Jon Kleinberg sa isang pahayag, ngunit sa kasamaang palad ay hindi ko maalala kung kailan o kung saan ibinigay ang pahayag. Sa unang pagkakataon na nakita ko ang salitang naka-print ay nasa Anderson et al. (2015) , na kung saan ay isang kagiliw-giliw na talakayan kung paano ang mga algorithm na ginagamit ng mga dating site ay maaaring magpagulo mga kakayahan ng mga mananaliksik upang gamitin ang data mula sa mga website na ito upang pag-aralan ang mga kagustuhan sa lipunan. Ang pag-aalala na ito ay itinataas ni K. Lewis (2015a) bilang tugon sa Anderson et al. (2014) .
Bilang karagdagan sa Facebook, inirerekomenda ng Twitter ang mga tao para sa mga gumagamit na sundin batay sa ideya ng triadic na pagsasara; tingnan ang Su, Sharma, and Goel (2016) . Kaya ang antas ng triad na pagsasara sa Twitter ay isang kumbinasyon ng ilang mga pagkahilig ng tao patungo sa triadic pagsasara at ilang mga algorithmic ugali upang itaguyod ang triadic pagsasara.
Para sa higit pa sa pagganap-lalo na ang ideya na ang ilang mga teorya ng agham panlipunan ay "mga engine na hindi camera" (ibig sabihin, hinuhubog nila ang mundo sa halip na naglalarawan dito) -see Mackenzie (2008) .
Ang mga ahensya ng pamahalaan na statistical ay tumawag sa paglilinis ng istatistika sa pag-edit ng data . Inilalarawan ng De Waal, Puts, and Daas (2014) statistical data editing techniques na binuo para sa data ng survey at suriin ang lawak kung saan naaangkop ang mga ito sa mga malalaking data source, at ang Puts, Daas, and Waal (2015) nagpapakita ng ilan sa mga parehong ideya para sa isang mas pangkalahatang madla.
Para sa isang pangkalahatang-ideya ng mga social bot, tingnan ang Ferrara et al. (2016) . Para sa ilang mga halimbawa ng pag-aaral na nakatuon sa paghahanap ng spam sa Twitter, tingnan ang Clark et al. (2016) at Chu et al. (2012) . Panghuli, Subrahmanian et al. (2016) ilarawan ang mga resulta ng DARPA Twitter Bot Challenge, isang kolaborasyong masa na idinisenyo upang ihambing ang mga diskarte para sa pag-detect ng mga bot sa Twitter.
Ohm (2015) sinusuri ang naunang pananaliksik sa ideya ng sensitibong impormasyon at nag-aalok ng isang multi-factor test. Ang apat na salik na kanyang hinihikayat ay ang magnitude ng pinsala, ang posibilidad ng pinsala, ang pagkakaroon ng kumpidensyal na relasyon, at kung ang panganib ay sumasalamin sa mga pangunahing problema.
Ang pag-aaral ng mga taxi sa Farber sa New York ay batay sa mas naunang pag-aaral ni Camerer et al. (1997) na gumamit ng tatlong magkakaibang halimbawa ng kaginhawaan ng mga sheet ng papel trip. Nalaman ng naunang pag-aaral na ang mga drayber ay tila target na kumikita: mas mababa ang kanilang trabaho sa mga araw kung saan mas mataas ang kanilang sahod.
Sa kasunod na gawain, ang mga Hari at mga kasamahan ay may higit na pagtuklas sa online censorship sa China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Para sa isang kaugnay na diskarte sa pagsukat ng online censorship sa China, tingnan ang Bamman, O'Connor, and Smith (2012) . Para sa higit pa sa mga statistical na paraan tulad ng ginamit sa King, Pan, and Roberts (2013) upang tantyahin ang damdamin ng 11 milyong mga post, tingnan ang Hopkins and King (2010) . Para sa higit pa sa pinangangasiwaang pag-aaral, tingnan ang James et al. (2013) (mas teknikal) at Hastie, Tibshirani, and Friedman (2009) (mas teknikal).
Ang pagtataya ay isang malaking bahagi ng pang-agham ng agham na pang-industriya (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ang isang uri ng pagtataya na karaniwang ginagawa ng mga sosyal na mananaliksik ay ang pagtatantya sa demograpiko; tingnan, halimbawa, Raftery et al. (2012) .
Ang Flu Trends ng Google ay hindi ang unang proyekto na gumamit ng data ng paghahanap upang mapabilis ang prevalence ng influenza. Sa katunayan, ang mga mananaliksik sa Estados Unidos (Polgreen et al. 2008; Ginsberg et al. 2009) at Sweden (Hulth, Rydevik, and Linde 2009) natagpuan na ang ilang mga termino para sa paghahanap (halimbawa, "trangkaso" ang data bago ito mapalabas. Kasunod na marami, maraming iba pang mga proyekto ang sinubukan na gumamit ng mga digital na data ng pagsubaybay para sa pagtuklas ng surveillance ng sakit; tingnan ang Althouse et al. (2015) para sa isang pagsusuri.
Bilang karagdagan sa paggamit ng mga digital na data ng bakas upang mahulaan ang mga kinalabasan ng kalusugan, nagkaroon din ng isang malaking halaga ng trabaho gamit ang data ng Twitter upang mahulaan ang mga resulta ng halalan; Para sa mga review tingnan ang Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kabanata 7), at Huberty (2015) . Ang pag-aarkila ng mga pang-ekonomiyang tagapagpahiwatig, tulad ng gross domestic product (GDP), ay karaniwan din sa mga bangko sa gitna, tingnan ang Bańbura et al. (2013) . Ang talahanayan 2.8 ay nagsasama ng ilang mga halimbawa ng mga pag-aaral na gumagamit ng ilang uri ng digital na bakas upang mahulaan ang ilang uri ng kaganapan sa mundo.
Digital na pagsubaybay | Kinalabasan | Pagsipi |
---|---|---|
Box office revenue ng mga pelikula sa US | Asur and Huberman (2010) | |
Mga log ng paghahanap | Pagbebenta ng mga pelikula, musika, mga aklat, at mga laro ng video sa US | Goel et al. (2010) |
Dow Jones Industrial Average (US stock market) | Bollen, Mao, and Zeng (2011) | |
Social media at mga log ng paghahanap | Mga survey ng damdamin ng mamumuhunan at mga stock market sa Estados Unidos, United Kingdom, Canada, at China | Mao et al. (2015) |
Mga log ng paghahanap | Pagkalat ng Dengue Fever sa Singapore at Bangkok | Althouse, Ng, and Cummings (2011) |
Sa wakas, itinuturo ni Jon Kleinberg at mga kasamahan (2015) na ang mga problema sa pag-aanunsiyo ay nahulog sa dalawa, iba't ibang kategorya at ang mga sosyal na siyentipiko ay nag-focus sa isa at huwag pansinin ang iba. Isipin ang isang tagagawa ng patakaran, tatawagan ko siya na si Anna, na nakaharap sa isang tagtuyot at dapat magpasiya kung umarkila ng isang salamangkero upang gumawa ng isang sayaw ng ulan upang madagdagan ang posibilidad ng pag-ulan. Isa pang gumagawa ng patakaran, tatawagan ko siya na si Betty, ay dapat magpasiya kung kumuha ng payong upang magtrabaho upang maiwasan ang pagkuha ng basa sa daan. Ang parehong Anna at Betty ay maaaring gumawa ng isang mas mahusay na desisyon kung naiintindihan nila ang panahon, ngunit kailangan nilang malaman ang iba't ibang mga bagay. Kinakailangang maunawaan ni Anna kung ang ulan na sayaw ay nagiging sanhi ng pag-ulan. Sa kabilang banda, hindi kailangang maunawaan ni Betty ang anumang bagay tungkol sa pananahilan; kailangan lang niya ng isang tumpak na forecast. Ang mga mananaliksik sa panlipunan ay madalas na nakatuon sa mga problema tulad ng isa na kinaharap ni Anna-na tinawag ng Kleinberg at mga kasamahan ang mga problema sa patakaran ng "sayaw ng sayaw" -dahil sa mga ito ay may mga katanungan tungkol sa pananahilan. Ang mga tanong na katulad ng nakaharap ni Betty-na kung tawagin ng mga Kleinberg at mga kasamahan na tumawag sa mga "payong-tulad ng" mga problema sa patakaran-ay maaaring maging masyadong mahalaga, ngunit natanggap ang mas kaunting pansin mula sa mga sosyal na mananaliksik.
Ang journal PS Political Science ay nagkaroon ng isang simposyum sa malaking data, pananahilan ng pananahilan, at pormal na teorya, Clark and Golder (2015) bawat kontribusyon. Ang journal na mga Pamamaraan ng National Academy of Sciences ng Estados Unidos ng Amerika ay nagkaroon ng isang simposyum sa pananahilan ng pananahilan at malaking data, at ang Shiffrin (2016) nagbubuod sa bawat kontribusyon. Para sa mga diskarte sa pag-aaral ng machine na nagtatangkang awtomatikong matuklasan ang natural na mga eksperimento sa loob ng mga malalaking data source, tingnan ang Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , at Sharma, Hofman, and Watts (2016) .
Sa mga tuntunin ng mga natural na eksperimento, ang Dunning (2012) nagbibigay ng isang pambungad, aklat-haba na paggamot na may maraming mga halimbawa. Para sa isang pag-aalinlangan na pagtingin sa mga natural na eksperimento, tingnan ang Rosenzweig and Wolpin (2000) (economics) o Sekhon and Titiunik (2012) (agham pampulitika). Deaton (2010) at Heckman and Urzúa (2010) nagpapahayag na ang pagtutuon ng pansin sa mga natural na eksperimento ay maaaring humantong sa mga mananaliksik na magtuon sa pagtantya ng hindi mahalaga na mga saligang epekto; Imbens (2010) mga argumento na may higit pang pag-asa sa pagtingin sa halaga ng mga natural na eksperimento.
Kapag naglalarawan kung paano maaaring pumunta ang isang mananaliksik mula sa pagtantya sa epekto ng pagiging drafted sa epekto ng paglilingkod, inilalarawan ko ang isang pamamaraan na tinatawag na instrumental na mga variable . Imbens and Rubin (2015) , sa kanilang mga kabanata 23 at 24, ay nagbibigay ng pagpapakilala at gamitin ang draft na loterya bilang isang halimbawa. Ang epekto ng paglilingkod sa militar sa mga complitor ay kung minsan ay tinatawag na average na causal effect (CAcE) at kung minsan ang lokal na average na epekto ng paggamot (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , at Bollen (2012) aalok ng mga pagsusuri sa paggamit ng mga variable ng instrumental sa agham pampulitika, ekonomiya, at sosyolohiya pampulitika, at Sovey and Green (2011) nagbibigay ng "checklist ng mambabasa" para sa pagsusuri ng mga pag-aaral gamit ang mga variable na nakatulong.
Ito ay lumiliko na ang 1970 draft lottery ay hindi, sa katunayan nang tama randomized; may mga maliliit na deviations mula sa purong randomness (Fienberg 1971) . Berinsky and Chatfield (2015) argues na ang maliit na paglihis na ito ay hindi makabuluhang mahalaga at talakayin ang kahalagahan ng maayos na isinasagawa randomization.
Sa mga tuntunin ng pagtutugma, tingnan ang Stuart (2010) para sa isang maasahin na repasuhin, at Sekhon (2009) para sa isang negatibong pagsusuri. Para sa higit pa sa pagtutugma bilang isang uri ng pruning, tingnan ang Ho et al. (2007) . Ang paghahanap ng isang solong perpektong tugma para sa bawat tao ay madalas na mahirap, at ito ay nagpapakilala ng isang bilang ng mga pagkakumplikado. Una, kapag ang eksaktong mga tugma ay hindi magagamit, ang mga mananaliksik ay kailangang magpasiya kung paano sukatin ang distansya sa pagitan ng dalawang yunit at kung ang isang distansya ay malapit na sapat. Ang isang ikalawang kumplikado arises kung ang mga mananaliksik nais na gumamit ng maramihang mga tugma para sa bawat kaso sa paggamot group, dahil ito ay maaaring humantong sa mas tumpak na mga pagtatantya. Ang parehong mga isyung ito, pati na rin ang iba, ay inilarawan nang detalyado sa kabanata 18 ng Imbens and Rubin (2015) . Tingnan din ang Bahagi II ng ( ??? ) .
Tingnan ang Dehejia and Wahba (1999) para sa isang halimbawa kung saan ang mga pagtutugma ng mga pamamaraan ay nakapagpakita ng mga pagtatantya na katulad ng mula sa isang randomized na kinokontrol na eksperimento. Subalit, tingnan ang Arceneaux, Gerber, and Green (2006) at Arceneaux, Gerber, and Green (2010) para sa mga halimbawa kung saan Arceneaux, Gerber, and Green (2010) pagtutugma ng mga pamamaraan upang makabuo ng isang pang-eksperimentong benchmark.
Rosenbaum (2015) at Hernán and Robins (2016) aalok ng iba pang payo para sa pagtuklas ng mga kapaki-pakinabang na paghahambing sa loob ng malaking mga mapagkukunan ng data.