Адзін від назірання, не ўключаныя ў гэтай чале этнаграфія. Больш падрабязнай інфармацыі аб этнаграфіі ў лічбавых прасторах см Boellstorff et al. (2012) і Boellstorff et al. (2012) , а таксама больш падрабязнай інфармацыі аб этнаграфіі ў змешаных лічбавых і фізічных прасторах, см Lane (2016) .
Там няма адзінага вызначэння кансенсусу «вялікіх дадзеных» , але , здаецца , шмат азначэнняў , каб засяродзіцца на «3» Vs: аб'ём, разнастайнасць, і хуткасці (напрыклад, Japec et al. (2015) і Japec et al. (2015) ). См De Mauro et al. (2015) і De Mauro et al. (2015) для агляду азначэнняў.
Маё ўключэнне дзяржаўных адміністрацыйных дадзеных у катэгорыі вялікіх дадзеных трохі незвычайна, хоць іншыя таксама зрабіў гэты выпадак, у тым ліку Legewie (2015) , Connelly et al. (2016) і Connelly et al. (2016) , і Einav and Levin (2014) . Больш падрабязнай інфармацыі аб кошце дзяржаўных адміністрацыйных дадзеных для даследаванняў, см Card et al. (2010) і Card et al. (2010) , Adminstrative Data Taskforce (2012) , і Grusky, Smeeding, and Snipp (2015) .
Для зроку адміністрацыйнага даследаванні знутры дзяржаўнай статыстычнай сістэмы, у прыватнасці , Бюро перапісу насельніцтва ЗША, см Jarmin and O'Hara (2016) . Для кнігі даўжынёй лячэння даследаванні адміністрацыйных запісаў у статыстыцы Швецыі см Wallgren and Wallgren (2007) .
У гэтым раздзеле я коратка параўнаў традыцыйны апытанне, такіх як General Social Survey (GSS) з сацыяльным крыніцай дадзеных сродкаў масавай інфармацыі, такіх як Twitter. Для больш стараннага і ўважлівага параўнання паміж традыцыйнымі абследаваннямі і дадзенымі сацыяльных медыя, см Schober et al. (2016) і Schober et al. (2016) .
Гэтыя 10 характарыстык вялікіх дадзеных былі апісаны ў розных спосабах, з дапамогай мноства розных аўтараў. Даць , што паўплывала на маё мысленне па гэтых пытаннях ўключае Lazer et al. (2009) і Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) і Japec et al. (2015) , а таксама Goldstone and Lupyan (2016) .
У гэтым раздзеле я выкарыстаў тэрмін лічбавыя сляды, якія я думаю , з'яўляецца адносна нейтральным. Яшчэ адзін папулярны тэрмін для лічбавых слядоў з'яўляюцца лічбавыя адбіткі (Golder and Macy 2014) , але , як Hal Абельсоном, Кен Ледин, і Гары Льюіс (2008) паказваюць, больш прыдатны тэрмін, верагодна , лічбавыя адбіткі пальцаў. Пры стварэнні слядоў, вы ведаеце пра тое, што адбываецца, і вашыя сляды звычайна не могуць быць прасочаны да вас асабіста. Тое ж самае не дакладна для вашых лічбавых слядоў. На самай справе, вы пакідаеце сляды ўвесь час, пра які ў вас ёсць вельмі мала ведаў. І, хоць гэтыя сляды не маюць сваё імя на іх, яны могуць быць звязаныя з вамі. Іншымі словы, яны больш падобныя на адбіткі пальцаў: нябачныя і ідэнтыфікуюць.
Больш падрабязную інфармацыю аб чаму вялікія наборы дадзеных візуалізацыі статыстычных тэстаў праблематычнай см M. Lin, Lucas, and Shmueli (2013) і McFarland and McFarland (2015) . Гэтыя пытанні павінны прывесці даследчыкаў засяродзіцца на практычнай значнасці, а не статыстычнай значнасці.
Больш падрабязную інфармацыю аб тым , як Радж Chetty і яго калегі атрымалі доступ да падатковай справаздачнасці, см Mervis (2014) .
Вялікія наборы дадзеных могуць таксама ствараць вылічальныя задачы, якія звычайна выходзяць за межы магчымасцяў аднаго кампутара. Такім чынам, даследчыкі робяць вылічэнні на вялікіх наборах дадзеных часта распаўсюджваюцца на працу ў працягу многіх кампутараў, працэс часам называюць паралельнае праграмаванне. Для ўвядзення ў паралельнае праграмаванне, у прыватнасці , на мове пад назвай Hadoop см Vo and Silvia (2016) .
Пры разглядзе заўсёды на дадзеных, важна разгледзець пытанне аб тым, што вы параўноўваеце тыя ж людзі на працягу доўгага часу, ці вы параўноўваеце некаторыя змяняецца групы людзей; глядзі, напрыклад, Diaz et al. (2016) і Diaz et al. (2016) .
Класічная кніга па нереактивным мерам Webb et al. (1966) і Webb et al. (1966) . Прыклады, прыведзеныя ў гэтай кнізе, папярэднічаюць лічбавай стагоддзе, але яны па-ранейшаму асвятляючы. Для прыкладаў людзей , якія змяняюць паводзіны з-за наяўнасці масавага назірання, см Penney (2016) і Brayne (2014) .
Рэакцыйная здольнасць цесна звязана з тым, што даследчыкі называюць попыту эфекты (Orne 1962; Zizzo 2010) і эфект Hawthorne (Adair 1984; Levitt and List 2011) .
Больш падрабязнай інфармацыі аб гуказапісвальнай сувязі см Dunn (1946) і Fellegi and Sunter (1969) (гістарычных) і Larsen and Winkler (2014) (сучасных). Аналагічныя падыходы былі таксама распрацаваны ў кампутарнай навуцы пад такія назвамі, як дедупликации дадзеных, ідэнтыфікацыя асобніка, супастаўленне імёнаў, выяўленне дублікатаў, і дубляваць запісы выяўлення (Elmagarmid, Ipeirotis, and Verykios 2007) . Ёсць таксама прыватнасць якія захоўваюць падыходаў да гуказапісвальнай сувязі , якія не патрабуюць перадач ідэнтыфікавалай інфармацыі (Schnell 2013) . Facebook таксама распрацаваў працэс, каб звязаць свае запісы на электаральнае паводзіны; гэта было зроблена , каб ацаніць эксперымент , які я вам распавяду ў частцы 4 (Bond et al. 2012; Jones et al. 2013) і (Bond et al. 2012; Jones et al. 2013) і (Bond et al. 2012; Jones et al. 2013) .
Больш падрабязную інфармацыю аб валіднасці, см кіраўніка 3 Shadish, Cook, and Campbell (2001) .
Больш падрабязную інфармацыю аб выніках пошуку ў часопісе разгроме AOL см Ohm (2010) . Я прапаную парады аб партнёрстве з кампаніямі і урадамі ў частцы 4, калі я апісваю эксперыменты. Шэраг аўтараў выказаў заклапочанасць па нагоды даследаванні, які абапіраецца на недаступных дадзеных, см Huberman (2012) і boyd and Crawford (2012) .
Адзін добры спосаб для універсітэцкіх даследчыкаў, каб атрымаць доступ да дадзеных, каб працаваць у кампаніі ў якасці стажора або запрошанага даследчыка. У дадатак да прадастаўлення доступу да дадзеных, гэты працэс таксама дапаможа даследніку даведацца больш аб тым, як стваралася дадзеных, што важна для аналізу.
З пунктам гледжання атрымання доступу да ўрадавых дадзеных, Mervis (2014) абмяркоўвае , як Радж Chetty і яго калегі атрымалі доступ да падатковай справаздачнасці , якая выкарыстоўваецца ў сваіх даследаваннях па сацыяльнай мабільнасці.
Больш падрабязную інфармацыю аб гісторыі «рэпрэзентатыўнасці» як паняцце, см Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) і Kruskal and Mosteller (1980) .
Мае рэзюмэ работы Снега і працы Дол і Хіл былі кароткімі. Больш падрабязную інфармацыю аб працы Сноў на халеру см Freedman (1991) . Больш падрабязную інфармацыю аб брытанскіх лекараў даследаванне см Doll et al. (2004) і Doll et al. (2004) і Keating (2014) .
Многія даследчыкі будуць здзіўлены, даведаўшыся, што, хоць лялькі і Хіл сабралі дадзеныя з лекараў-жанчын і ад лекараў да 35 гадоў, яны наўмысна не выкарыстоўвалі гэтыя дадзеныя ў сваім першым аналізе. Як яны сцвярджалі: "Так як рак лёгкіх адносна рэдка ў жанчын і мужчын ва ўзросце да 35 гадоў, карысныя лічбы наўрад ці могуць быць атрыманы ў гэтых групах на працягу некалькіх наступных гадоў. У гэтым папярэднім дакладзе мы таму абмяжоўваліся увагай мужчын у ўзросце ад 35 гадоў і вышэй. » Rothman, Gallacher, and Hatch (2013) , які мае правакацыйная назва" Чаму рэпрэзентатыўнасць варта пазбягаць, "зрабіць больш агульны аргумент для значэння наўмысна ствараючы нерепрезентативные дадзеныя.
Nonrepresentativeness з'яўляецца сур'ёзнай праблемай для даследчыкаў і ўрадаў, якія жадаюць зрабіць заяву аб ўсёй папуляцыі. Гэта менш турботы для кампаній, якія, як правіла, сканцэнтраваны на сваіх карыстальнікаў. Больш падрабязную інфармацыю аб тым , як Статыстычнае ўпраўленне Нідэрландаў разглядае пытанне аб nonrepresentativeness бізнес вялікіх аб'ёмаў дадзеных, см Buelens et al. (2014) і Buelens et al. (2014) .
Прыклады даследчыкаў , якія выказваюць заклапочанасць па нагоды нерепрезентативного характару буйных крыніц дадзеных см boyd and Crawford (2012) , K. Lewis (2015b) , і Hargittai (2015) .
Для больш дэталёвага параўнання мэтаў сацыяльных абследаванняў і эпідэміялагічных даследаванняў, см Keiding and Louis (2016) .
Больш падрабязную інфармацыю пра спробы выкарыстоўваць Twitter , каб зрабіць з уласнага ўзору абагульнення адносна выбаршчыкаў, асабліва ў выпадку з 2009 года выбары ў Германіі, см Jungherr (2013) і Jungherr (2015) . Пасля працы Tumasjan et al. (2010) і Tumasjan et al. (2010) даследчыкі ва ўсім свеце выкарыстоўвалі мудрагелістыя метады, такія як з дапамогай аналізу настрояў адрозніваць станоўчыя і адмоўныя згадкі бакоў-для таго , каб палепшыць здольнасць дадзеных Twitter прадказаць розныя віды выбараў (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Вось як Huberty (2015) абагульнены вынікі гэтых спроб прадказаць выбары:
«Усе вядомыя метады прагназавання, заснаваныя на сацыяльных медыя праваліліся пад уздзеяннем патрабаванняў сапраўднага выбарчага прагназавання перспектыўнага. Гэтыя няўдачы, як ўяўляюцца, з-за фундаментальныя ўласцівасці сацыяльных медыя, а не метадалагічныя або алгарытмічныя цяжкасці. Карацей кажучы, сацыяльныя медыя не робяць, і, верагодна, ніколі не будзе, прапануем стабільную, аб'ектыўную, прадстаўнічую карціну электарату; і ўзоры зручнасці сацыяльных медыя не маюць дастатковыя дадзеныя, каб выправіць гэтыя праблемы постфактум «.
У раздзеле 3 я апішу адбор і ацэнку ў значна больш падрабязна. Нават калі дадзеныя нерепрезентативности, пры пэўных умовах яны могуць быць ўзважаныя для атрымання добрых ацэнак.
Дрэйф сістэмы вельмі цяжка зразумець, з вонкавага боку. Тым не менш, праект MovieLens (падрабязней абмяркоўваецца ў главе 4) быў запушчаны на працягу больш чым 15 гадоў акадэмічнай даследчай групай. Такім чынам, яны былі ў стане дакументаваць і распаўсюджваць інфармацыю аб тым , што сістэма эвалюцыянавала з цягам часу , і як гэта можа паўплываць на аналіз (Harper and Konstan 2015) .
Шэраг навукоўцаў былі сканцэнтраваны на дрэйф у Twitter: Liu, Kliman-Silver, and Mislove (2014) і Tufekci (2014) .
Адзін з падыходаў да вырашэння дрэйфу насельніцтва з'яўляецца стварэннем панэлі карыстальнікаў, што дазваляе даследчыкам вывучаць тыя ж чалавек , з цягам часу, см Diaz et al. (2016) і Diaz et al. (2016) .
Я ўпершыню пачуў тэрмін «алгарытмічных пасаромленыя» выкарыстоўваецца Джонам Клейнбергом ў размове, але, на жаль, я не памятаю, дзе і калі размова была дадзены. Першы раз, калі я бачыў гэты тэрмін у друку быў Anderson et al. (2015) і Anderson et al. (2015) , які ўяўляе сабой цікавае абмеркаванне таго , як алгарытмы , якія выкарыстоўваюцца сайты знаёмстваў могуць ўскладніць здольнасць даследчыкаў выкарыстоўваць дадзеныя з гэтых сайтаў для вывучэння сацыяльных пераваг. Гэтая праблема была паднятая K. Lewis (2015a) у адказ Anderson et al. (2014) і Anderson et al. (2014) .
У дадатку да Facebook, Twitter таксама рэкамендуе чалавек для карыстальнікаў, каб прытрымлівацца на аснове ідэй триадического закрыцця; см Su, Sharma, and Goel (2016) . Такім чынам, узровень триадического закрыцця ў Twitter ўяўляе сабой спалучэнне некаторай чалавечай схільнасці да триадическому закрыцьця і некаторай алгарытмічнай тэндэнцыі садзейнічання триадического закрыцця.
Больш падрабязную інфармацыю аб перфарматыўнасць-у прыватнасці , думка , што некаторыя тэорыі сацыяльных навук з'яўляюцца «рухавікі не камеры» (гэта значыць, яны фарміруюць свет , а не толькі апісваючы яго) -см Mackenzie (2008) .
Дзяржаўныя статыстычныя органы называюць дадзеныя ачышчальныя рэдагавання статыстычных дадзеных. De Waal, Puts, and Daas (2014) апісаны метады рэдагавання статыстычных дадзеных , распрацаваныя для дадзеных абследавання і вывучэння ступені , у якой яны дастасавальныя да буйных крыніц дадзеных, а Puts, Daas, and Waal (2015) прадставіць некаторыя з адных і тых жа ідэй , шырэйшая аўдыторыя.
Для агляду сацыяльных ботаў см Ferrara et al. (2016) і Ferrara et al. (2016) . Для некаторых прыкладаў даследаванняў , накіраваных на пошук спаму ў Twitter см Clark et al. (2016) і Clark et al. (2016) і Chu et al. (2012) і Chu et al. (2012) . Нарэшце, Subrahmanian et al. (2016) і Subrahmanian et al. (2016) апісваюць вынікі DARPA Twitter Bot Challenge, масавае супрацоўніцтва прызначаны для параўнання падыходаў для выяўлення ботаў на Twitter.
Ohm (2015) агляд папярэдніх даследаванняў , па ідэі канфідэнцыйнай інфармацыі і прапануе тэст шматфактарнага. Чатыры фактару ён прапануе, велічыня шкоды, верагоднасць нанясення шкоды, наяўнасць канфідэнцыйных адносінаў, і ці адлюстроўвае рызыка мажарытарныя праблемы.
Даследаванне Фарбэр таксі ў Нью - Ёрку было заснавана на больш раннім даследаванні Camerer et al. (1997) і Camerer et al. (1997) , якія выкарыстоўвалі тры розных узораў зручнасці паперы камандзіровачных лістоў. Гэта ранняе даследаванне паказала, што кіроўцы, здавалася, мэтавымі здабытчыка: яны працавалі менш на тыя дні, калі іх заробкі былі вышэй.
У наступнай працы, кароль і яго калегі даследавалі далей онлайн - цэнзуру ў Кітаі (King, Pan, and Roberts 2014, [@king_how_2016] ) . Для адпаведнага падыходу да вымярэння інтэрнэт - цэнзуры ў Кітаі, см Bamman, O'Connor, and Smith (2012) . Больш падрабязную інфармацыю аб статыстычных метадах , як той , якая выкарыстоўваецца ў King, Pan, and Roberts (2013) для ацэнкі настрою 11 мільёнаў паведамленняў, см Hopkins and King (2010) . Больш падрабязнай інфармацыі аб паднаглядных навучанні см James et al. (2013) і James et al. (2013) (менш за тэхнічны) і Hastie, Tibshirani, and Friedman (2009) (больш тэхнічны).
Прагназаванне з'яўляецца вялікай часткай прамысловых дадзеных навукі (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Адзін тыпу прагназавання, які звычайна робяцца сацыяльнымі даследчыкамі дэмаграфічнае прагназаванне; глядзі, напрыклад, Raftery et al. (2012) і Raftery et al. (2012) .
Google Flu Trends ня быў першым праектам, каб выкарыстоўваць дадзеныя пошуку па няшно распаўсюджанасці грыпу. На самай справе, даследчыкі ў Злучаных Штатах (Polgreen et al. 2008; Ginsberg et al. 2009) і (Hulth, Rydevik, and Linde 2009) (Polgreen et al. 2008; Ginsberg et al. 2009) і (Polgreen et al. 2008; Ginsberg et al. 2009) і Швецыі (Hulth, Rydevik, and Linde 2009) выявілі , што некаторыя пошукавыя тэрміны (напрыклад, «грып») прадказваў дзяржаўны кантроль у галіне грамадскага аховы здароўя дадзеныя перад ім быў вызвалены. Пасля шматлікія, многія іншыя праекты спрабавалі выкарыстоўваць лічбавыя дадзеныя трасіроўкі для выяўлення назірання захворвання; см Althouse et al. (2015) і Althouse et al. (2015) для агляду.
У дадатку да выкарыстання лічбавых дадзеных трасіроўкі для прагназавання стану здароўя, існуе таксама вялікая колькасць работ з выкарыстаннем дадзеных Twitter для прагназавання вынікаў выбараў; агляды см Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (кіраўнік 7) і Huberty (2015) . Прагназаванне бягучай надвор'я эканамічных паказчыкаў, такіх як валавы ўнутраны прадукт (ВУП), таксама распаўсюджаныя ў цэнтральных банках, см Bańbura et al. (2013) і Bańbura et al. (2013) . Табліца 2.8 ўключае ў сябе некалькі прыкладаў даследаванняў, якія выкарыстоўваюць некаторыя віды лічбавага следу прадказаць нейкія падзея ў свеце.
лічбавай след | вынік | цытаванне |
---|---|---|
шчэбет | даходы офіса Box фільмаў у ЗША | Asur and Huberman (2010) |
часопісы пошуку | Продаж фільмаў, музыкі, кніг і відэагульняў ў ЗША | Goel et al. (2010) |
шчэбет | Dow Jones Industrial Average (фондавы рынак ЗША) | Bollen, Mao, and Zeng (2011) |
Сацыяльныя медыя і пошук часопісы | Агляды інвестараў настрояў і фондавых рынкаў у Злучаных Штатах, Вялікабрытаніі, Канадзе і Кітаі | Mao et al. (2015) |
часопісы пошуку | Распаўсюджанасць ліхаманкі денге ў Сінгапуры і Бангкоку | Althouse, Ng, and Cummings (2011) |
Нарэшце, Джон Клейнберг і яго калегі (2015) адзначылі, што праблемы прагназавання дзеляцца на дзве часткі , тонка розныя катэгорыі і сацыяльныя навукоўцы схільныя засяроджвацца на адным і ігнараваць іншы. Уявіце сабе, адзін вытворца палітыкі, я буду называць яе Ганнай, якая сутыкаецца з засухай і павінны вырашыць, ці варта наняць шамана, каб зрабіць танец дажджу, каб павялічыць верагоднасць дажджу. Іншы вытворца палітыкі, я буду называць яе Бэці, павінен вырашыць, ці варта браць з сабой парасон, каб працаваць, каб пазбегнуць промокания на шляху дадому. І Ганна і Бэці могуць зрабіць лепшае рашэнне, калі яны разумеюць надвор'е, але яны павінны ведаць розныя рэчы. Ганна павінна зразумець, ці выклікае дождж танец дажджу. Бэці, з іншага боку, не трэба нічога разумець пра прычыннасці; яна проста патрэбен дакладны прагноз. Сацыяльныя даследчыкі часта засяроджваюцца на праблемах, як адзін, з якімі сутыкаюцца Anna-які Клейнберг і яго калегі называюць «танцам дажджу, як» палітычныя праблемы, таму што яны ўключаюць пытанні прычыннасці. Пытанні, як адзін, з якой сутыкаецца Бэці-якая Клейнберг і яго калегі называюць «зонтоподобны» палітыкай праблемай, могуць быць вельмі важнымі таксама, але атрымалі значна менш увагі ад сацыяльных даследчыкаў.
Часопіс PS паліталогія быў сімпозіум па вялікіх дадзеных, прычыннай высновы, і фармальнай тэорыі, і Clark and Golder (2015) падсумаваць кожны ўклад. У часопісе Працы Нацыянальнай акадэміі навук Злучаных Штатаў Амерыкі быў сімпозіум па прычыннага высновы і вялікіх аб'ёмаў дадзеных, і Shiffrin (2016) сумуе кожны ўклад. Для машыннага навучання падыходаў , якія спрабуюць аўтаматычна выявіць натуральныя эксперыменты ўнутры буйных крыніц дадзеных см Jensen et al. (2008) і Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , і Sharma, Hofman, and Watts (2016) .
З пункту гледжання натуральных эксперыментаў, Dunning (2012) змяшчае ўводны, лячэнне кніжнай даўжыні з вялікай колькасцю прыкладаў. Для скептычнага натурных эксперыментаў, см Rosenzweig and Wolpin (2000) (эканоміка) або Sekhon and Titiunik (2012) (паліталогія). Deaton (2010) і Heckman and Urzúa (2010) сцвярджаюць , што акцэнт на натурныя эксперыменты могуць прывесці даследчыкаў , каб засяродзіцца на ацэнцы неістотныя прычынна - выніковыя сувязі; Imbens (2010) супрацьпастаўляе гэтыя аргументы больш аптымістычны погляд на каштоўнасці прыродных эксперыментаў.
Пры апісанні таго, як даследчык можа перайсці ад ацэнкі ўплыву прызыву да дзеяння сервіроўкі, я апісваў тэхніку пад назвай інструментальных зменных. Imbens and Rubin (2015) , у іх раздзелах 23 і 24, забяспечваюць увядзенне і выкарыстоўваць праект латарэі ў якасці прыкладу. Ўплыў ваеннай службы на законапаслухмяных часам называюць кампілятарам сярэдняй прычынна-выніковую сувязь (Cace), а часам і мясцовы сярэдні эфект лячэння (пазней). Sovey and Green (2011) , Angrist and Krueger (2001) , і Bollen (2012) прапануюць агляды выкарыстання інструментальных зменных у галіне паліталогіі, эканомікі і сацыялогіі, і Sovey and Green (2011) забяспечвае «кантрольны чытача» а для ацэнкі даследаванняў з выкарыстаннем інструментальных зменных.
Аказваецца, што 1970 праект латарэі не быў, на самай справе правільна рандомізірованный; былі невялікія адхіленні ад чыстай выпадковасці (Fienberg 1971) . Berinsky and Chatfield (2015) сцвярджаюць , што гэта невялікае адхіленне ня істотна важна і абмеркаваць важнасць правільнага праведзенай рандомизации.
З пункту гледжання адпаведнасці см Stuart (2010) для аптымістычнага агляду і Sekhon (2009) для песімістычнага агляду. Больш падрабязную інфармацыю аб адпаведнасць як свайго роду абразанні, см Ho et al. (2007) і Ho et al. (2007) . Знаходжанне аднаго ідэальна падыходзяць для кожнага чалавека, часта бывае цяжка, і гэта ўводзіць шэраг складанасцяў. Па-першае, калі дакладныя супадзення не даступныя, даследчыкі павінны вырашыць, як вымераць адлегласць паміж двума блокамі і, калі дадзенае адлегласць досыць блізка. Другая складанасць ўзнікае, калі даследчыкі маюць намер выкарыстоўваць некалькі супадзенняў для кожнага выпадку ў групе лячэння, так як гэта можа прывесці да больш дакладным ацэнак. Абедзве гэтыя праблемы, а таксама іншых, якія падрабязна апісаны ў чале 18 Imbens and Rubin (2015) . Глядзіце таксама часткі другой ( ??? ) .
См Dehejia and Wahba (1999) у якасці прыкладу , дзе метады , адпаведныя былі здольныя вырабляць ацэнкі , аналягічныя тым , якія з рандомізірованного кантраляванага эксперыменту. Але, бачыце Arceneaux, Gerber, and Green (2006) і Arceneaux, Gerber, and Green (2010) для прыкладаў , калі метады , якія адпавядаюць не ўдалося прайграць эксперыментальную кропку адліку.
Rosenbaum (2015) і Hernán and Robins (2016) прапануюць іншыя парады для выяўлення карысных параўнанняў у рамках буйных крыніц дадзеных.