ကြောင်းစောင့်ကြည့်တစ်ခုမှာကြင်နာဤအခနျးတှငျမပါဝင်တာဖြစ်ပါတယ် ethnography ဖြစ်ပါတယ်။ ဒစ်ဂျစ်တယ်နေရာများအတွက် ethnography အပေါ်ပိုပြီးအဘို့အတွေ့ Boellstorff et al. (2012) နှင့်ရောထွေးဒစ်ဂျစ်တယ်နှင့်ရုပ်ပိုင်းဆိုင်ရာနေရာများအတွက် ethnography အပေါ်ပိုပြီးအဘို့အတွေ့ Lane (2016) ။
အဲဒီမှာမရှိတစ်ခုတည်းသဘောတူချက်နှင့်အဓိပ္ပါယ် "ကြီးမားတဲ့ဒေတာ," ဖြစ်ပါတယ်ဒါပေမယ့်အများကြီးအဓိပ္ပာယ်မှာ "3 Vs" ပေါ်တွင်အာရုံစူးစိုက်ဟန်: အသံအတိုးအကျယ်, အမျိုးမျိုးနှင့်အလျင် (ဥပမာ Japec et al. (2015) ) ။ ကြည့်ရှုပါ De Mauro et al. (2015) အဓိပ္ပာယ်များပြန်လည်သုံးသပ်။
အခြားသူတွေအပါအဝင်ဤကိစ္စတွင်လည်းရာ၌ခန့်ထားပြီဖြစ်သော်လည်းကြီးမားသောအချက်အလက်များ၏ကဏ္ဍကအစိုးရအုပ်ချုပ်ရေးအချက်အလက်များ၏အကြှနျုပျ၏ပါဝင်တစ်နည်းနည်းပုံမှန်မဟုတ်သောဖြစ်ပါတယ် Legewie (2015) , Connelly et al. (2016) နှင့် Einav and Levin (2014) ။ သုတေသနအတွက်အစိုးရအုပ်ချုပ်ရေးအချက်အလက်များ၏တန်ဖိုးကိုအကြောင်းပိုမိုအဘို့အတွေ့ Card et al. (2010) , Adminstrative Data Taskforce (2012) နှင့် Grusky, Smeeding, and Snipp (2015) ။
အစိုးရကစာရင်းအင်းစနစ်, အထူးသဖြင့်အမေရိကန်သန်းခေါင်စာရင်းဗျူရိုအတွင်းမှအုပ်ချုပ်ရေးသုတေသနတစ်ဦးအမြင်အဘို့အတွေ့ Jarmin and O'Hara (2016) ။ စာရင်းအင်းဆွီဒင်နိုင်ငံမှာအုပ်ချုပ်ရေးမှတ်တမ်းများသုတေသနစာအုပ်-အရှည်ကုသမှုများအတွက်ကိုတွေ့မြင် Wallgren and Wallgren (2007) ။
အဆိုပါအခနျးတှငျ, ငါသည်အကျဉ်းချုံးထိုကဲ့သို့သောတွစ်တာကဲ့သို့သောလူမှုမီဒီယာဒေတာအရင်းအမြစ်နှင့်အတူထိုကဲ့သို့သောအထွေထွေလူမှုစစ်တမ်း (GSS) အဖြစ်တစ်ဦးရိုးရာစစ်တမ်းနှင့်နှိုင်းယှဉ်ပါ။ ရိုးရာစစ်တမ်းများနှင့်လူမှုရေးမီဒီယာဒေတာများအကြားတစ်ဦးနှံ့နှံ့စပ်စပ်နဲ့သတိထားနှိုင်းယှဉ်ဘို့အတွေ့ Schober et al. (2016) ။
ကြီးမားသောအချက်အလက်များ၏ဤရွေ့ကား 10 ဝိသေသလက္ခဏာများကွဲပြားခြားနားသောစာရေးဆရာများအမျိုးမျိုးအားဖြင့်ကွဲပြားခြားနားတဲ့နည်းလမ်းတွေအမျိုးမျိုးမှာဖော်ပြထားတဲ့ပါပြီ။ ဤအကိစ္စများအပေါ်မှာငါ့စဉ်းစားတွေးခေါ်သြဇာလွှမ်းမိုးမှုကြောင့်စာရေးသားခြင်းလည်းပါဝင်သည် Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) နှင့် Goldstone and Lupyan (2016) ။
ဤအခနျးတစျလြှောကျလုံးငါအတော်လေးကြားနေသည်ထင်သောဝေါဟာရကိုဒစ်ဂျစ်တယ်ခြေရာတွေကိုအသုံးပြုပါတယ်။ ဒစ်ဂျစ်တယ်သဲလွန်စတွေကိုရှင်းလင်းဘို့နောက်ထပ်လူကြိုက်များတဲ့သက်တမ်းဒစ်ဂျစ်တယ်ခြေရာများဖြစ်ပါတယ် (Golder and Macy 2014) , ဒါပေမယ့် Hal Abelson, ကဲန် Ledeen နှင့်ဟယ်ရီ Lewis ကအဖြစ် (2008) ထုတ်ညွှန်တစ်ဦးထက်ပိုသောသင့်လျော်သောဝေါဟာရကိုဖြစ်ကောင်းဒစ်ဂျစ်တယ်လက်ဗွေရာဖြစ်ပါတယ်။ သငျသညျခြေရာများဖန်တီးတဲ့အခါ, သင်ဘာတွေဖြစ်နေတယ်ဆိုတာကိုသတိပြုမိကြသည်နှင့်သင့်ခြေရာများယေဘုယျအားပုဂ္ဂိုလ်ရေးအရကိုသင်ခြေရာကောက်မရနိုင်ပါ။ အတူတူသင့်ရဲ့ဒစ်ဂျစ်တယ်သဲလွန်စတွေကိုရှင်းလင်းဘို့စစ်မှန်တဲ့မဟုတ်ပါဘူး။ တကယ်တော့သင်ကခြေရာတွေကိုသငျသညျအနည်းငယ်သာအသိပညာရှိသည်သောအကြောင်းကိုလူအပေါင်းတို့သည်အချိန်ထွက်ခွာနေကြသည်။ ဤအခြေရာတွေသူတို့အပေါ်မှာသင့်ရဲ့နာမကိုအမှီရှိသည်မဟုတ်ကြဘူးပေမယ့်နှင့်, သူတို့မကြာခဏသင်တို့ဆီသို့ပြန်နှင့်ဆက်စပ်နိုင်ပါတယ်။ မမြင်ရတဲ့နှင့်ပုဂ္ဂိုလ်ရေးအရဖော်ထုတ်: တနည်းအားဖြင့်သူတို့ကပိုလက်ဗွေရာကဲ့သို့ဖြစ်ကြ၏။
ကြီးမားသောအချက်အလက်စာရင်းများအတွက်စာရင်းအင်းစမ်းသပ်မှုပြဿနာဆပ်အဘယ်ကြောင့်ပိုမိုအဘို့အတွေ့ M. Lin, Lucas, and Shmueli (2013) နှင့် McFarland and McFarland (2015) ။ ဤရွေ့ကားကိစ္စများလက်တွေ့ကျတဲ့အရေးပါမှုထက်စာရင်းအင်းအရေးပါမှုကိုအာရုံစိုက်ဖို့သုတေသီများဦးဆောင်လမ်းပြသင့်ပါတယ်။
Raj Chetty နှင့်လုပ်ဖော်ကိုင်ဖက်များကအခွန်မှတ်တမ်းများမှဝင်ရောက်ခွင့်ရရှိထားဘယ်လိုအကြောင်းပိုမိုအဘို့အတွေ့ Mervis (2014) ။
အကြီးစားဒေတာအစုလည်းယေဘုယျအားဖြင့်တစ်ခုတည်းကွန်ပျူတာများ၏စွမ်းရည်ထက်ကျော်လွန်ဖြစ်ကြောင်းကွန်ပျူတာပြဿနာများကိုဖန်တီးနိုင်ပါတယ်။ ထို့ကြောင့်, ကြီးမားသောအချက်အလက်စာရင်းများအတွက်အပေါ် computing အောင်သုတေသီများမကြာခဏများစွာသောကွန်ပျူတာများကိုကျော်တခါတရံအပြိုင်ပရိုဂရမ်းမင်းကိုခေါ်နေတဲ့ဖြစ်စဉ်ကိုအလုပျပျံ့နှံ့သွားခဲ့သည်။ programming စင်ပြိုင်ဖို့နိဒါန်းအဘို့, Hadoop လို့ခေါ်တဲ့ဘာသာစကားအထူးသဖြင့်တွေ့ Vo and Silvia (2016) ။
အမြဲ-on ကိုထည့်သွင်းစဉ်းစားတဲ့အခါမှာဒေတာ, သင်အချိန်ကြာလာတာနဲ့အမျှအတိအကျတူညီလူတွေနှိုင်းယှဉ်ကြသည်ရှိမရှိဒါမှမဟုတ်သင်ကလူအချို့ကိုပြောင်းလဲအုပ်စုကိုနှိုင်းယှဉ်ကြသည်ရှိမရှိထည့်သွင်းစဉ်းစားရန်အရေးကြီးပါသည်, ဥပမာအားတွေ့မြင် Diaz et al. (2016) ။
nonreactive အစီအမံအပေါ်တစ်ဦးဂန္စာအုပ်ဖြစ်ပါတယ် Webb et al. (1966) ။ ကြောင်းစာအုပ်ထဲတွင်ဥပမာဒစ်ဂျစ်တယ်အသက်အရွယ် predate, ဒါပေမဲ့သူတို့နေဆဲ illuminating နေကြသည်။ ဘာဖြစ်လို့လဲဆိုတော့အစုလိုက်အပြုံလိုက်စောင့်ကြည့်၏ရှေ့မှောက်တွင်သူတို့ရဲ့အပြုအမူကိုပြောင်းလဲလူများဥပမာတွေ့ Penney (2016) နှင့် Brayne (2014) ။
reactivity ကိုအနီးကပ်သုတေသီများဝယ်လိုအားသက်ရောက်မှုကိုခေါ်အရာကို related ဖြစ်ပါတယ် (Orne 1962; Zizzo 2010) နှင့် Hawthorne အကျိုးသက်ရောက်မှု (Adair 1984; Levitt and List 2011) ။
စံချိန်ချိတ်ဆက်အပေါ်ပိုပြီးအဘို့အတွေ့ Dunn (1946) နှင့် Fellegi and Sunter (1969) (သမိုင်း) နှင့် Larsen and Winkler (2014) (ခေတ်သစ်) ။ အလားတူချဉ်းကပ်မှုကိုလည်းထောက်လှမ်းပွား, ထိုကဲ့သို့သောဒေတာ deduplication, ဥပမာအားဖြင့်ဖော်ထုတ်ခြင်း, နာမည်တိုက်ဆိုင်သည့်အဖြစ်အမည်များကိုအောက်မှာကွန်ပျူတာသိပ္ပံအတွက်ဖွံ့ဖြိုးပြီးနှင့်စံချိန်ထောက်လှမ်းပွားခဲ့ကြ (Elmagarmid, Ipeirotis, and Verykios 2007) ။ ပုဂ္ဂိုလ်ရေးအရသတင်းအချက်အလက်ဖော်ထုတ်၏ဂီယာလိုအပ်မချိတ်ဆက်မှတ်တမ်းတင်ဖို့ privacy ကို-ထိန်းသိမ်းချဉ်းကပ်မှုလည်းရှိပါတယ် (Schnell 2013) ။ Facebook မှာလည်းအပြုအမူမဲပေး၎င်းတို့၏မှတ်တမ်းများလင့်ထားသည်တစ်ဦးဖြစ်စဉ်ကိုတိုးတက်ဖွံ့ဖြိုးမူပြီ ဒီငါမျြးအခနျးကွီး 4 မှာအကြောင်းကိုသင်ပြောပြပါ့မယ်ကြောင်းစမ်းသပ်မှုတစ်ခုအကဲဖြတ်ရန်ပြုခံခဲ့ရသည် (Bond et al. 2012; Jones et al. 2013) ။
ဆောက်လုပ်ရေးတရားဝင်မှုအပေါ်ပိုပြီးအဘို့, ၏အခန်း 3 ကိုကြည့်ပါ Shadish, Cook, and Campbell (2001) ။
အဆိုပါ AOL ရှာဖွေရေးမှတ်တမ်း debacle အပေါ်ပိုပြီးအဘို့အတွေ့ Ohm (2010) ။ ငါစမ်းသပ်ချက်ကိုဖော်ပြရန်သောအခါအကျအခနျး 4 မှာကုမ္ပဏီများနှင့်အစိုးရများနှင့်အတူ ပူးပေါင်း. အကြောင်းကိုအကြံဉာဏ်ကိုဆက်ကပ်။ စာရေးဆရာတစ်ဦးအရေအတွက်ကိုတပိုင်တနိုင်ဒေတာပေါ်တွင်မူတည်ကြောင်းသုတေသနအကြောင်းကိုစိုးရိမ်ပူပန်မှုများတွေ့ထုတ်ဖော်ပြောဆိုခဲ့ကြ Huberman (2012) နှင့် boyd and Crawford (2012) ။
တက္ကသိုလ်သုတေသီတွေက data ကို access ကိုဆည်းပူးရန်အဘို့အတစ်ခုမှာကောင်းသောလမ်းတစ်အလုပ်သင်ဆရာဝန်သို့မဟုတ်လာရောက်လည်ပတ်သုတေသီအဖြစ်ကုမ္ပဏီတစ်ခုမှာအလုပ်လုပ်ကိုင်ဖို့ဖြစ်ပါတယ်။ ဒေတာ access ကို enable လုပ်ထားခြင်းအပြင်, ဤဖြစ်စဉ်ကိုလည်းဆန်းစစ်ဘို့အရေးကြီးပါတယ်တည်းဟူသော, သုတေသီ data ကိုဖန်တီးခဲ့ပုံကိုအကြောင်းပိုမိုလေ့လာသင်ယူကူညီပေးပါမည်။
အစိုးရ data ကိုမှဝင်ရောက်ခွင့်ရရှိမှု၏စည်းကမ်းချက်များ၌, Mervis (2014) Raj Chetty နှင့်လုပ်ဖော်ကိုင်ဖက်များကလူမှုရေး mobility အပေါ်သူတို့ရဲ့သုတေသနလုပ်ငန်းများတွင်အသုံးပြုအခွန်မှတ်တမ်းများမှဝင်ရောက်ခွင့်ရရှိထားပုံကိုဆြေးြေိံးထားသည်။
တစ်ဦးအယူအဆအဖြစ် "ကိုယ်စားပြုမှု" ၏သမိုင်းကြောင်းအပေါ်ပိုပြီးအဘို့အတွေ့ Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) နှင့် Kruskal and Mosteller (1980) ။
နှင်း၏လုပျငနျးနှင့် Doll နှင့်ဟေးလ်၏လုပျငနျးငါ၏အကျဉ်းချုပ်အတိုချုပ်ခဲ့ကြသည်။ ဝမ်းရောဂါအပေါ်နှင်းရဲ့အလုပ်အပေါ်ပိုမိုတွေ့ Freedman (1991) ။ ဗြိတိသျှဆရာဝန်များအပေါ်ပိုပြီးအဘို့ကိုတွေ့မြင်လေ့လာ Doll et al. (2004) နှင့် Keating (2014) ။
အတော်များများကသုတေသီများ Doll နှင့်ဟေးလ် 35 နှစ်အောက်အမျိုးသမီးဆရာဝန်တွေမှဆရာဝန်များကနေဒေတာတွေကိုစုဆောင်းခဲ့ပေမယ့်သူတို့ကရည်ရွယ်ချက်ရှိရှိသူတို့ရဲ့ပထမဦးဆုံးဆန်းစစ်၌ဤဒေတာကိုအသုံးမပြုခဲ့ကြောင်းသင်ယူဖို့အံ့သြသွားရလိမ့်မည်။ သူတို့စောဒကအဖြစ်: "အဆုတ်ကင်ဆာ 35 နှစ်အောက်အမျိုးသမီးများနှင့်အမျိုးသားများအတွက်အတော်လေးရှားပါးဖြစ်ပါတယ်ကတည်းကအသုံးဝင်သောကိန်းဂဏန်းများလာရန်အခြို့သောနှစ်ပေါင်းဤအုပ်စုများအတွက်ရရှိသောခံရဖို့မဖြစ်နိုင်ဖြစ်ကြသည်။ ဒီပဏာမအစီရင်ခံစာအတွက်ကျနော်တို့ 35 နှင့်အထက်အသက်ယောက်ျားကြှနျတျောတို့၏အာရုံစူးစိုက်မှုကိုထို့ကြောင့်ချုပ်ထားပြီ။ " Rothman, Gallacher, and Hatch (2013) အဘယ်ကြောင့်ကိုယ်စားပြုမှု" ၏တန်ဖိုးတစ်ခုထက်ပိုသောယေဘုယျအငြင်းအခုံဖြစ်စေလျက်, ရှောင်ကြဉ်ရပါမည်သည့်လိုက်စားခေါင်းစဉ်သည့် " ရည်ရွယ်ချက်ရှိရှိ nonrepresentative ဒေတာကိုဖန်ဆင်း၏။
Nonrepresentativeness တစ်ခုလုံးကိုလူဦးရေနှင့်ပတ်သက်ပြီးထုတ်ပြန်ချက်များစေရန်ဆန္ဒရှိသူကိုသုတေသီများနှင့်အစိုးရများအဘို့ဟာအဓိကပြဿနာဖြစ်ပါတယ်။ ဤသည်ပုံမှန်အားဖြင့်သူတို့ရဲ့အသုံးပြုသူများကိုအာရုံစိုက်နေသောကုမ္ပဏီများ, များအတွက်စိုးရိမ်စရာလျော့နည်းသည်။ စာရင်းအင်းနယ်သာလန်စီးပွားရေးလုပ်ငန်းကြီးတွေအချက်အလက်များ၏ nonrepresentativeness ၏ကိစ္စကိုစဉ်းစားပုံကိုပိုမိုအဘို့အတွေ့ Buelens et al. (2014) ။
ကြီးမားတဲ့ data တွေကိုသတင်းရင်းမြစ်၏ Non-ကိုယ်စားလှယ်သဘောသဘာဝနှင့် ပတ်သက်. စိုးရိမ်ပူပန်ကြောင်းဖော်ပြသုတေသီများ၏ဥပမာအဘို့အတွေ့ boyd and Crawford (2012) , K. Lewis (2015b) နှင့် Hargittai (2015) ။
လူမှုရေးစစ်တမ်းများနှင့် epidemiological သုတေသနများ၏ပန်းတိုင်ပိုပြီးအသေးစိတ်နှိုင်းယှဉ်ကြည့်ပါ Keiding and Louis (2016) ။
မဲဆန္ဒရှင်အကြောင်းကို Out-of-နမူနာယေဘုယျစေရန်တွစ်တာသုံးစွဲဖို့ကြိုးစားမှု, 2009 ဂျာမန်ရွေးကောက်ပွဲကနေအထူးသဖြင့်အမှုအပေါ်ပိုပြီးအဘို့အတွေ့ Jungherr (2013) နှင့် Jungherr (2015) ။ ၏လုပျငနျးမှနောက်ဆက်တွဲ Tumasjan et al. (2010) ကမ္ဘာတစ်ဝှမ်းရှိသုတေသီများပါတီများ-in ကိုရွေးကောက်ပွဲများအမျိုးမျိုးအမျိုးမျိုးခန့်မှန်းဖို့တွစ်တာအချက်အလက်များ၏စွမ်းရည်ကိုတိုးတက်စေရန်အလို့ငှာ၏ဖျောပွထားသ fancier နည်းလမ်းများ-ထိုကဲ့သို့သောအပြုသဘောနှင့်အပျက်သဘောအကြားခွဲခြားရန်စိတ်ဓါတ်များခွဲခြမ်းစိတ်ဖြာသုံးပြီးအဖြစ်အသုံးပြုခဲ့ကြ (Gayo-Avello 2013; Jungherr 2015, chap. 7.) ။ ဤတွင်ကိုဘယ်လိုဖွင့် Huberty (2015) ရွေးကောက်ပွဲတွေကြိုတင်ခန့်မှန်းဖို့ကဤကြိုးစားမှု၏ရလဒ်များကိုအကျဉ်းချုပ်:
စစ်မှန်တဲ့ရှေ့ဆက်-ရှာဖွေနေရွေးကောက်ပွဲဆိုင်ရာကြိုတင်ခန့်မှန်း၏တောင်းဆိုချက်များကိုအကြောင်းမဲ့သောအခါ "ဆိုရှယ်မီဒီယာပေါ်တွင် အခြေခံ. အားလုံးသိကြကြိုတင်ခန့်မှန်းမှုနည်းလမ်းများမအောင်မြင်ခဲ့ကြပြီ။ ဤရွေ့ကားမအောင်မြင်မှုများလူမှုရေးမီဒီယာများ၏အခြေခံဂုဏ်သတ္တိများဖို့ထက်အတိုင်းအတာများသို့မဟုတ် algorithmic အခက်အခဲများကြောင့်ဖြစ်ပေါ်လာပါသည်။ တိုတောင်းသောခုနှစ်တွင်လူမှုမီဒီယာကိုမကျင့်, နှင့်ဖြစ်ကောင်း, မဲဆန္ဒရှင်တစ်တည်ငြိမ်, ဘက်မလိုက်, ကိုယ်စားလှယ်ရုပ်ပုံပူဇော်ပါလိမ့်မယ်ဘယ်တော့မှ; နှင့်လူမှုရေးမီဒီယာများ၏အဆင်ပြေနမူနာဒီပြဿနာတွေကို post ကို hoc fix ဖို့လုံလောက်သောဒေတာကင်းမဲ့နေသည်။ "
အခန်း 3 ၌ငါ သာ. အသေးစိတ်နမူနာများနှင့်ခန့်မှန်းချက်ကိုဖော်ပြရန်ပါလိမ့်မယ်။ ဒေတာ nonrepresentative များမှာရင်တောင်အချို့သောအခြေအနေများအောက်တွင်သူတို့ကောင်းသောခန့်မှန်းချက်ထုတ်လုပ်ရန်မာန်တင်းနိုင်ပါသည်။
System ကိုပျံ့ပြင်ပကနေကြည့်ရှုရန်အလွန်ခဲယဉ်းသည်။ သို့သျောလညျး, (ပိုပြီးအခနျးကွီး 4 တှငျဆှေးနှေး) ကို MovieLens စီမံကိန်းကိုအနေနဲ့ပညာရပ်ဆိုင်ရာသုတေသနအဖွဲ့ကထက်ပိုမို 15 နှစ်အဘို့ကို run ထားပြီးဖြစ်ပါသည်။ ထို့ကြောင့်သူတို့ကစနစ်အချိန်ကျော်ပြောင်းလဲထားပါတယ်နှင့်မည်သို့ဒီခွဲခြမ်းစိတ်ဖြာ impact အံ့သောငှါသှားရာလမျးအကြောင်းသတင်းအချက်အလက်မှတ်တမ်းတင်မျှဝေပေးနိုင်ပါပြီ (Harper and Konstan 2015) ။
ပညာရှင်တစ်ဦးကအရေအတွက်ကို Twitter ကိုအတွက်ပျံ့အပေါ်အာရုံစူးစိုက်ပြီ Liu, Kliman-Silver, and Mislove (2014) နှင့် Tufekci (2014) ။
လူဦးရေပျံ့နှငျ့ဆကျဆံရာတှငျတစျချဉ်းကပ်သုတေသီများတွေ့မြင်, အချိန်ကျော်အတူတူလူတွေလေ့လာဖို့ခွင့်ပြုထားတဲ့သုံးစွဲသူတစ်ဦး panel ကဖန်တီးရန်ဖြစ်ပါသည် Diaz et al. (2016) ။
ကျွန်မပထမဦးဆုံးအသုံးအနှုန်းဟောပြောချက်ထဲမှာ Jon Kleinberg အသုံးပြုသော "Algorithm ကိုရှက်ကြောက်" ကျွန်တော်ကြားလျှင်, ဒါပေမယ့်ရသောအခါသို့မဟုတ်ရှိရာဆွေးနွေးချက်ပေးထားခဲ့သည်ကံမကောင်းငါမအောက်မေ့ပါဘူး။ ငါပုံနှိပ်အတွက်အသုံးအနှုန်းမြင်ဘူးသောပထမဦးဆုံးအကြိမ်၌ရှိ၏ Anderson et al. (2015) ချိန်းတွေ့ဆိုဒ်များအသုံးပြုတဲ့ algorithms လူမှုရေးဦးစားပေးလေ့လာဤဝက်ဘ်ဆိုက်များအနေဖြင့်ဒေတာသုံးစွဲဖို့သုတေသီများ '' စွမ်းရည်ကိုရှုပ်ထွေးစေခြင်းငှါ, ဘယ်လိုစိတ်ဝင်စားစရာကောင်းတဲ့ဆွေးနွေးမှုသော။ ဒါဟာစိုးရိမ်ပူပန်နေဖြင့်ကြီးပြင်း K. Lewis (2015a) မှတုန့်ပြန် Anderson et al. (2014) ။
Facebook မှာအပြင်, Twitter ကိုလည်း triadic ပိတ်သိမ်း၏စိတ်ကူးပေါ်အခြေခံပြီးအတိုင်းလိုက်နာမှအသုံးပြုသူများအတွက်လူတွေအကြံပြု; တွေ့မြင် Su, Sharma, and Goel (2016) ။ ဒါကြောင့် Twitter ကိုအတွက် triadic ပိတ်သိမ်း၏အဆငျ့ triadic ပိတ်သိမ်းဆီသို့အချို့သောလူ့သဘောသဘာဝနှင့် triadic ပိတ်သိမ်းမြှင့်တင်ရန်အချို့ algorithmic သဘောထားကိုပေါင်းစပ်ဖြစ်ပါတယ်။
Performance-in ကိုအထူးသဖြင့်အပေါ်မှာပိုပြီးအဘို့အအချို့သောလူမှုရေးသိပ္ပံသီအိုရီများ "အင်ဂျင်မဟုတ်ကင်မရာများ" (ဆိုလိုသည်မှာသူတို့ကမ္ဘာကြီးကိုပုံဖော်ထက်ရုံကဖော်ပြ) သောစိတ်ကူး -see Mackenzie (2008) ။
အစိုးရမဟုတ်သောစာရင်းအင်းအေဂျင်စီများစာရင်းအင်း data တွေကိုတည်းဖြတ်သန့်ရှင်းရေးဒေတာကိုခေါ်ပါ။ De Waal, Puts, and Daas (2014) စစ်တမ်းဒေတာအတွက်ဖွံ့ဖြိုးပြီးစာရင်းအင်း data တွေကိုတည်းဖြတ်နည်းစနစ်ကိုဖော်ပြရန်နှင့်သောသူတို့သည်ကြီးမားသောဒေတာသတင်းရပ်ကွက်သက်ဆိုင်သောများမှာဖို့အတိုင်းအတာများနှင့်ဆနျးစစျ Puts, Daas, and Waal (2015) တို့အတွက်တူညီသောစိတ်ကူးများအချို့ကိုတင်ပြ တစ်ဦးထက်ပိုသောယေဘုယျပရိသတ်ကို။
လူမှုရေး bot တွေဟာခြုံငုံသုံးသပ်ဘို့တွေ့ Ferrara et al. (2016) ။ တွစ်တာထဲမှာ spam များကိုရှာဖွေတာအပေါ်အာရုံစူးစိုက်လေ့လာမှုများအချို့ကိုဥပမာအဘို့အတွေ့ Clark et al. (2016) နှင့် Chu et al. (2012) ။ နောက်ဆုံးအနေနဲ့ Subrahmanian et al. (2016) အတွက် DARPA က Twitter ကိုအောက်ခြေစိန်ခေါ်မှု, Twitter ပေါ်တွင် bot တွေဟာဖော်ထုတ်မယ်ဘို့ချဉ်းကပ်နှိုင်းယှဉ်ဖို့ဒီဇိုင်းရေးဆွဲတစ်ဦးအစုလိုက်အပြုံလိုက်ပူးပေါင်း၏ရလဒ်များကိုကိုဖော်ပြရန်။
Ohm (2015) အထိခိုက်မခံအချက်အလက်များ၏စိတ်ကူးပေါ်အစောပိုင်းကသုတေသနသုံးသပ်ပြီးနှင့် Multi-အချက်စမ်းသပ်ပေးထားပါတယ်။ သူအဆိုတင်သွင်းလေးပါးအချက်များအန္တရာယ်များ၏ပြင်းအား, အန္တရာယ်များ၏ဖြစ်နိုင်ခြေတစ်ခုလျှို့ဝှက်ဆက်ဆံရေးရှိနေခြင်းနှင့်အန္တရာယ်အများစုစိုးရိမ်ပူပန်မှုများထင်ဟပ်ခြင်းရှိမရှိဖြစ်ကြသည်။
New York မှာတက္ကစီ၏ Farber ရဲ့လေ့လာမှုကအစောပိုင်းကလေ့လာမှုအပေါ်အခြေခံခဲ့ပါတယ် Camerer et al. (1997) စက္ကူခရီးစဉ်စာရွက်များသုံးခုကွဲပြားခြားနားသောအဆင်ပြေစေရန်နမူနာအသုံးပြုခဲ့တဲ့။ သူတို့လျော့နည်းအလုပ်လုပ်ခဲ့၎င်းတို့၏လုပ်ခလစာမြင့်မားတဲ့ခဲ့ကြသည်ဘယ်မှာရက်: ဒီအစောပိုင်းကလေ့လာမှု drivers တွေကိုပစ်မှတ််ငွေရရှိသူတွေဖြစ်သလိုပဲကြောင်းတွေ့ရှိခဲ့ပါတယ်။
နောက်ဆက်တွဲအလုပ်များတွင်ဘုရင်နှင့်လုပ်ဖော်ကိုင်ဘက်များထပ်မံတရုတ်တွင်အွန်လိုင်းဆင်ဆာဖြတ်တောက်မှုစူးစမ်းကြပါပြီ (King, Pan, and Roberts 2014, [@king_how_2016] ) ။ တရုတ်တွင်အွန်လိုင်းဆင်ဆာဖြတ်တောက်မှုကိုတိုင်းတာဖို့ဆက်စပ်ချဉ်းကပ်ဘို့အတွေ့ Bamman, O'Connor, and Smith (2012) ။ များတွင်အသုံးပြုတတူသောစာရင်းအင်းနည်းလမ်းများအပေါ်ပိုပြီးအဘို့ King, Pan, and Roberts (2013) 11 သန်းရေးသားချက်များ၏စိတ်ဓါတ်များကိုခန့်မှန်းရန်တွေ့ Hopkins and King (2010) ။ ကြီးကြပ်သင်ယူမှုအပေါ်မှာပိုပြီးအဘို့အတွေ့ James et al. (2013) (လျော့နည်းနည်းပညာပိုင်းဆိုင်ရာ) နှင့် Hastie, Tibshirani, and Friedman (2009) (အသေးစိတ်နည်းပညာဆိုင်ရာ) ။
ကြိုတင်ခန့်မှန်းစက်မှုဇုန် data တွေကိုသိပ္ပံပညာ၏ကြီးမားသောအစိတ်အပိုင်းတစ်ခုဖြစ်ပါသည် (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) ။ အများအားလူမှုရေးသုတေသီများအားဖြင့်ပြုသောအမှုကြောင်းကြိုတင်ခန့်မှန်းတစ်ခုမှာအမျိုးအစားလူဦးရေဆိုင်ရာကြိုတင်ခန့်မှန်း၏, ဥပမာအဘို့အတွေ့ Raftery et al. (2012) ။
Google ကတုပ်ကွေး Trends တုပ်ကွေးရောဂါပျံ့နှံ့ nowcast မှရှာဖွေရေးဒေတာသုံးစွဲဖို့ပထမဦးဆုံးစီမံကိန်းကမဟုတ်ခဲ့ပေ။ တကယ်တော့, United States မှာသုတေသီများ (Polgreen et al. 2008; Ginsberg et al. 2009) နှင့်ဆွီဒင် (Hulth, Rydevik, and Linde 2009) အချို့သောရှာဖွေရေးဝေါဟာရများကိုတွေ့ရှိခဲ့ကြပါပြီ (ဥပမာ, "တုပ်ကွေး") အမျိုးသားရေးပြည်သူ့ကျန်းမာရေးစောင့်ကြည့်ခန့်မှန်း ကဖြန့်ချိခင်ဒေတာ။ နောက်ပိုင်းတွင်အများကြီးနဲ့အခြားစီမံကိန်းများအတွက်ရောဂါစောင့်ကြပ်ထောက်လှမ်းဘို့ဒစ်ဂျစ်တယ်သဲလွန်စဒေတာသုံးစွဲဖို့ကြိုးစားခဲ့ပြီ တွေ့မြင် Althouse et al. (2015) ပြန်လည်သုံးသပ်။
ကျန်းမာရေးရလဒ်များကြိုတင်ခန့်မှန်းဖို့ဒစ်ဂျစ်တယ်သဲလွန်စ data တွေကိုသုံးပြီးအပြင်, ကိုလည်းရွေးကောက်ပွဲရလဒ်များကိုကြိုတင်ခန့်မှန်းဖို့ Twitter ကိုဒေတာကို အသုံးပြု. အလုပ်၏ကြီးမားသောငွေပမာဏရှိခဲ့သည်; ပြန်လည်သုံးသပ်ခြင်းအဘို့ကိုတွေ့မြင် Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (အခန်း 7), နှင့် Huberty (2015) ။ ထိုကဲ့သို့သောစုစုပေါင်းပြည်တွင်းထုတ်ကုန် (ဂျီဒီပီ) အဖြစ်စီးပွားရေးညွှန်းကိန်းများ၏ Nowcasting တွေ့အလယ်ပိုင်းဘဏ်များအတွက်ကိုလည်းဘုံဖြစ်ပါတယ် Bańbura et al. (2013) ။ စားပွဲပေါ်မှာ 2.8 ကမ္ဘာပေါ်မှာအဖြစ်အပျက်အချို့ကိုကြင်နာကြိုတင်ခန့်မှန်းဖို့ဒစ်ဂျစ်တယ်သဲလွန်စအချို့ကိုမျိုးကိုအသုံးပြုလေ့လာမှုအနည်းငယ်ဥပမာပါဝင်သည်။
ဒစ်ဂျစ်တယ်သဲလွန်စ | အကျိုး | ဆင့်ခေါ်ချက် |
---|---|---|
တွစ်တာ | US မှာရုပ်ရှင်၏ box office ဝင်ငွေ | Asur and Huberman (2010) |
ရှာရန်မှတ်တမ်းများ | US မှာရုပ်ရှင်, ဂီတ, စာအုပ်တွေနဲ့ဗီဒီယိုဂိမ်း၏အရောင်း | Goel et al. (2010) |
တွစ်တာ | Dow Jones စက်မှုပျမ်းမျှ (အမေရိကန်စတော့ရှယ်ယာဈေးကွက်) | Bollen, Mao, and Zeng (2011) |
လူမှုမီဒီယာနှင့်ရှာဖွေရေးမှတ်တမ်းများ | အမေရိကန်ပြည်ထောင်စု, ယူနိုက်တက်ကင်းဒမ်း, ကနေဒါနှင့်တရုတ်နိုင်ငံများတွင်ရင်းနှီးမြှုပ်နှံသူစိတ်ဓါတ်များနှင့်စတော့ရှယ်ယာစျေးကွက်၏စစ်တမ်းများ | Mao et al. (2015) |
ရှာရန်မှတ်တမ်းများ | စင်္ကာပူနှင့်ဘန်ကောက်မြို့များတွင်သွေးလွန်တုပ်ကွေး၏ပျံ့နှံ့ | Althouse, Ng, and Cummings (2011) |
နောက်ဆုံးအနေနဲ့ Jon Kleinberg နှင့်လုပ်ဖော်ကိုင်ဖက်များက (2015) , ကြိုတင်ခန့်မှန်းပြဿနာများနှစ်ခုထဲသို့ကျကြောင်းထောက်ပြမသိမသာကွဲပြားခြားနားသောအမျိုးအစားများနှင့်လူမှုရေးသိပ္ပံပညာရှင်တွေဟာတဦးတည်းကိုအာရုံစိုက်နှင့်အခြားလျစ်လျူရှုရန်တော်မှာပြီပါပြီ။ ငါမိုးခေါင်ရင်ဆိုင်နေရသူသူမအားအန္န, မခေါ်ပါလိမ့်မယ်နှင့်တကွမိုဃ်းရွာ၏အခွင့်အလမ်းကိုတိုးမြှင့်ဖို့မိုးရွာရွာကခုန်လုပ်ဖို့ shaman ငှားရမ်းရန်ဆုံးဖြတ်ရမယ်, တဦးတည်းမူဝါဒအားထုတ်လုပ်သူဆိုပါစို့။ နောက်ထပ်မူဝါဒကထုတ်လုပ်သူ, ငါအိမ်ပြန်လမ်းစိုစွတ်သောရတဲ့ရှောင်ရှားရန်အလုပ်မလုပ်ဖို့ထီးယူရှိမရှိဆုံးဖြတ်ရမယ်, သူမ၏ဘက်တီကိုခေါ်ပါလိမ့်မယ်။ သူတို့ရာသီဥတုနားလည်ပါလျှင်သူ Anna နဲ့ Betty နှစ်ဦးစလုံးပိုကောင်းတဲ့ဆုံးဖြတ်ချက်ဖြစ်စေနိုင်ပါတယ်, ဒါပေမဲ့သူတို့ကွဲပြားခြားနားသောအရာတို့ကိုသိရန်လိုအပ်ပါသည်။ အန္နမိုဃ်းကိုရွာစေကခုန်မိုဃ်းကိုရွာစေခြင်းများဖြစ်ပေါ်ခြင်းရှိမရှိနားလည်ရန်လိုအပ်ပါသည်။ ဘက်တီ, အခြားတစ်ဖက်တွင်, ကြောင်းကျိုးဆက်စပ်အကြောင်းကိုဘာမှနားလည်ရန်မလိုအပ်ပါဘူး, သူမကပဲဟာတိကျမှန်ကန်တဲ့ခန့်မှန်းချက်လိုအပ်ပါသည်။ လူမှုသုတေသီများမကြာခဏ Anna-သောသူတို့သည်ကြောင်းကျိုးဆက်စပ်၏မေးခွန်းများကိုပါဝင် Kleinberg နှင့်လုပ်ဖော်ကိုင်ဖက်များက "မိုးရွာရွာကခုန်ကဲ့သို့သော" မူဝါဒကိုဘာဖြစ်လို့လဲဆိုတော့ပြဿနာများ-မခေါ်အားဖြင့်ရင်ဆိုင်ခဲ့ရသည်တကဲ့သို့ပြဿနာများအပေါ်အာရုံစူးစိုက်။ ဘက်တီ-ရာ Kleinberg နှင့်လုပ်ဖော်ကိုင်ဖက်များက "ထီးကဲ့သို့" မူဝါဒကိုမခေါ်အားဖြင့်ရင်ဆိုင်ခဲ့ရသည်တတူသောမေးခွန်းလွှာများလွန်းအတော်လေးအရေးကြီးသောဖြစ်ပြဿနာများ-နိုင်ပါသည်, သို့သော်လူမှုရေးသုတေသီများအနေဖြင့်အများကြီးလျော့နည်းအာရုံစူးစိုက်မှုကိုလက်ခံရရှိပါပြီ။
အဆိုပါဂျာနယ်သည် PS နိုင်ငံရေးသိပ္ပံကြီးတွေဒေတာ, ကြောင်းကျိုးဆက်စပ်အခြနှင့်တရားဝင်သီအိုရီအပေါ်တစ်ဦးစာတမ်းဖတ်ပွဲခဲ့ခြင်းနှင့် Clark and Golder (2015) တစ်ဦးချင်းစီအလှူငွေအနှစ်ချုပ်။ အမေရိက၏အမရေိကနျပွညျထောငျစု၏သိပ္ပံအမျိုးသားအကယ်ဒမီ၏အဆိုပါဂျာနယ်တရားစွဲဆိုထားကြောင်းကျိုးဆက်စပ်အခြနှင့်ကြီးမားသောအချက်အလက်ပေါ်တစ်ဦးစာတမ်းဖတ်ပွဲခဲ့ခြင်းနှင့် Shiffrin (2016) တစ်ဦးချင်းစီအလှူငွေအကျဉ်းချုပ်။ ကြီးမားတဲ့ data တွေကိုသတင်းရင်းမြစ်များ၏အတွင်းပိုင်းကိုသဘာဝစမ်းသပ်ချက်အလိုအလြောကျရှာဖွေတွေ့ရှိရန်ကြိုးစားကြောင်းစက်သင်ယူမှုချဉ်းကပ်ဘို့အတွေ့ Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) နှင့် Sharma, Hofman, and Watts (2016) ။
သဘာဝကစမ်းသပ်ချက်၏စည်းကမ်းချက်များ၌, Dunning (2012) များစွာသောဥပမာနဲ့မိတ်ဆက်, စာအုပ်-အရှည်ကုသမှုပေးစွမ်းသည်။ သဘာဝကစမ်းသပ်ချက်တစ်ခုသံသယအမြင်အဘို့အတွေ့ Rosenzweig and Wolpin (2000) (ဘောဂဗေဒ) သို့မဟုတ် Sekhon and Titiunik (2012) (နိုင်ငံရေးသိပ္ပံ) ။ Deaton (2010) နှင့် Heckman and Urzúa (2010) ကသဘာဝစမ်းသပ်ချက်အာရုံစိုက်အရေးမကြီးကြောင်းကျိုးဆက်စပ်ဆိုးကျိုးများခန့်မှန်းအာရုံစိုက်ဖို့သုတေသီများဦးဆောင်လမ်းပြနိုင်မငြင်းခုန်; Imbens (2010) ကသဘာဝစမ်းသပ်ချက်၏တန်ဖိုးတစ်ခုထက်ပိုသောအကောင်းမြင်ရှုထောနှင့်အတူဤအငြင်းခုံ counters ။
တစ်သုတေသီ်ထမ်းဆောင်၏အကျိုးသက်ရောက်မှုမှရေးဆွဲထားကြောင်း၏အကျိုးသက်ရောက်မှုခန့်မှန်းထံမှသွားနိုင်ပုံကိုဖော်ပြသည့်အခါကျွန်မဆာပ variable တွေကိုလို့ခေါ်တဲ့ technique ကိုဖော်ပြခဲ့သည်။ Imbens and Rubin (2015) , သူတို့ရဲ့အခန်းကြီး 23 နှင့် 24 များတွင်တစ်ခုမိတ်ဆက်ပေးဥပမာတစ်ခုအဖြစ်မူကြမ်းထီကိုအသုံးပြုပါ။ compliers အပေါ်စစ်မှုထမ်းများ၏အကျိုးသက်ရောက်မှုတစ်ခါတစ်ရံ complier ပျမ်းမျှအားကြောင်းကျိုးဆက်စပ်အကျိုးသက်ရောက်မှု (CAcE) နှင့်တခါတရံတွင်ဒေသခံပျမ်းမျှအားကုသမှုအကျိုးသက်ရောက်မှု (Late) ဟုခေါ်သည်။ Sovey and Green (2011) , Angrist and Krueger (2001) နှင့် Bollen (2012) ကနိုင်ငံရေးသိပ္ပံ, စီးပွားရေး, လူမှုဗေဒအတွက်နျဆာပ variable တွေကိုများ၏အသုံးပြုမှု၏ပြန်လည်သုံးသပ်ချက်များကို ပူဇော်. , Sovey and Green (2011) များအတွက်တစ်ဦး "စာဖတ်သူကိုရဲ့စစ်ဆေးရမည့်စာရင်း" ကိုထောက်ပံ့ပေး ဆာ variable တွေကိုသုံးပြီးလေ့လာမှုများအကဲဖြတ်။
ဒါဟာတကယ်တော့စနစ်တကျ randomized သည် 1970 မူကြမ်းထီမဟုတျကွောငျးထွက်လှည့်; စင်ကြယ်သောကျပန်းကနေသေးငယ်တဲ့သွေဖီရှိခဲ့သည် (Fienberg 1971) ။ Berinsky and Chatfield (2015) ဒီသေးငယ်တဲ့သွေဖည်ခိုင်မာအရေးမပါကြောင်းကိုစောဒကတက်သည်နှင့်စနစ်တကျကောက်ယူ Randomization ၏အရေးပါမှုကိုဆွေးနွေးပါ။
ကိုက်ညီခြင်း၏စည်းကမ်းချက်များ၌တွေ့ Stuart (2010) အနေနဲ့အကောင်းမြင်သုံးသပ်မှုအဘို့နှင့် Sekhon (2009) တစ်ဦးအဆိုးမြင်ပြန်လည်သုံးသပ်ဘို့။ တံစဉ်များကိုတစ်ဦးကြင်ကြင်နာနာအဖြစ်ကိုက်ညီအပေါ်ပိုပြီးအဘို့အတွေ့ Ho et al. (2007) ။ လူတစ်ဦးချင်းစီအဘို့တစ်ခုတည်းစုံလင်သောပွဲစဉ်ရှာဖွေခြင်းမကြာခဏခက်ခဲသည်, ဤရှုပ်ထွေးနေတဲ့အရေအတွက်ကမိတ်ဆက်။ အတိအကျပွဲကိုမရရှိနိုင်သောအခါပထမဦးဆုံး, သုတေသီများနှစ်ခုယူနစ်များအကြားနှင့်ပေးထားသောအကွာအဝေးအလုံအလောက်နီးကပ်လျှင်အကွာအဝေးကိုတိုင်းတာဖို့ဘယ်လိုဆုံးဖြတ်ဖို့လိုအပ်ပါတယ်။ သုတေသီများသည်ဤပိုပြီးတိကျတဲ့ခန့်မှန်းချက်ဖြစ်ပေါ်စေနိုင်ပါသည်ကတည်းကကုသမှုအုပ်စုတစ်ခုချင်းစီကိုအမှုအတှကျအမျိုးစုံပွဲစဉ်သုံးလိုပါလျှင်တစ်ဦးကစက္ကန့်ရှုပ်ထွေးပေါ်ပေါက်။ အဆိုပါကိစ္စရပ်များကိုနှစ်ယောက်စလုံးအဖြစ်အခြားသူများရဲ့အခနျး 18 ထဲမှာအသေးစိတ်ဖော်ပြထားကြသည် Imbens and Rubin (2015) ။ အပိုင်း II ကိုလည်းကြည့်ရှုပါ ( ??? ) ။
ကြည့်ရှုပါ Dehejia and Wahba (1999) နှင့်ကိုက်ညီသည့်နည်းလမ်းများတစ် randomized ထိန်းချုပ်ထားစမ်းသပ်မှုကနေသူတို့အားအလားတူခန့်မှန်းထုတ်လုပ်နိုင်ခဲ့ကြတယ်ဘယ်မှာဥပမာတစ်ခုပါ။ ဒါပေမယ့်တွေ့ Arceneaux, Gerber, and Green (2006) နှင့် Arceneaux, Gerber, and Green (2010) နှင့်ကိုက်ညီသည့်နည်းလမ်းများစမ်းသပ်အခြေခံစံနှုန်းမျိုးပွားရန်ပျက်ကွက်ဘယ်မှာဥပမာဘို့။
Rosenbaum (2015) နှင့် Hernán and Robins (2016) ကြီးတွေဒေတာသတင်းရင်းမြစ်အတွင်းအသုံးဝင်သောနှိုင်းယှဉ်ရှာဖွေတွေ့ရှိအခြားအကြံပေးချက်ကိုဆက်ကပ်။