Бұл тарауға кірмейтін бір түрі - этнография. Сандық кеңістіктегі этнография туралы көбірек білу үшін, Boellstorff et al. (2012) және аралас цифрлық және физикалық кеңістіктегі этнография туралы көбірек білу үшін « Lane (2016) бөлімін қараңыз.
«Үлкен деректер» туралы бірыңғай консенсустік анықтама жоқ, бірақ көптеген анықтамалар «3 Vs»: көлем, алуан және жылдамдыққа назар аударады (мысалы, Japec et al. (2015) ). De Mauro et al. (2015) анықтамаларды шолу үшін.
Мемлекеттік әкімшілік деректерді үлкен деректер категорияларына енгізу маған біршама әдеттен тыс, бірақ басқалар да бұл істі жасады, соның ішінде Legewie (2015) , Connelly et al. (2016) , Einav and Levin (2014) . Зерттеу үшін мемлекеттік әкімшілік деректердің мәні туралы көбірек ақпарат алу үшін Card et al. (2010) Adminstrative Data Taskforce (2012) , Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) және Grusky, Smeeding, and Snipp (2015) .
Мемлекеттік статистикалық жүйенің ішінен, әсіресе АҚШ Санақ бюросынан әкімшілік зерттеу мақсатында, Jarmin and O'Hara (2016) . Статистикалық Швецияда әкімшілік есептерді зерттеуге арналған Wallgren and Wallgren (2007) үшін Wallgren and Wallgren (2007) бөлімін қараңыз.
Бұл тарауда мен жалпы әлеуметтік сауалнама (GSS) секілді дәстүрлі сауалдаманы қысқаша салыстырдым, мысалы, Twitter сияқты әлеуметтік медиа деректер көзі. Дәстүрлі сауалнамалар мен әлеуметтік медиа деректерінің мұқият және мұқият салыстырылуы үшін Schober et al. (2016) .
Бұл үлкен деректердің 10 сипаттамасы әртүрлі авторлардың әртүрлі жолдарымен сипатталған. Жазу бұл мәселелерге менің ойыма әсер етті: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) Japec et al. (2015) Horton and Tambe (2015) , Japec et al. (2015) және Goldstone and Lupyan (2016) .
Осы тарауда мен цифрлық іздер терминін қолдандым, ол менің ойымша бейтараптық. Сандық цифрларға арналған тағы бір танымал термин цифрлық із қалдырады (Golder and Macy 2014) , бірақ Хэл Аберссон, Кен Ледин және Гарри Льюис (2008) атап өткендей, сандық саусақ іздері болуы ықтимал. Табиғат іздерін жасаған кезде сіз не болып жатқанын білесіз және сіздің іздеріңіз сізді жеке алғанда бақыламайды. Сол сияқты сіздің сандық іздеріңіз үшін де дұрыс емес. Шын мәнінде, Сіз білесіздер, сіз үнемі із қалдырасыз. Және бұл іздерде сіздің атыңыз болмаса да, олар жиі сізбен байланыса алады. Басқаша айтқанда, олар саусақ іздері сияқты көрінеді: көрінбейтін және жеке сәйкестендіргіш.
Үлкен деректер жиынтығы статистикалық тесттерді неліктен проблемалы көрсететіні туралы көбірек білу үшін, M. Lin, Lucas, and Shmueli (2013) және McFarland and McFarland (2015) бөлімін қараңыз. Бұл мәселелер зерттеушілерді статистикалық маңыздылыққа емес, тәжірибелік маңызға аударуға тиіс.
Raj Chetty және оның әріптестері салық есептілігіне қалай қол жеткізгені туралы көбірек білу үшін « Mervis (2014) бөлімін қараңыз.
Үлкен деректер жиынтығы, әдетте, бір компьютердің мүмкіндіктерінен тыс есептеу мәселелерін тудыруы мүмкін. Сондықтан үлкен деректер жиынтығы бойынша есептеулер жасайтын зерттеушілер көбінесе көптеген компьютерлерде жұмыс жасайды, кейде параллельді бағдарламалау деп аталатын үдеріс. Параллельді программалауға кірісу үшін, атап айтқанда, Hadoop деп аталатын тілде Vo and Silvia (2016) бөлімін қараңыз.
Әрдайым деректерді қарастырған кезде, дәл сол адамдарды бір уақытта салыстырып отырсыз ба, немесе кейбір өзгеретін адамдар тобын салыстыра отырып, салыстырасыз ба; қараңыз, мысалы, Diaz et al. (2016) .
Эффективті емес шаралар туралы классикалық кітап Webb et al. (1966) . Бұл кітабындағы мысалдар сан ғасырын жасайды, бірақ олар әлі күнге дейін жарықтандырады. Адамдардың бұқаралық қадағалаудың болуына байланысты мінез-құлқын өзгертетін мысалдар үшін Penney (2016) және Brayne (2014) бөлімін қараңыз.
Реактивтілік зерттеушілердің сұраныс әсерлерін (Orne 1962; Zizzo 2010) және Hawthorne әсері (Adair 1984; Levitt and List 2011) деп атайды.
Жазбалар туралы қосымша ақпарат алу үшін Dunn (1946) және Fellegi and Sunter (1969) (тарихи) және Larsen and Winkler (2014) (қазіргі заманғы). Осындай тәсілдер информатикада деректерді диплепирлеу, дананы сәйкестендіру, атауды сәйкестендіру, қайталануды анықтау және жазбаларды анықтауды қайталайтын (Elmagarmid, Ipeirotis, and Verykios 2007) . Сондай-ақ жеке сәйкестендіретін ақпаратты беруді талап етпейтін жазба байланысының құпиялылықты сақтау тәсілдері бар (Schnell 2013) . Сонымен қатар, Facebook өздерінің жазбаларын дауыс беру тәртібімен байланыстыру үдерісін әзірледі; бұл сізге 4-тарауда айтатын экспериментті бағалау үшін жасалды (Bond et al. 2012; Jones et al. 2013) .
Құрылысты Shadish, Cook, and Campbell (2001) туралы қосымша ақпарат алу үшін Shadish, Cook, and Campbell (2001) бөлімін қараңыз.
AOL іздеу журналы туралы көбірек ақпарат алу үшін Ohm (2010) бөлімін қараңыз. Тәжірибелерді суреттегенде, 4-тарауда компаниялар мен үкіметтермен серіктестік туралы кеңес беремін. Бірқатар авторлар қол жетімсіз деректерге негізделген зерттеулерге қатысты алаңдаушылық білдірді, Huberman (2012) және boyd and Crawford (2012) бөлімін қараңыз.
университет зерттеушілер деректер қол жеткізуді сатып алуға арналған бір жақсы жолы стажер немесе бару зерттеуші ретінде компанияда жұмыс істеу. деректер қол жеткізуін қамтамасыз қатар, бұл процесс, сондай-ақ талдау үшін маңызды болып табылатын, зерттеуші деректер құрылды туралы қосымша ақпарат алу көмектеседі.
Үкіметтік деректерге қолжетімділікке байланысты Mervis (2014) Радж Четти және оның әріптестері өздерінің әлеуметтік қозғалысы туралы зерттеулерінде қолданылған салықтық жазба құжаттарына қалай қол жеткізе алатынын талқылайды.
Тұжырымдамасы ретінде «репрезентативтік» тарихы бойынша толығырақ қараңыз Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , және Kruskal and Mosteller (1980) .
Менің Қыс пен Жұмыстың жұмысы туралы қысқаша ақпаратым қысқаша болды. Freedman (1991) тырысқақпен жұмыс істеу туралы көбірек білу үшін Freedman (1991) бөлімін қараңыз. Британдық дәрігерлерді зерттеу туралы толығырақ Doll et al. (2004) және Keating (2014) .
Көптеген зерттеушілер Долл мен Хилл әйел дәрігерлерден және 35 жасқа дейінгі дәрігерлерден деректер жинағанымен таңқаларады, олар бұл деректерді алғашқы талдау кезінде әдейі пайдаланбаған. Олар: «Туберкулездің қатерлі ісігі 35 жасқа толмаған ерлер мен әйелдерде салыстырмалы түрде сирек кездесетіндіктен, бірнеше жылдан кейін бұл топтарда пайдалы деректерді алу екіталай емес. Осы алдын-ала есепте 35 жастан асқан еркектерге назар аудардық «. Rothman, Gallacher, and Hatch (2013) « Неге өкілдікке жол бермеу керек? »Деген арандатушылық тақырыбы бар, әдейі емес репрезентативтік деректерді жасау.
Өкілсіздік - бүкіл халық туралы мәлімдеме жасағысы келетін зерттеушілер мен үкіметтер үшін маңызды мәселе. Бұл, әдетте, пайдаланушылардың назарын аударатын компаниялардың алаңдаушылығы. Статистикалық Нидерланды бизнестің ірі деректерін ұсынбау туралы мәселені қалай қарайтынын білу үшін, Buelens et al. (2014) .
Үлкен деректер көздерінің K. Lewis (2015b) емес сипатына қатысты алаңдаушылық білдіретін зерттеушілердің мысалдарына K. Lewis (2015b) boyd and Crawford (2012) , K. Lewis (2015b) және K. Lewis (2015b) Hargittai (2015) .
Әлеуметтік сауалнамалар мен эпидемиологиялық зерттеулердің мақсаттарын егжей-тегжейлі салыстыру үшін Keiding and Louis (2016) .
Твиттерді сайлаушылар туралы, мысалы, 2009 жылғы неміс сайлауынан бастап, сайлау туралы әңгімелеу туралы әңгімелеу үшін пайдалану туралы көбірек ақпарат алу үшін Jungherr (2013) және Jungherr (2015) . Tumasjan et al. (2010) жұмысынан кейін Tumasjan et al. (2010) Бүкіл әлем бойынша зерттеушілер Твиттер деректерінің түрлі сайлау түрлерін алдын-ала болжау мүмкіндігін жетілдіру мақсатында (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Huberty (2015) сайлауды болжауға арналған осы әрекеттердің нәтижелерін қалай Huberty (2015) :
«Әлеуметтік медиаға негізделген барлық белгілі болжау әдістері шынайы болашаққа үміткерлерді болжаудың талаптарын орындаған кезде сәтсіз болды. Бұл сәтсіздіктер әдіснамалық немесе алгоритмдік қиындықтарға емес, әлеуметтік медианың негізгі қасиеттеріне байланысты. Қысқаша айтқанда, әлеуметтік медиа сайлаушылардың тұрақты, бейтарап, өкілдік бейнесін ұсынбайды және, әрине, ешқашан болмайды; әлеуметтік медианың үлгілері бұл мәселелерді шешу үшін жеткілікті деректер болмады. «
3-тарауда іріктеу мен бағалауды егжей-тегжейлі сипаттаймын. Деректер репрезентативтік емес болса да, белгілі бір жағдайларда олар жақсы бағалаулар жасау үшін салмақталуы мүмкін.
Сыртқы жүйеден көріну өте қиын. Дегенмен, MovieLens жобасы (4-тарауда көп талқыланған) академиялық зерттеу тобы 15 жылдан астам уақыт бойы жұмыс істейді. Осылайша, олар жүйенің уақыт өткеннен кейін қалай дамып келе жатқаны туралы ақпаратпен бөлісе алды және бұл қалай әсер етуі мүмкін (Harper and Konstan 2015) .
Ғалымдар бірқатар Twitter дрейф бағытталған: Liu, Kliman-Silver, and Mislove (2014) және Tufekci (2014) .
Халықтың ауытқуымен күресудің бір жолы - зерттеушілерге уақыт өте келе бірдей адамдарды зерттеуге мүмкіндік беретін пайдаланушылардың панельін құру, Diaz et al. (2016) қараңыз Diaz et al. (2016) .
Мен алғаш рет сөйлескенде Джон Клейнбергтің қолданған «алгоритмдік шошытылған» терминін естідім, бірақ, өкінішке орай, әңгіме қашан және қайда болғанын есіме түсірмедім. Баспа түрінде алғаш рет көргенде Anderson et al. (2015) Танысу сайттарында қолданылған алгоритмдер зерттеушілердің әлеуметтік жеңілдіктерді зерттеу үшін осы веб-сайттардағы деректерді пайдалану мүмкіндігін қиындатуы мүмкін. Бұл алаңдаушылық Anderson et al. (2014) жауап ретінде K. Lewis (2015a) көтерді Anderson et al. (2014) .
Twitter-ге қоса, Twitter-де пайдаланушыларға триациалық жабу идеясы негізінде ұстануды ұсынады. Su, Sharma, and Goel (2016) . Осылайша, Twitter-дегі үшайырлы жабылу деңгейі троадиокомпанияның жабылуына қатысты кейбір адамдық үрдістердің үйлесуі және үштігін жабудың алгоритмдік үрдісі.
Өнімділік туралы көп білу үшін, атап айтқанда, кейбір әлеуметтік ғылым теориясы «камера емес, қозғалтқыштар» деген идеяны (яғни, оны жай сипаттаудан гөрі, әлемді қалыптастырады) түсіну үшін - Mackenzie (2008) .
Мемлекеттік статистикалық агенттіктер статистикалық деректерді өңдеуді деректерді тазалауға шақырады. De Waal, Puts, and Daas (2014) зерттеу деректері үшін әзірленген статистикалық деректерді өңдеу әдістерін сипаттайды және олар үлкен дерек көздеріне қаншалықты қолданылатындығын зерттейді және Puts, Daas, and Waal (2015) бірнеше идеяларды ұсынады. неғұрлым жалпы аудитория.
Әлеуметтік боттарды шолу үшін Ferrara et al. (2016) . Twitter-дегі спамдарды іздеуге бағытталған зерттеулердің кейбір мысалдарына Clark et al. (2016) және Chu et al. (2012) . Chu et al. (2012) . Соңында, Subrahmanian et al. (2016) Twitter-дегі боттарды табу тәсілдерін салыстыру үшін жасалынған DARPA Twitter Bot Challenge-дің нәтижелерін сипаттайды.
Ohm (2015) сезімтал ақпарат идеясы бойынша бұрынғы зерттеулерді қарастырады және көп факторлы тестілеуді ұсынады. Ол ұсынатын төрт фактор зиянның зияны, зиян ықтималдығы, құпия қатынастардың болуы және тәуекелдің көпшілдік мәселелерді бейнелейтіні болып табылады.
Фарбердің Нью-Йорктегі таксилерді зерттеуі Camerer et al. (1997) бұрынғы зерттеуіне негізделген Camerer et al. (1997) , Ол үш түрлі ыңғайлы үлгілерді қағаз парақтарын пайдаланды. Бұрынғы зерттеуде жүргізушілердің мақсатты табынушылар болғаны анықталды: олар жалақының жоғары болған күндері аз жұмыс істеді.
Кейінгі жұмысында Король және әріптестер Қытайдағы онлайн-цензураны (King, Pan, and Roberts 2014, [@king_how_2016] ) одан әрі зерттеді. Қытайдағы онлайн-цензураны өлшеудің ілеспе тәсілі үшін Bamman, O'Connor, and Smith (2012) бөлімін қараңыз. King, Pan, and Roberts (2013) 11 миллион посттарға қатысты пікірлерді бағалау үшін қолданылатын статистикалық әдістер туралы көбірек білу үшін Hopkins and King (2010) . Жетекшілік ететін оқыту туралы қосымша ақпаратты James et al. (2013) (кем техникалық) және Hastie, Tibshirani, and Friedman (2009) (техникалық).
(Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) өнеркәсіптік деректер ғылымының үлкен бөлігі болып табылады (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Әлеуметтік зерттеушілердің әдетте жасаған болжаудың бір түрі - демографиялық болжау; қараңыз, мысалы, Raftery et al. (2012) . Raftery et al. (2012) .
Google Flu Trends тұмауының таралуы туралы деректерді іздеудің алғашқы жобасы емес. Шындығында Құрама Штаттардағы зерттеушілер (Polgreen et al. 2008; Ginsberg et al. 2009) және Швеция (Hulth, Rydevik, and Linde 2009) белгілі бір іздеу терминдері (мысалы, «тұмау») ұлттық денсаулық сақтаудың деректер шығарылғанға дейін. Көптеген басқа көптеген жобалар ауруды қадағалауды анықтау үшін сандық бақылау деректерін қолдануға тырысты; қараңыз Althouse et al. (2015) шолу үшін.
Денсаулық сақтау нәтижелерін болжау үшін сандық деректерді пайдаланудан басқа, сайлау нәтижелерін алдын-ала болжау үшін Twitter-дегі деректерді пайдалану үлкен жұмыс болды; Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (7-тарау) және Huberty (2015) . Экономикалық индикаторлар, мысалы, жалпы ішкі өнім (ЖІӨ) сияқты, орталық банктерде де жиі кездеседі, Bańbura et al. (2013) . Bańbura et al. (2013) . 2.8-кестеде әлемде қандай да бір оқиғаны болжау үшін цифрлы іздердің қандай да бір түрін қолданатын зерттеулердің бірнеше мысалдары берілген.
Сандық із | Нәтиже | Citation |
---|---|---|
АҚШ-тағы кино түсірілімінің кеңсесі | Asur and Huberman (2010) | |
Іздеу журналдары | АҚШ-та фильмдер, музыка, кітаптар мен бейне ойындар сату | Goel et al. (2010) |
Dow Jones Industrial Average (АҚШ қор нарығы) | Bollen, Mao, and Zeng (2011) | |
Әлеуметтік медиа және іздеу журналдары | Құрама Штаттардағы, Ұлыбританиядағы, Канададағы және Қытайдағы инвесторлық көңіл-күй мен акциялар нарығына шолу | Mao et al. (2015) |
Іздеу журналдары | Сингапур мен Бангкоктағы Dengue Fever таралуы | Althouse, Ng, and Cummings (2011) |
Соңында, Джон Клейнберг және әріптестері (2015) болжамдардың проблемалары екіге бөлініп, әр түрлі санаттарға ие екендігін және әлеуметтік ғалымдардың біреуге назар аударып, екіншісін елемеуге тырысқанын атап өтті. Бір саясаткерді елестетіп, оны құрғақшылыққа душар болған Анна деп атайтын боламын және жаңбырдың мүмкіндігін арттыру үшін жаңбыр биін жасау үшін шаманды жалдауға болатынын шешуге тиіс. Тағы бір саясаткер, оны Бетти деп атаймын, үйге жол бермеу үшін жұмыс жасау үшін қолшатырды алу керек пе? Ауа-райы түсінгенде Анна да, Бетти да жақсы шешім қабылдай алады, бірақ олар әртүрлі заттарды білуі керек. Аннаның жаңбыр биінің жаңбырдың пайда болатынын түсіну керек. Екінші жағынан, Бетти, себептер туралы ештеңе түсіну қажет емес; ол дәл болжамды қажет етеді. Әлеуметтік зерттеушілер жиі Анна алдында тұрған проблемаларға баса назар аударады - бұл Клейнберг және оның әріптестері «жаңбыр тәрізді» саяси проблемалар деп атайды, себебі олар себеп-салдардың мәселелерін қамтиды. Бейтемен кездескендер сияқты, Клиннерг және әріптестерінің «қолшатыр» саясат мәселелері деп атағандары да өте маңызды болуы мүмкін, бірақ әлеуметтік зерттеушілерден әлдеқайда аз көңіл бөлінеді.
« PS Political Science» журналы үлкен деректерге, себеп-салдарға және ресми теорияға қатысты симпозиумға ие болды, ал Clark and Golder (2015) әр үлесті жинақтады. Америка Құрама Штаттарының Ұлттық Ғылымдар Академиясының журналы себеп- Shiffrin (2016) және үлкен деректер туралы симпозиумға ие болды, және Shiffrin (2016) әр үлесті жинақтады. Үлкен деректер көздерінің ішіндегі табиғи эксперименттерді автоматты түрде табуға тырысатын машина оқыту тәсілдері туралы Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , Sharma, Hofman, and Watts (2016) .
Табиғи эксперименттер бойынша, Dunning (2012) көптеген мысалдармен кіріспе, ұзақтықты емдеуді қамтамасыз етеді. Табиғи эксперименттерге күмәнданбау үшін Rosenzweig and Wolpin (2000) (экономика) немесе Sekhon and Titiunik (2012) (саяси ғылым) бөлімін қараңыз. Deaton (2010) және Heckman and Urzúa (2010) табиғи эксперименттерге назар аудару зерттеушілерге маңызды емес себеп-салдарын бағалауға баса назар аударуға қабілетті екендіктерін айтады; Imbens (2010) осы аргументтерді табиғи эксперименттердің мәнін барынша оптимистік түрде қарайды.
Зерттеушінің қызмет етудің әсерін бағалау нәтижесін бағалаудан қалай кететінін сипаттағанда, мен аспаптық ауыспалы деп аталатын әдісті сипаттадым. Imbens and Rubin (2015) , олардың 23 және 24 тарауларында мысал ретінде лотереяның жобасын енгізуді және оны пайдалануды ұсынады. Әскери қызметтің компиляторларға әсері кейде орташа нәтиже көрсеткіші (CAcE) және кейде жергілікті орташа емдеу әсері (LATE) деп аталады. Sovey and Green (2011) , « Angrist and Krueger (2001) және Bollen (2012) саяси ғылымдар, экономика және әлеуметтанудағы аспаптық айнымалы мәндерді пайдалану туралы пікірлерді ұсынды, ал « Sovey and Green (2011) - «оқырмандардың бақылау тізімі» аспаптық айнымалылар көмегімен зерттеуді бағалау.
1970 жылғы лотереяның жобасы дұрыс емес, шынында да рандомизацияланған жоқ; таза кездейсоқтықтан кішкене ауытқулар болды (Fienberg 1971) . Berinsky and Chatfield (2015) бұл кішкентай ауытқу маңызды емес және дұрыс жүргізілген рандомизацияның маңыздылығын талқылайды.
Sekhon (2009) , Stuart (2010) оптимистік шолу үшін және Sekhon (2009) пессимистік шолу үшін. Сәйкесінше, кесу түрі ретінде көбірек алу үшін Ho et al. (2007) қараңыз Ho et al. (2007) . Ho et al. (2007) . Әрбір адам үшін бірыңғай мінсіз сәйкестікті табу жиі қиын және бұл бірқатар қиындықтарды тудырады. Алдымен, дәл сәйкестік болмаған кезде, зерттеушілер екі бірлік арасындағы қашықтықты қалай өлшеуге болатынын және егер бұл қашықтық жеткілікті жақын болса, шешуге тура келеді. Екінші қиындық, егер зерттеушілер терапия тобында әрбір жағдайға бірнеше матчтарды қолданғысы келсе, бұл дәлірек бағалауға әкелуі мүмкін. Бұл мәселелердің екеуі де, сондай-ақ басқалар, Imbens and Rubin (2015) 18-тарауында толығырақ сипатталған. Сондай-ақ II Бөлімін қараңыз ( ??? ) .
Dehejia and Wahba (1999) , сәйкесінше әдістер рандомизацияланған бақыланатын эксперименттерге ұқсас бағалауды жасауға қабілетті. Алайда, Arceneaux, Gerber, and Green (2006) және Arceneaux, Gerber, and Green (2010) мысалдарына сәйкес, эксперименталды эталонның сәйкес әдістерін шығара алмады.
Rosenbaum (2015) және Hernán and Robins (2016) ірі деректер көздерінде пайдалы салыстыруды табу үшін басқа кеңестер ұсынады.