Једна врста посматрања која није укључена у ово поглавље је етнографија. За више о етнографији у дигиталним просторима погледајте Boellstorff et al. (2012) , а за више о етнографији у мешовитим дигиталним и физичким просторима, види Lane (2016) .
Не постоји појединачна консензусна дефиниција "великих података", али многе дефиниције се фокусирају на "3 Вс": запремину, разноврсност и брзину (нпр. Japec et al. (2015) ). Види De Mauro et al. (2015) за преглед дефиниција.
Моје укључивање владиних административних података у категорију великих података је мало неуобичајено, иако су други такодје поднели овај случај, укључујући Legewie (2015) , Connelly et al. (2016) и Einav and Levin (2014) . Више о вриједности владиних административних података за истраживање потражите у Card et al. (2010) , Adminstrative Data Taskforce (2012) Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) и Grusky, Smeeding, and Snipp (2015) .
У погледу административних истраживања из владиног статистичког система, а посебно у Биро за попис становништва САД, види Jarmin and O'Hara (2016) . За књиговодствени третман истраживања административне евиденције у Статистици Шведска, погледајте Wallgren and Wallgren (2007) .
У поглављу сам укратко упоредио традиционално истраживање као што је Општа друштвена анкета (ГСС) са изворима података из социјалних медија као што је Твиттер. За детаљно и пажљиво упоређивање традиционалних истраживања и података о друштвеним мрежама погледајте Schober et al. (2016) .
Ове 10 карактеристика великих података описане су на различите начине од стране различитих аутора. Писање које је утицало на моје размишљање о овим питањима укључује Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) и Goldstone and Lupyan (2016) .
Кроз ово поглавље, користио сам појам дигиталне трагове , за које мислим да су релативно неутралне. Још један популаран израз за дигиталне трагове представљају дигитални отисци (Golder and Macy 2014) , али како истичу Хал Абелсон, Кен Ледеен и Харри Левис (2008) , погоднији термин је вероватно дигитални отисци прстију . Када креирате отиске, свјесни сте шта се догађа и ваши отисци не могу обично пратити за вас лично. Исто важи за ваше дигиталне трагове. У ствари, остављате трагове све време о којима имате мало знања. Иако ови трагови немају своје име на њима, они се често могу повезати са вама. Другим ријечима, они су више као отисци прстију: невидљиви и лично идентификују.
Више о томе зашто велики скупови података отежавају статистичке тестове, види M. Lin, Lucas, and Shmueli (2013) и McFarland and McFarland (2015) . Ова питања би требало да воде истраживаче да се фокусирају на практични значај, а не на статистичку важност.
Више о томе како су Рај Цхетти и колеге добили приступ пореским записима, види Mervis (2014) .
Велики скупови података такође могу створити рачунарске проблеме који су углавном изван могућности једног рачунара. Због тога су истраживачи који израђују рачуне на великим скуповима података често ширили рад на многим рачунарима, процес који се понекад назива паралелним програмирањем . За упознавање са паралелним програмирањем, посебно за језик под називом Хадооп, погледајте Vo and Silvia (2016) .
Приликом разматрања података који се увек налазе, важно је размотрити да ли упоређујете исте људе током времена или да ли упоређујете неку промјену групе људи; видети, на примјер, Diaz et al. (2016) .
Класична књига о нереактивним мерама је Webb et al. (1966) . Примери у тој књизи су предодредјени дигиталном добу, али и даље осветљавају. За примере људи који мењају своје понашање због присуства масовног надзора, погледајте Penney (2016) и Brayne (2014) .
Реактивност је уско повезана са оним што истраживачи зову ефекте потражње (Orne 1962; Zizzo 2010) и ефекат Хавтхорне (Adair 1984; Levitt and List 2011) .
За више о рекордним везама, погледајте Dunn (1946) и Fellegi and Sunter (1969) (историјски) и Larsen and Winkler (2014) (модерни). Слични приступи су такође развијени у рачунарским наукама под називима као што су дедупликација података, идентификација инстанце, подударање имена, дуплирање детекције и дуплирана детекција записа (Elmagarmid, Ipeirotis, and Verykios 2007) . Постоје и приступи који чувају приватност за снимање везе које не захтевају пренос личних података (Schnell 2013) . Фацебоок је такође развио процес повезивања својих евиденција са понашањем гласача; ово је учињено како би се проценио експеримент који ћу вам рећи у поглављу 4 (Bond et al. 2012; Jones et al. 2013) .
Више о конструкцији валидности потражите у поглављу 3 Shadish, Cook, and Campbell (2001) .
За више о АОЛ-у тражење дебака, погледајте Ohm (2010) . Ја нудим савете о партнерству са компанијама и владама у поглављу 4 када описујем експерименте. Бројни аутори изразили су забринутост због истраживања која се ослања на недоступне податке, види Huberman (2012) и boyd and Crawford (2012) .
Један добар начин за универзитетски истраживачи добију приступ подацима је да ради у компанији као приправник или гостујући истраживач. Поред омогућавања приступа подацима, овај процес ће такође помоћи истраживач сазнате више о томе како су подаци је настала, што је важно за анализу.
У смислу приступа владиним подацима, Mervis (2014) говори о томе како су Рај Цхетти и колеге добили приступ пореским евиденцијама кориштеним у њиховом истраживању о друштвеној мобилности.
Више о историји "репрезентативности" као концепта види Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , и Kruskal and Mosteller (1980) .
Моји резимеи рада Снијега и радови Долл и Хилл били су кратки. Више о сновом раду на колери види Freedman (1991) . Више о Студији о британским лекарима види Doll et al. (2004) и Keating (2014) .
Многи истраживачи ће бити изненађени када сазнају да иако су Долл и Хилл прикупили податке од доктора и од доктора до 35 година, они намјерно нису користили ове податке у својој првој анализи. Како су рекли: "С обзиром да је рак плућа релативно ретко код жена и мушкараца млађих од 35 година, вероватно ће се у ових група вероватно наћи неке корисне фигуре у наредним годинама. Зато смо у овом прелиминарном извјештају ограничили нашу пажњу на мушкарце старости 35 и више година. " Rothman, Gallacher, and Hatch (2013) , који има провокативну титулу" Зашто се треба избећи репрезентативност ", дају општи аргумент за вриједност намерно стварање нестандардних података.
Непрегледност је велики проблем за истраживаче и владе који желе дати изјаву о читавој популацији. Ово је мање забрињавајуће за компаније које се обично фокусирају на своје кориснике. Више о томе како статистика Холандија разматра питање непрепознатљивости великих пословних података, погледајте Buelens et al. (2014) .
За примере истраживача који изражавају забринутост због не-репрезентативне природе великих извора података, погледајте boyd and Crawford (2012) , K. Lewis (2015b) и Hargittai (2015) .
За детаљније упоређивање циљева социјалних истраживања и епидемиолошких истраживања, погледајте Keiding and Louis (2016) .
Више о покушајима коришћења Твиттер-а да би се извели узорци генерализације о бирачима, посебно случај са избора у Немачкој 2009, погледајте Jungherr (2013) и Jungherr (2015) . После рада Tumasjan et al. (2010) истраживачи широм свијета су користили боље методе - као што је кориштење анализе расположења за разлику између позитивних и негативних помињања партија - како би се побољшала способност Твиттер података да предвиде низ различитих врста избора (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Ево како је Huberty (2015) резимирао резултате ових покушаја да предвиди изборе:
"Све познате методе предвиђања засноване на друштвеним медијима пропале су када су биле подвргнуте захтевима истинског предвиђања изборног предвиђања. Изгледа да су ови пропусти последица основних особина друштвених медија, а не методолошких или алгоритамских тешкоћа. Укратко, друштвени медији не пружају, нити вероватно никад неће, понудити стабилну, непристрасну, репрезентативну слику бирачког тела; и узорци погодности друштвених медија недостају довољни подаци да би се ови проблеми решили после хок. "
У поглављу 3, детаљно ћу описати узорковање и процену. Чак и ако подаци нису представници, под одређеним условима, они се могу пондерисати како би произвели добре процјене.
Дренирање система је веома тешко видјети споља. Међутим, пројекат МовиеЛенс (о чему се више говори у поглављу 4) спроводи академска истраживачка група више од 15 година. Стога су успели да документују и размењују информације о начину на који се систем еволуирао током времена и како то може утицати на анализу (Harper and Konstan 2015) .
Бројни научници су се усредсредили на дрифт на Твиттеру: Liu, Kliman-Silver, and Mislove (2014) и Tufekci (2014) .
Један приступ бављења становништвом је стварање панела корисника, што омогућава истраживачима да проучавају исте људе током времена, види Diaz et al. (2016) .
Ја сам први пут чуо термин "алгоритмички збуњен" који је користио Јон Клеинберг у разговорима, али нажалост не сећам се када и гдје је говор. Први пут када сам видио термин у штампи био је у Anderson et al. (2015) , што је интересантна дискусија о томе како алгоритми које користе датинг сајтови могу компликовати способност истраживача да користе податке са ових веб локација да би проучили друштвене преференце. Ова забринутост је покренуо K. Lewis (2015a) у одговору на Anderson et al. (2014) .
Поред Фацебоок-а, Твиттер такође препоручује кориснике за кориснике да прате базу на идеји тријадског затварања; види Su, Sharma, and Goel (2016) . Тако је ниво тријадашњег затварања на Твиттеру комбинација неке људске тенденције према тријадичном затварању и неке алгоритамске тенденције за промоцију тридашњег затварања.
Више о перформативности - нарочито идеју да су неке теорије друштвене науке "мотори и камере" (тј. Они обликују свет, а не само да га описују) - погледајте Mackenzie (2008) .
Владине статистичке агенције позивају на обраду статистичких података за чишћење података . De Waal, Puts, and Daas (2014) описују технике за уређивање статистичких података развијених за податке истраживања и испитају у којој мјери су примјењиве на велике изворе података, а Puts, Daas, and Waal (2015) представљају неке од истих идеја за опширнија публика.
За преглед социјалних ботова погледајте Ferrara et al. (2016) . За неке примјере студија усмјерених на проналажење спема на Твиттер-у, погледајте Clark et al. (2016) и Chu et al. (2012) . На крају, Subrahmanian et al. (2016) описују резултате ДАРПА Твиттер Бот Цхалленгеа, масовну сарадњу дизајнирану за упоређивање приступа за откривање бота на Твиттер-у.
Ohm (2015) разматра раније истраживање о идеји осјетљивих информација и нуди мулти-факторски тест. Четири фактора који он предлаже су величина штете, вјероватноћа штете, присуство поверљивог односа и да ли ризик одражава већински проблем.
Фарберова студија таксија у Њујорку заснована је на ранијој студији Camerer et al. (1997) који је користио три различита узорка листова папира. Ова ранија студија показала је да су возачи изгледали као циљани: мање су радили у данима када су њихове плате биле веће.
У наредном раду, Кинг и колеге су додатно истражили цензуру на мрежи у Кини (King, Pan, and Roberts 2014, [@king_how_2016] ) . За сродни приступ мерењу цензуре на мрежи у Кини, погледајте Bamman, O'Connor, and Smith (2012) . За више информација о статистичким методама као што су King, Pan, and Roberts (2013) за процену расположења од 11 милиона постова погледајте Hopkins and King (2010) . Више о надзираном учењу види James et al. (2013) (мање технички) и Hastie, Tibshirani, and Friedman (2009) (више технички).
Прогноза је велики дио научних података о индустријама (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Једна врста предвиђања која се обично врши од стране социјалних истраживача је демографска предвиђања; види, на примјер, Raftery et al. (2012) .
Гоогле Флу Трендс није био први пројекат који користи податке за претрагу за тренутно ширење грипа. Заправо, истраживачи у Сједињеним Државама (Polgreen et al. 2008; Ginsberg et al. 2009) и Шведска (Hulth, Rydevik, and Linde 2009) су открили да одређени појмови претраживања (нпр. "Грипа") предвиђају национални надзор јавног здравља податке пре него што је пуштен. Након тога многи, многи други пројекти покушали су користити дигиталне податке о траговима за откривање болести надгледања; види Althouse et al. (2015) за преглед.
Поред коришћења података о дигиталним траговима за предвиђање здравствених резултата, такође је постојала огромна количина рада коришћењем података из Твиттера да би се предвидели исходи избора; за прегледе види Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (поглавље 7) и Huberty (2015) . Приказивање економских индикатора, као што је бруто домаћи производ (БДП), такође је уобичајено у централним банкама, види Bańbura et al. (2013) . Табела 2.8 садржи неколико примера студија које користе неку врсту дигиталног трага за предвиђање неке врсте догађаја у свијету.
Дигитални траг | Исход | Цитатион |
---|---|---|
Твиттер | Приход од боксова у филмовима у САД-у | Asur and Huberman (2010) |
Претрага дневника | Продаја филмова, музике, књига и видео игара у САД | Goel et al. (2010) |
Твиттер | Дов Јонес Индустриал Авераге (америчка бурза) | Bollen, Mao, and Zeng (2011) |
Друштвени медији и дневници за претрагу | Анкете о расположењу инвеститора и берзама у Сједињеним Државама, Уједињеном Краљевству, Канади и Кини | Mao et al. (2015) |
Претрага дневника | Преваленца денгуе грознице у Сингапуру и Бангкоку | Althouse, Ng, and Cummings (2011) |
На крају, Јон Клеинберг и колеге (2015) су истакли да проблеми са предвиђањима спадају у две, суптилно различите категорије и да су социјални научници углавном фокусирани на један и игнорисати другу. Замислите једног креатора политике, назваћу је Ана, која се суочава са сушењем и мора одлучити да ли да ангажује шамана да направи плес за кишу како би повећала шансу кише. Још један креатор политике, назваћу је Бетти, мора одлучити да ли да кишобран за рад како би се избјегао да се осуши на путу кући. И Анна и Бетти могу донијети бољу одлуку ако разумеју вријеме, али морају знати различите ствари. Ана мора да разуме да ли кишни плес изазива кишу. С друге стране, Бетти не мора ништа да разуме о узрочности; она само треба тачну прогнозу. Социјални истраживачи често се фокусирају на проблеме као што је она са којом се суочавала Анна - а Клеинберг и колеге називају проблеме са "кишним плесом" - јер укључују питања узрочности. Питања као што је она са којом се суочава Бетти - коју Клеинберг и колеге називају "кишобраним" политичким проблемима - могу бити веома важни, али су имали много мање пажње од социјалних истраживача.
Часопис ПС Политичке науке имао је симпозијум о великим подацима, узрочном закључку и формални теорији, а Clark and Golder (2015) сумирају сваки допринос. Зборник радова Националне академије наука Сједињених Америчких Држава одржао је симпозијум о узрочном закључку и великим подацима, а Shiffrin (2016) сумира сваки допринос. За приступе машинском учењу које покушавају аутоматски открити природне експерименте унутар великих извора података, погледајте Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) и Sharma, Hofman, and Watts (2016) .
У погледу природних експеримената, Dunning (2012) пружа уводни, дуготрајни третман са много примера. За скептичан поглед на природне експерименте погледајте Rosenzweig and Wolpin (2000) (економија) или Sekhon and Titiunik (2012) (политичке науке). Deaton (2010) и Heckman and Urzúa (2010) тврде да фокусирање на природне експерименте може довести истраживаче да се усредсреде на процјену небитних узрочних ефеката; Imbens (2010) ове аргументе са оптимистичнијим погледом на вредност природних експеримената.
Када сам описао како истраживач може проћи од процене ефекта припреме до ефекта сервирања, описао сам технику названу инструменталне варијабле . Imbens and Rubin (2015) , у њиховим поглављима 23 и 24, пружају увод и користе нацрт лутрије као пример. Ефекат војне службе на компликовање се понекад назива и компликован просечни узрочни ефекат (ЦАцЕ), а понекад и локални просечни ефекат третмана (ЛАТЕ). Sovey and Green (2011) , Angrist and Krueger (2001) и Bollen (2012) нуде прегледи употребе инструменталних варијабли у политичким наукама, економији и социологији, а Sovey and Green (2011) даје "читачу контролну листу" за вредновање студија помоћу инструменталних варијабли.
Испоставило се да у 1970. пројекту лутрије није, уствари, био случајно рандомизиран; било је мала одступања од чисто случајности (Fienberg 1971) . Berinsky and Chatfield (2015) тврде да ова мала одступања нису суштински важна и да дискутују о важности правилног спровођења рандомизације.
Што се тиче усклађивања, погледајте Stuart (2010) за оптимистичан преглед, а Sekhon (2009) за песимистичку ревизију. За више о усклађивању као врсту резидбе, погледајте Ho et al. (2007) . Проналажење јединственог савршеног подударања за сваку особу је често тешко, а то уводи низ сложености. Прво, када тачне подударности нису доступне, истраживачи морају одлучити како измерити растојање између двије јединице и ако је одређено растојање довољно близу. Друга сложеност се јавља ако истраживачи желе да користе више сета за сваки случај у групи за лечење, јер то може довести до прецизније процене. Оба ова питања, као и друге, детаљно су описана у поглављу 18 Imbens and Rubin (2015) . Види такође ИИ део ( ??? ) .
Види Dehejia and Wahba (1999) за примјер гдје су методи усклађивања успјели произвести процјене сличне онима из рандомизираног контролисаног експеримента. Али, погледајте Arceneaux, Gerber, and Green (2006) и Arceneaux, Gerber, and Green (2010) за примере у којима методи усклађивања нису успели да репродукују експериментални бенчмарк.
Rosenbaum (2015) и Hernán and Robins (2016) нуде други савет за откривање корисних упоређивања у оквиру великих извора података.