Овај део је дизајниран да се користи као референца, а не да се чита као наратив.
Једна врста посматрање која није укључена у овом поглављу је етнографија. За више информација о етнографије у дигиталним просторима видети Boellstorff et al. (2012) , а за више информација о етнографије у мешовитим дигиталних и физичких простора види Lane (2016) .
Када се репурпосинг податке, постоје две менталне трикови који вам могу помоћи да разумете могуће проблеме који се могу појавити. Прво, можете покушати да замислите идеалну скуп података за ваш проблем и упоредити са података који користите. Како су слични и колико су различити? Ако нисте прикупити своје податке сами, постоје шансе да се разлика између онога што желите и оно што имате. Али, морате да одлучите да ли су те разлике мање или више.
Друго, запамтите да је неко створио и прикупљају податке из неког разлога. Требало би да покушате да разумете своје образложење. Ова врста обрнутог-инжењеринг могу помоћи у идентификацији могућих проблема и предрасуде у својим променити сврха података.
Не постоји јединствена дефиниција консензус "великог података", али многе дефиниције изгледа да се фокусирају на 3 вс: (нпр, обим, разноврсност, и брзина Japec et al. (2015) ). Уместо да се фокусира на карактеристике података, моја дефиниција се фокусира више о томе зашто је направљена подаци.
Мој укључивање државних административних података у категорији великих података је мало необично. Други који су направљени овом случају, укључују Legewie (2015) , Connelly et al. (2016) , и Einav and Levin (2014) . За више информација о вредности државних административних података за истраживање, погледајте Card et al. (2010) , Taskforce (2012) , и Grusky, Smeeding, and Snipp (2015) .
За погледом на административне истраживања из унутрашњости владе статистичког система, посебно у САД Биро за попис становништва, види Jarmin and O'Hara (2016) . За третман дужине књига истраживања на административне евиденције у статистику Шведске, погледајте Wallgren and Wallgren (2007) .
У поглављу, ја кратко у односу на традиционалну анкету као што је опште друштвене анкете (ГСС) на извор друштвених медија података, као што је Твиттер. За темељну и пажљиво односу између традиционалних истраживања и друштвених медија подацима погледајте Schober et al. (2016) .
Ових 10 карактеристике великих података су описани у разним начине разним аутора. Писање је утицало на мој размишљање о овим питањима обухватају: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , и Goldstone and Lupyan (2016) .
У овом поглављу, ја сам користио дигиталне трагове термин, што мислим да је релативно неутралан. Још једна популарна рок за дигиталне трагове је дигитални отисци (Golder and Macy 2014) , али као Хал Абелсон, Кен Ледеен и Харри Левис (2008) прикладнији термин је вероватно дигитални отисци прстију. Када креирате отиске, ви сте свесни шта се дешава и ваши отисци не могу се генерално пратити вас лично. Исто не важи и за дигиталне трагове. У ствари, ви остављају трагове све време о коме имате врло мало знања. И, иако ови трагови немају своје име на њих, они се често могу повезати се јавити. Другим речима, они су као отисака прстију: невидљиви и лично идентификују.
велики
За више информација о зашто велики скупови података, рендер статистичке тестове проблем, погледајте Lin, Lucas, and Shmueli (2013) McFarland and McFarland (2015) . Ова питања би требало да доведе истраживаче да се фокусира на практичног значаја него статистичког значаја.
Увек
Када се разматрају увек основу података, важно је размотрити да ли се пореде тачно исте људе током времена, или да ли се пореде неки мења групу људи; видети на пример, Diaz et al. (2016) .
Не реактивни
Класична књига на не-реактивних мера је Webb et al. (1966) . Примери у књизи датирају дигиталном добу, али су и даље осветљавање. За примере људи мењају своје понашање због присуства масовног надзора, погледајте Penney (2016) Brayne (2014) .
Непотпун
За више информација о рекордном повезивања, погледајте Dunn (1946) Fellegi and Sunter (1969) (историјски) и Larsen and Winkler (2014) (модерни). Слично је пришао су такође развијени у компјутерске науке под именима као што су дедупликацијом података, идентификација пример, име упаривања, дупликат детекцију, као и умножавање снимање детекције (Elmagarmid, Ipeirotis, and Verykios 2007) . Ту су и приватност очување приступа да сними везе које не захтевају пренос личне податке (Schnell 2013) . Фацебоок такође је развио наставити да повежу своје записе на гласачком понашању; то је урађено да се процени експеримент који ћу вам кажем о у поглављу 4 (Bond et al. 2012; Jones et al. 2013) .
За више информација о валидности конструкта, погледајте Shadish, Cook, and Campbell (2001) , Поглавље 3.
неприступачан
За више информација о АОЛ Тражи дебакла, погледајте Ohm (2010) . Нудим савете о партнерству са компанијама и владама у поглављу 4, када сам описати експерименте. Бројни аутори су изразили забринутост у вези са истраживањима која се ослања на неприступачним података, погледајте Huberman (2012) Боид boyd and Crawford (2012) .
Један добар начин за универзитетски истраживачи добију приступ подацима је да ради у компанији као приправник или гостујући истраживач. Поред омогућавања приступа подацима, овај процес ће такође помоћи истраживач сазнате више о томе како су подаци је настала, што је важно за анализу.
Нон-заступник
Нон-репрезентативност представља велики проблем за истраживаче и влада који желе да дају изјаве о читавој популацији. То је мање од интереса за предузећа која су обично фокусирани на своје кориснике. За више информација о томе како Статистика Холандија сматра да је питање не-репрезентативности пословних великих података, погледајте Buelens et al. (2014) .
У поглављу 3, ја ћу описати узорковање и процену много детаљније. Чак и ако су подаци нису репрезентативни, под одређеним условима, могу бити пондерисани да произведе добре процене.
дрифтинг
Систем дрифт је веома тешко видети споља. Међутим, пројекат МовиеЛенс (више речи у поглављу 4) је ради већ више од 15 година од академске истраживачке групе. Због тога, они су документовани и деле информације о начину на који је систем еволуирао током времена и како ова анализа може утицати (Harper and Konstan 2015) .
Велики број научника су се фокусирали на нанос на Твиттер: Liu, Kliman-Silver, and Mislove (2014) Tufekci (2014) .
алгоритмички збуњен
Први пут сам чуо термин "алгоритмички збуњен" користи Јон Клеинберг у разговору. Основна идеја перформативности је да су неке теорије друштвених наука су "мотори нису камери" (Mackenzie 2008) . То јест, они заправо обликује свет, а не само да ухвате.
прљав
Владине статистичке агенције назвати чишћење података, статистичке уређивање података. De Waal, Puts, and Daas (2014) статистичке технике за обраду података развијене за подацима из анкете и испитати у којој мери су применљива за велике извора података, и Puts, Daas, and Waal (2015) неке од истих идеја за још ширу публику.
За неке примере студија фокусиран на спам у Твиттер, Clark et al. (2016) Chu et al. (2012) . Коначно, Subrahmanian et al. (2016) резултате ДАРПА Твиттер Бот Цхалленге.
осетљив
Ohm (2015) раније истраживање на идеји осетљивим информацијама и нуди више фактора тест. Четири фактора он предлаже су: вероватноћа штете; вероватноћа штете; Присуство поверљивих односа; и да ли је ризик одражавају већинске забринутост.
Фарбер је студија таксија у Њујорку била је заснована на ранијој студији Camerer et al. (1997) се користи три различита узорка погодности папир путовања листова папира-облике који се користе возачи да сними путовање време почетка, крај времена, и карту. Ова раније истраживање показало је да се чинило возачима да буду циљне зарађују: су радили мање у данима у којима су им плате биле веће.
Kossinets and Watts (2009) била фокусирана на пореклу хомопхили у друштвеним мрежама. Погледајте Wimmer and Lewis (2010) другачији приступ истом проблему који користи податке из Фацебоок.
У каснијем раду, Кинг и колеге смо даље истраживали онлајн цензуру у Кини (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . За сродном приступ мерење интернет цензуре у Кини, погледајте Bamman, O'Connor, and Smith (2012) . За више информација о статистичким методама, као што се користи у King, Pan, and Roberts (2013) осећања од 11 милиона порука, погледајте Hopkins and King (2010) . За више информација о надгледаној учењу, погледајте James et al. (2013) (мање технички) и Hastie, Tibshirani, and Friedman (2009) (више техничке).
Предвиђање је велики део индустријског подаци научне (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Једна врста предвиђања која се најчешће врши социјални истраживачи су демографски предвиђања, на пример Raftery et al. (2012) .
Гоогле напредовање грипа није био први пројекат који користе податке претраге за Новцаст учесталост инфлуенце. У ствари, истраживачи у Сједињеним Америчким Државама (Polgreen et al. 2008; Ginsberg et al. 2009) Шведске (Hulth, Rydevik, and Linde 2009) открили да су поједини сеарцх термс (нпр, "грип") предвиђа националног јавног здравља надзор подаци пре него што је пуштен. Након тога многи, многи други пројекти су покушали да користе дигиталне податке у траговима за откривање болести надзора, погледајте Althouse et al. (2015) преглед.
Поред коришћења дигиталних података у траговима да се предвиди здравствених исхода, било је такође био огроман посао користећи Твиттер податке да предвиди изборних резултата; за критике видети Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Цх. 7) и Huberty (2015) .
Користећи податке претраге за предвиђање распрострањеност грипа и коришћење Твиттер податке да предвиди избори су оба примера коришћења неку врсту дигиталног трага за предвиђање неку врсту догађаја у свету. Постоји огроман број студија које имају ову општу структуру. Табела 2.5 садржи неколико других примера.
дигитални траг | Исход | цитат |
---|---|---|
твиттер | Бок оффице приход од филмова у САД | Asur and Huberman (2010) |
Претрага за резање | Продаја филмова, музике, књига и видео игара у САД | Goel et al. (2010) |
твиттер | Дов Јонес Индустриал Авераге (САД берза) | Bollen, Mao, and Zeng (2011) |
Часопис УСБ политичких наука имао је симпозијум о великим подацима, узрочно-закључивања и формалној теорији, и Clark and Golder (2015) сваки допринос. Часопису Процеедингс оф тхе Натионал Ацадеми оф Сциенцес Сједињених Америчких Држава имали симпозијум о узрочно-закључивања и великих података, и Shiffrin (2016) сваки допринос.
Што се тиче природних експеримената, Dunning (2012) одличан третман дужине књига. За више о коришћењу Вијетнам нацрт лутрији као природни експеримент, погледајте Berinsky and Chatfield (2015) . За приступа машинског учења који покушавају да се аутоматски открити природне експерименте у великих извора података, погледајте Jensen et al. (2008) Sharma, Hofman, and Watts (2015) .
У погледу усклађивања, за оптимистичном преглед, види Stuart (2010) , и за песимистичан преглед видети Sekhon (2009) . За више информација о одговарају као неку врсту резидбе, погледајте Ho et al. (2007) . За књиге које пружају одличне третмане које се подударају, погледајте Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , и Imbens and Rubin (2015) .