Еден вид на набљудување што не е вклучен во ова поглавје е етнографија. За повеќе за етнографијата во дигитални простори, видете Boellstorff et al. (2012) , и за повеќе за етнографијата во мешани дигитални и физички простори, видете Lane (2016) .
Не постои единствена консензуална дефиниција за "големите податоци", но многу дефиниции се чини дека се фокусираат на "3 Vs": волуменот, сортата и брзината (на пример, Japec et al. (2015) ). Видете De Mauro et al. (2015) за преглед на дефиниции.
Моето вклучување на владините административни податоци во категоријата големи податоци е малку необично, иако други го направија и овој случај, вклучувајќи го и Legewie (2015) , Connelly et al. (2016) , и Einav and Levin (2014) . За повеќе информации за вредноста на владините административни податоци за истражување, видете Card et al. (2010) , Adminstrative Data Taskforce (2012) и Grusky, Smeeding, and Snipp (2015) .
За да ги погледнеме административните истражувања од внатрешноста на владиниот статистички систем, особено Бирото за попис на населението во САД, видете Jarmin and O'Hara (2016) . За книговодствено третирање на истражувањето на административната евиденција во Статистиката Шведска, видете Wallgren and Wallgren (2007) .
Во поглавјето, накратко го споредив традиционалното истражување, како што е Општата социјална анкета (GSS) со извор на податоци за социјалните медиуми, како што се Твитер. За темелна и внимателна споредба помеѓу традиционалните истражувања и податоците за социјалните медиуми, видете Schober et al. (2016) .
Овие 10 карактеристики на големи податоци се опишани на различни начини од различни автори. Пишувањето кое влијаеше на моето размислување за овие прашања вклучува Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , и Goldstone and Lupyan (2016) .
Во текот на ова поглавје, јас го користев терминот дигитални траги , за кои мислам дека е релативно неутрален. Друг популарен термин за дигитални траги е дигитални стапалки (Golder and Macy 2014) , но како што истакнуваат Хал Абелсон, Кен Ледин и Хари Луис (2008) , посоодветниот термин е најверојатно дигитални отпечатоци од прсти . Кога креирате отпечатоци, свесни сте за тоа што се случува и вашите стапалки генерално не може да се следат за вас лично. Истото важи и за вашите дигитални траги. Всушност, оставате траги цело време за кои имате многу малку знаење. И, иако овие траги немаат вашето име на нив, тие често може да се поврзат со вас. Со други зборови, тие се повеќе како отпечатоци од прсти: невидливо и лично идентификување.
За повеќе информации зошто големите бази на податоци прават статистички тестови проблематични, види M. Lin, Lucas, and Shmueli (2013) и McFarland and McFarland (2015) . Овие прашања треба да ги наведат истражувачите да се фокусираат на практично значење, а не на статистичко значење.
За повеќе информации за тоа како Раџ Четти и неговите колеги добија пристап до даночната евиденција, видете Mervis (2014) .
Големите сетови на податоци, исто така, можат да создадат пресметковни проблеми кои обично се надвор од можностите на еден компјутер. Затоа, истражувачите кои прават пресметки на големи бази на податоци често ја шират работата на многу компјутери, процес што понекогаш се нарекува паралелно програмирање . За вовед во паралелното програмирање, особено јазикот наречен Hadoop, видете Vo and Silvia (2016) .
Кога размислувате за секогаш податоци, важно е да размислите дали ги споредувате истите луѓе со текот на времето или дали споредувате некоја промена на група луѓе; види на пример, Diaz et al. (2016) .
Класична книга за нереактивни мерки е Webb et al. (1966) . Примери во таа книга претходат во дигиталната ера, но сé уште се осветлуваат. За примери на луѓе кои го менуваат своето однесување поради присуството на масовно набљудување, видете Penney (2016) и Brayne (2014) .
Реактивноста е тесно поврзана со она што истражувачите го нарекуваат ефекти на побарувачката (Orne 1962; Zizzo 2010) и ефектот Хоторн (Adair 1984; Levitt and List 2011) .
За повеќе информации за врска, видете Dunn (1946) и Fellegi and Sunter (1969) (историски) и Larsen and Winkler (2014) (модерна). Слични пристапи, исто така, се развиени во компјутерската наука под имиња како што се дедупликација на податоци, идентификација на инстанца, совпаѓање на името, дупликат откривање и дупликат откривање на записите (Elmagarmid, Ipeirotis, and Verykios 2007) . Исто така, постојат пристапи за зачувување на приватноста за снимање на поврзување кое не бара пренос на информации за лично идентификување (Schnell 2013) . Фејсбук исто така има развиено процес за поврзување на нивните записи со гласачкото однесување; ова беше направено за да се оцени експериментот што ќе ви го кажам во поглавјето 4 (Bond et al. 2012; Jones et al. 2013) .
За повеќе за изградба на валидноста, видете поглавје 3 од Shadish, Cook, and Campbell (2001) .
За повеќе информации за дебакл на најавите на AOL, видете Ohm (2010) . Нудам совети за партнерство со компании и влади во поглавјето 4, кога опишувам експерименти. Голем број автори изразија загриженост во врска со истражувањата кои се потпираат на недостапни податоци, видете Huberman (2012) и boyd and Crawford (2012) .
Еден добар начин за универзитетски истражувачи да се здобијат со пристап до податоци е да се работи во една компанија како практикант или во посета на истражувач. Освен овозможување на пристап до податоци, овој процес, исто така, ќе им помогне на истражувачите да дознаете повеќе за тоа како е направен на податоци, што е важно за анализа.
Во смисла на пристап до владините податоци, Mervis (2014) дискутира за тоа како Раџ Четти и неговите колеги добија пристап до даночните евиденции користени во нивните истражувања за социјалната мобилност.
За повеќе за историјата на "репрезентативност" како концепт, видете Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979a) Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979b) Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) .
Моите резимеа за делото на Снег и за работата на Куклата и Хил беа кратки. За повеќе информации за работата на Снег на колера, видете Freedman (1991) . За повеќе информации за студијата на британските лекари видете ја Doll et al. (2004) и Keating (2014) .
Многу истражувачи ќе бидат изненадени кога ќе дознаат дека иако Кукла и Хил собрале податоци од лекари и од доктори под 35 години, тие намерно не ги користеле овие податоци во својата прва анализа. Како што тврдеа: "Бидејќи ракот на белите дробови е релативно редок кај жените и мажите под 35 години, веројатно нема да се добијат корисни вредности во овие групи во следните неколку години. Затоа, во овој прелиминарен извештај го ограничивме вниманието на мажите на возраст од 35 и повеќе години. " Rothman, Gallacher, and Hatch (2013) , кој има провокативен наслов" Зошто репрезентативноста треба да се избегнува ", дава поопшта аргумент за вредноста на намерно создавање на нерепрезентативни податоци.
Непрезентативноста е голем проблем за истражувачите и владите кои сакаат да дадат изјави за целото население. Ова е помалку од загриженост за компаниите, кои обично се фокусирани на нивните корисници. За повеќе информации за тоа како Статистиката Холандија го разгледува прашањето за непривлекување на големите податоци за бизнисот, видете Buelens et al. (2014) .
За примери на истражувачи кои изразуваат загриженост во врска со нерепрезентативната природа на големи извори на податоци, видете boyd and Crawford (2012) , K. Lewis (2015b) и Hargittai (2015) .
За подетална споредба на целите на социјалните истражувања и епидемиолошките истражувања, види Keiding and Louis (2016) .
За повеќе информации за обидите да се користи Твитер за да се направат Jungherr (2013) генерализации за гласачите, особено случајот од изборите во Германија во 2009 година, видете Jungherr (2013) и Jungherr (2015) . Последователно на работата на Tumasjan et al. (2010) истражувачите од целиот свет користеле подобри методи - како што се користењето на распознавачките анализи за да се направи разлика помеѓу позитивните и негативните спомени на партиите - со цел да се подобри способноста на Твитер податоците да предвидат различни типови на избори (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Еве како Huberty (2015) сумираше резултатите од овие обиди за предвидување избори:
"Сите познати методи за прогнозирање врз основа на социјалните медиуми не успеаја кога беа подложени на барањата на вистински прогнозирање на избирачкото предлози. Овие неуспеси се чини дека се должат на фундаменталните својства на социјалните медиуми, наместо на методолошки или алгоритамски потешкотии. На кратко, социјалните медиуми не, и веројатно никогаш нема да понудат стабилна, непристрасна, репрезентативна слика на електоратот; и погодностите примероци на социјалните медиуми немаат доволно податоци за да ги поправат овие проблеми по хок. "
Во поглавјето 3, ќе го опишам примерокот и проценката во многу поголеми детали. Дури и ако податоците се нерепрезентативни, под одредени услови, тие може да се бројат за да се добијат добри проценки.
Лесното движење на системот е многу тешко да се види од надвор. Сепак, проектот MovieLens (кој се дискутира повеќе во поглавјето 4) е воден повеќе од 15 години од академска истражувачка група. Така, тие биле во можност да документираат и да споделат информации за начинот на кој системот се развил со текот на времето и како тоа може да влијае на анализата (Harper and Konstan 2015) .
Голем број научници се фокусираа на лебдат на Твитер: Liu, Kliman-Silver, and Mislove (2014) и Tufekci (2014) .
Еден пристап за справување со популациониот нанос е да се создаде панел на корисници, што им овозможува на истражувачите да ги проучуваат истите луѓе со текот на времето, видете Diaz et al. (2016) .
Јас прв пат слушнав терминот "алгоритамски збунет" што го користел Џон Клајнберг во разговор, но, за жал, не се сеќавам кога и каде се зборуваше. Првиот пат кога го видов терминот во печат, беше во Anderson et al. (2015) , што претставува интересна дискусија за тоа како алгоритмите што ги користат датираат сајтови може да ја комплицираат способноста на истражувачите да користат податоци од овие веб-страници за да ги проучат социјалните преференци. Оваа загриженост беше покрената од K. Lewis (2015a) како одговор на Anderson et al. (2014) .
Покрај Фејсбук, Твитер, исто така, им препорачува на корисниците да следат врз основа на идејата за тријадно затворање; види Su, Sharma, and Goel (2016) . Значи, нивото на триадично затворање на Твитер е комбинација од некоја човечка тенденција кон тријадно затворање и некоја алгоритамска тенденција за промовирање на тријадично затворање.
За повеќе за изведбата - особено идејата дека некои теории за општествени науки се "мотори не камери" (т.е. тие го обликуваат светот наместо да го опишуваат) - видете на Mackenzie (2008) .
Владините статистички агенции ги повикуваат податоците за чистење на статистичките податоци за уредување . De Waal, Puts, and Daas (2014) опишуваат техниките за уредување на статистички податоци развиени за податоците од истражувањето и го испитуваат степенот до кој тие се применуваат за големи извори на податоци, а Puts, Daas, and Waal (2015) презентираат некои од истите идеи за поопшта публика.
За преглед на социјалните ботови, видете Ferrara et al. (2016) . За некои примери на студии фокусирани на наоѓање на спам на Твитер, видете Clark et al. (2016) и Chu et al. (2012) . Конечно, Subrahmanian et al. (2016) опишуваат резултатите од ДАРПА Твитер Бот предизвик, масовна соработка дизајнирана да ги спореди пристапите за откривање на ботови на Твитер.
Ohm (2015) разгледува претходните истражувања за идејата за чувствителни информации и нуди мултифакторски тест. Четирите фактори што тој ги предлага се големината на штетата, веројатноста за штета, присуството на доверлив однос и дали ризикот е одраз на мнозинската загриженост.
Студијата на Фарбер за такси во Њујорк била заснована на претходна студија на Camerer et al. (1997) кој користи три различни погодности примероци на хартија патување листови. Оваа претходна студија покажа дека возачите се чинеле дека се целни заработувачи: тие работеле помалку во денови кога нивните плати биле повисоки.
Во понатамошната работа, Кинг и неговите колеги дополнително ја истражуваат онлајн цензурата во Кина (King, Pan, and Roberts 2014, [@king_how_2016] ) . За поврзан пристап за мерење на цензурата на интернет во Кина, види Bamman, O'Connor, and Smith (2012) . За повеќе информации за статистичките методи како оној што се користи во King, Pan, and Roberts (2013) да се процени чувството на 11 милиони мислења, видете Hopkins and King (2010) . За повеќе информации за надгледувано учење, видете James et al. (2013) (помалку технички) и Hastie, Tibshirani, and Friedman (2009) (повеќе технички).
Прогнозата е голем дел од науката за индустриски податоци (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Еден вид прогнозирање што најчесто го прават социјалните истражувачи е демографското предвидување; види, на пример, Raftery et al. (2012) .
Google Flu Trends не беше првиот проект кој ги користеше податоците за пребарување за распространетоста на инфлуенца сега. Всушност, истражувачите во Соединетите Американски Држави (Polgreen et al. 2008; Ginsberg et al. 2009) и Шведска (Hulth, Rydevik, and Linde 2009) открија дека одредени термини за пребарување (на пример, "грип") предвидуваат национален надзор на јавното здравство податоци пред да биде пуштен на слобода. Потоа многу, многу други проекти се обиделе да ги користат податоците за дигитални траги за откривање на надзор над болест; види Althouse et al. (2015) за преглед.
Покрај користењето на податоците за дигитални траги за да се предвидат здравствените резултати, исто така има огромно количество работа користејќи податоци од Твитер за да се предвидат резултатите од изборите; за коментарите видете Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (поглавје 7) и Huberty (2015) . Пуштањето на економските показатели, како што е бруто домашниот производ (БДП), е исто така вообичаено во централните банки, видете Bańbura et al. (2013) . Табела 2.8 вклучува неколку примери на студии кои користат некаква дигитална трага за да предвидат некој вид настан во светот.
Дигитална трага | Исход | Цитирање |
---|---|---|
Твитер | Приход од кусометражни филмови во САД | Asur and Huberman (2010) |
Пребарување дневници | Продажба на филмови, музика, книги и видео игри во САД | Goel et al. (2010) |
Твитер | Дау Џонс индустриски просек (американска берза) | Bollen, Mao, and Zeng (2011) |
Социјални медиуми и логови за пребарување | Истражувања на расположението на инвеститорите и берзите во САД, Обединетото Кралство, Канада и Кина | Mao et al. (2015) |
Пребарување дневници | Преваленција на денга треска во Сингапур и Бангкок | Althouse, Ng, and Cummings (2011) |
Конечно, Џон Клејнберг и неговите колеги (2015) укажаа дека проблемите со предвидување спаѓаат во две суптилно различни категории и дека социолозите научуваат да се фокусираат на еден и да го игнорираат другиот. Замислете еден креатор на политиката, ќе ја викам Ана, која се соочува со суша и мора да одлучи дали ќе вработи шаман за да направи танц за дожд за да ги зголеми шансите за дожд. Друг креатор на политиката, ќе ја наречам Бетти, мора да одлучи дали да земе чадор да работи за да не дојде до мокро на пат кон дома. И Ана и Бети можат да донесат подобра одлука ако го разберат времето, но треба да знаат различни работи. Ана треба да разбере дали танцот во дожд предизвикува дожд. Од друга страна, Бети не треба да разбере ништо за причината; таа само треба точна прогноза. Социјалните истражувачи често се фокусираат на проблемите како онаа со која се соочува Ана - што Клајнберг и неговите колеги ги нарекуваат политички проблеми "како дожд танц", бидејќи тие вклучуваат прашања за каузалноста. Прашањата како оној со кои се соочува Бети - што Клајнберг и неговите колеги ги нарекуваат политички проблеми како "чадор" - можат да бидат многу важни, но добиле многу помалку внимание од социјалните истражувачи.
Списанието PS Political Science имаше симпозиум за големи податоци, причинско-последични заклучоци и формална теорија, а Clark and Golder (2015) сумираат секој придонес. Во списанието " Зборник на трудови" на Националната академија на науките на Соединетите Американски Држави се одржа симпозиум за причинско заклучување и големи податоци, а Shiffrin (2016) сумира секој придонес. За пристапи за машинско учење кои се обидуваат автоматски да ги откријат природните експерименти внатре во големи извори на податоци, видете Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , и Sharma, Hofman, and Watts (2016) .
Во однос на природните експерименти, Dunning (2012) обезбедува воведен, книжевен третман со многу примери. За скептичен поглед на природните експерименти, види Rosenzweig and Wolpin (2000) (економија) или Sekhon and Titiunik (2012) (политички науки). Deaton (2010) и Heckman and Urzúa (2010) тврдат дека фокусирањето на природните експерименти може да ги наведе истражувачите да се фокусираат на проценката на неважните причинско-последични ефекти; Imbens (2010) смета овие аргументи со пооптимистички поглед на вредноста на природните експерименти.
Кога опишував како истражувачот би можел да тргне од проценката на ефектот на изготвувањето за ефектот на сервирање, опишав техника наречена инструментални променливи . Imbens and Rubin (2015) , во нивните поглавја 23 и 24, обезбедуваат вовед и го користат нацртот за лотарија како пример. Ефектот на воена служба на комплирите понекогаш се нарекува комплициран просечен причински ефект (CAcE), а понекогаш и локален просечен ефект на третман (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) и Bollen (2012) нудат осврти за употребата на инструментални променливи во политичките науки, економијата и социологијата и Sovey and Green (2011) обезбедува "читачка листа" за оценување на студии со помош на инструментални променливи.
Излегува дека нацрт-лотаријата од 1970 година не беше, всушност, правилно рандомизирана; имало мали отстапувања од чиста случајност (Fienberg 1971) . Berinsky and Chatfield (2015) тврди дека оваа мала девијација не е суштински важна и дискутира за важноста на правилно спроведената рандомизација.
Во однос на појавување, видете Stuart (2010) за оптимистички преглед и Sekhon (2009) за песимистички преглед. За повеќе за појавување како еден вид градинарски зафати, видете Ho et al. (2007) . Пронаоѓањето на еден совршен натпревар за секој човек е често тешко, и ова воведува голем број на сложеност. Прво, кога точните совпаѓања не се достапни, истражувачите треба да одлучат како да го измерат растојанието помеѓу две единици и ако одредено растојание е доволно близу. Втора комплексност се јавува ако истражувачите сакаат да користат повеќе натпревари за секој случај во групата за лекување, бидејќи тоа може да доведе до попрецизни проценки. И двете од овие прашања, како и други, се детално опишани во поглавје 18 од Imbens and Rubin (2015) . Видете исто така Дел II од ( ??? ) .
Види Dehejia and Wahba (1999) за пример каде што методите за појавување на способности можеа да создадат проценки слични на оние од рандомизиран контролиран експеримент. Но, видете Arceneaux, Gerber, and Green (2006) и Arceneaux, Gerber, and Green (2010) за примери каде методите за совпаѓање не успеаја да репродуцираат експериментален репер.
Rosenbaum (2015) и Hernán and Robins (2016) нудат други совети за откривање на корисни споредби во големите извори на податоци.