Овој дел е дизајниран да се користи како референца, а не да се чита како приказна.
Еден вид на набљудување дека не е вклучена во ова поглавје е етнографија. За повеќе информации за етнографија во дигитален простор види Boellstorff et al. (2012) , како и за повеќе информации за етнографија во мешани дигитални и физички простори види Lane (2016) .
Кога ќе се реуотребување податоци, постојат две ментални трикови кои можат да ви помогне да се разбере можни проблеми кои може да се судрите. Прво, може да се обидете да се замисли идеален базата за вашиот проблем и Споредете дека на базата на кој го користите. Како тие се слични и како тие се различни? Ако не се соберат вашите податоци, има веројатност да биде разлика помеѓу она што го сакате и она што го имаме. Но, мора да се утврди дали овие разлики се мали или големи.
Второ, се сеќавам дека некој создадена и се собира вашите податоци поради некоја причина. Треба да се обидете да се разбере нивното образложение. Овој вид на обратна инженеринг може да ви помогне да се идентификуваат можните проблеми и предрасуди во вашиот repurposed податоци.
Не постои единствена дефиниција консензус на "големи податоци", но многу дефиниции чини да се фокусираат на 3 Vs: (на пример, обемот, разновидноста и брзината Japec et al. (2015) ). Наместо да се фокусира на карактеристиките на податоци, мојата дефиниција се фокусира повеќе за тоа зошто е создаден за податоци.
вклучување на моето влада административни податоци во категоријата на големи податоци е малку невообичаено. Други, кои го направија овој случај, вклучете Legewie (2015) , Connelly et al. (2016) , и Einav and Levin (2014) . За повеќе информации околу вредноста на државните административни податоци за истражување, види Card et al. (2010) , Taskforce (2012) , и Grusky, Smeeding, and Snipp (2015) .
За преглед на административни истражување од внатрешноста на статистичкиот систем на владата, особено САД Бирото за попис, видете Jarmin and O'Hara (2016) . За третман должина книга на истражувањето на административни извори на Шведската статистика, види Wallgren and Wallgren (2007) .
Во ова поглавје, јас во споредба кратко традиционалната анкета, како што се на Генералното социјална Истражување (GSS) со извор на социјалните медиуми на податоци, како што се Твитер. За темелна и внимателна споредба на традиционалните истражувања и податоци на социјалните медиуми, видете Schober et al. (2016) .
Овие 10 карактеристики на големи податоци се опишани во голем број на различни начини од различни автори. Пишување кој влијаеше на моето размислување за овие прашања се: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , и Goldstone and Lupyan (2016) .
Во текот на оваа глава, јас сум користел терминот дигиталните траги, што мислам дека е релативно неутрален. Друг популарен термин за дигиталните траги е дигитален стапалки (Golder and Macy 2014) , но како Хал Abelson, Кен Ledeen, и Хари Луис (2008) истакнуваат, посоодветен термин е веројатно дигитални отпечатоци од прсти. Кога ќе се создаде стапалки, вие сте свесни за она што се случува и вашиот стапалки генерално не може да се проследи лично за вас. Истото не важи и за вашите дигитални траги. Всушност, се остава траги цело време за што ќе имаат многу малку знаење. И, иако овие траги не го вашето име на нив, тие често може да се поврзе назад кон вас. Со други зборови, тие се повеќе како отпечатоци: невидлив и идентификација на личноста.
Големо
За повеќе информации за тоа зошто големи бази на податоци, да се потпрат на статистички тестови проблематична, види Lin, Lucas, and Shmueli (2013) и McFarland and McFarland (2015) . Овие прашања треба да доведе истражувачите да се фокусира на практично значење наместо статистичка значајност.
Секогаш на
Кога се разгледува секогаш на податоци, тоа е важно да се разгледа дали ќе се споредуваат исти луѓе со текот на времето или дали ќе се споредуваат некои менување на група на луѓе; види на пример, Diaz et al. (2016) .
Нереактивни
Класичен книга за нереактивни мерки е Webb et al. (1966) . Примерите во книгата пред датумот на дигиталната ера, но тие се уште се осветлуваат. За примери на луѓето кои го менуваат своето однесување, поради присуството на масовен надзор, видете Penney (2016) и Brayne (2014) .
нецелосни
За повеќе информации за евиденција поврзување, видете Dunn (1946) и Fellegi and Sunter (1969) (историски) и Larsen and Winkler (2014) (модерна). Слични пристапи биле развиени во компјутерски науки под имињата како што се податоци deduplication, идентификација пример, името на појавување, дупликат откривање, и дупликат евиденција за откривање (Elmagarmid, Ipeirotis, and Verykios 2007) . Постојат, исто така, зачувување на приватноста пристапи за снимање на поврзување кои не бараат пренос на лични информации (Schnell 2013) . Фејсбук, исто така разви продолжи да ги поврзат своите записи на однесувањето на гласањето; ова е направено за да се оцени експеримент кој јас ќе ви кажам за во Глава 4 (Bond et al. 2012; Jones et al. 2013) .
За повеќе информации за изградба на важење, види Shadish, Cook, and Campbell (2001) , Поглавје 3.
недостапни
За повеќе информации за пребарување најавите дебакл AOL, види Ohm (2010) . Нудам совети за партнерството со компании и влади во глава 4, кога јас го опишам експерименти. Голем број на автори изразија загриженост за истражување, кој се потпира на недостапни податоци, видете Huberman (2012) и boyd and Crawford (2012) .
Еден добар начин за универзитетски истражувачи да се здобијат со пристап до податоци е да се работи во една компанија како практикант или во посета на истражувач. Освен овозможување на пристап до податоци, овој процес, исто така, ќе им помогне на истражувачите да дознаете повеќе за тоа како е направен на податоци, што е важно за анализа.
Нерепрезентативен
Нерепрезентативноста е голем проблем за истражувачите и владите кои сакаат да даваат изјави во врска со целата популација. Ова е помалку од интерес за компаниите, кои обично се фокусирани на нивните корисници. За повеќе информации за тоа како Статистика Холандија го третира прашањето на нерепрезентативноста на бизнис големи податоци, видете Buelens et al. (2014) .
Во Глава 3, јас ќе се опише земање мостри и проценка во многу детали. Дури и ако податоците се нерепрезентативен, под одредени услови, може да се бројат да произведе добри проценки.
пловејќи
Систем лебдат е многу тешко да се види од надвор. Сепак, проектот за MovieLens (дискутирано повеќе во Поглавје 4) се кандидира за повеќе од 15 години од страна на академски истражувања група. Затоа, тие имаат документирано и разменија информации за начинот на кој системот еволуираше со текот на времето и како тоа може да влијае анализа (Harper and Konstan 2015) .
Голем број на научници се фокусираа на лебдат во Твитер: Liu, Kliman-Silver, and Mislove (2014) и Tufekci (2014) .
алгоритамски збунет
Јас прв пат слушнале поимот "алгоритамски посрами" се користи од страна на Џон Kleinberg во разговор. Основната идеја зад перформативност е дека некои општествени науки теории се "мотори не камери" (Mackenzie 2008) . Тоа е, тие, всушност, го обликуваат светот, а не само да го фати.
Валкани
Владини статистички агенции нарекуваат чистење на податоци, обработка на статистички податоци. De Waal, Puts, and Daas (2014) опише статистички техники за обработка на податоци развиена за истражување на податоци и да ги испита до кој степен тие се применуваат на големите извори на податоци, и Puts, Daas, and Waal (2015) се прикажани некои од исти идеи за една поопшта публика.
За некои примери на студии фокусирани на спам во овој месец, Clark et al. (2016) и Chu et al. (2012) . Конечно, Subrahmanian et al. (2016) ги опишува резултатите од DARPA Твитер бот предизвик.
чувствителни
Ohm (2015) ги разгледува претходно истражување на идејата на чувствителни информации и нуди тест мулти-фактор. Четири фактори што ги предлага се: веројатноста за штета; веројатноста за штета; присуството на доверливи односи; и дали ризикот рефлектираат мнозинскиот проблеми.
Студија на такси во Њујорк Farber беше врз основа на претходната студија на Camerer et al. (1997) , кои се користат три различни погодности примероци на хартија патување форми листови хартија се користи од страна на возачите да ги сними патување проектот време, крајното време, и цената. Ова претходно истражување покажа дека возачите се чинеше да биде цел платените: тие работеле помалку во деновите каде што нивните плати се повисоки.
Kossinets and Watts (2009) беше фокусиран на потеклото на homophily во социјалните мрежи. Види Wimmer and Lewis (2010) за поинаков пристап на истиот проблем, кој ги користи податоците од Facebook.
Во наредните работа, кралот и неговите колеги дополнително истражени интернет цензурата во Кина (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . За поврзани со пристап за мерење на интернет цензурата во Кина, види Bamman, O'Connor, and Smith (2012) . За повеќе информации за статистички методи како оној што се користи во King, Pan, and Roberts (2013) да се процени чувството на 11 милиони работни места, види Hopkins and King (2010) . За повеќе информации за надгледувано учење, видете James et al. (2013) (помалку технички) и Hastie, Tibshirani, and Friedman (2009) (повеќе технички).
Предвидување е голем дел од индустриските податоци Наука (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Еден тип на прогнозирање, кои најчесто се прави со социјални истражувачи се демографските предвидувања, на пример Raftery et al. (2012) .
Google грип Трендови не е прв проект да се користат податоци од пребарувања на nowcast преваленца грип. Всушност, истражувачите во САД (Polgreen et al. 2008; Ginsberg et al. 2009) и Шведска (Hulth, Rydevik, and Linde 2009) покажаа дека одредени зборови за пребарување (на пример, "грип") предвидува националните надзор на јавното здравје податоци пред да биде пуштен на слобода. Потоа многу, многу други проекти кои се обидоа да користат дигитални податоци за следење за откривање на болест надзор, види Althouse et al. (2015) за преглед.
Во прилог на користење на дигитални податоци за следење за да се предвиди здравјето, има исто така е огромна сума на работа со податоци од Твитер да се предвиди резултатите од изборите; за коментарите види Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (гл. 7), и Huberty (2015) .
Користејќи податоци од пребарувања на предвидување на распространетоста на грип и користење на податоци Твитер да се предвиди избори се и примери за користење на некој вид на дигитални трага да се предвиди некој вид на настан во светот. Постојат огромен број на студии кои ја имаат оваа општа структура. Табела 2.5 вклучува неколку други примери.
дигитални трага | исход | цитат |
---|---|---|
Твитер | Благајните приходи на филмови во САД | Asur and Huberman (2010) |
Барај логови | Продажбата на филмови, музика, книги и видео игри во САД | Goel et al. (2010) |
Твитер | Дау Џонс индустриски просек (американскиот пазар) | Bollen, Mao, and Zeng (2011) |
Списанието PS политички науки имаше симпозиум за големи податоци, каузална инференција, и формалната теорија и Clark and Golder (2015) ги сумира секоја порака. Зборник на трудови на списанието на Националната академија на науките на Соединетите Американски Држави симпозиум на каузална инференција и големи податоци, и Shiffrin (2016) ги сумира секоја порака.
Во однос на природни експерименти, Dunning (2012) обезбедува одличен третман должина книга. За повеќе информации за користење на Виетнам лотарија нацрт-како природен експеримент, видете Berinsky and Chatfield (2015) . Пристапи машина за учење кои се обидуваат да ги откријат природните автоматски експерименти во внатрешноста на големите извори на податоци, видете Jensen et al. (2008) и Sharma, Hofman, and Watts (2015) .
Во однос на појавување, за оптимистички преглед, видете Stuart (2010) , како и за песимистички преглед види Sekhon (2009) . За повеќе информации за појавување како еден вид на градинарски, види Ho et al. (2007) . За книги кои обезбедуваат одлични третмани за соодветно, да се види Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , и Imbens and Rubin (2015) .