See osa on mõeldud kasutamiseks viitena, mitte tuleb lugeda tekstilist.
Üks selline märkides, et ei ole siin peatükis on etnograafia. Täpsemat etnografisin digitaalse ruumi näha Boellstorff et al. (2012) , ja rohkem etnografisin segatud digitaalse ja füüsilise ruumi näha Lane (2016) .
Kui te repurposing andmed on olemas kaks vaimse nippe, mis võivad aidata teil mõista võimalikke probleeme, mis võivad ette tulla. Esiteks, te võite ette kujutada ideaalne andmekogumi oma probleemi ja võrrelda seda, et andmestik, et te kasutate. Kuidas on need sarnased ja kuidas nad erinevad? Kui te ei kogunud oma andmeid ise, on tõenäoline, et vahe, mida sa tahad ja mida sa pead. Aga sa pead otsustama, kas need erinevused on väike või suur.
Teiseks, pea meeles, et keegi loonud ja kogunud oma andmeid mingil põhjusel. Sa peaksid püüdma mõista nende põhjendusi. Selline tagasikäik-inseneri aitab teil kindlaks võimalikud probleemid ja peensusi oma repurposed andmeid.
Ei ole olemas ühte konsensuse mõiste "suure andmed", kuid palju mõisteid tunduvad keskenduda 3 Vs: maht, sort, ja kiirus (nt Japec et al. (2015) ). Selle asemel keskendub omadustele andmed, minu määratlus keskendub rohkem, miks andmeid loodi.
Minu kaasamine omavalitsuse andmed sees kategooria suur andmed on veidi ebatavaliselt. Teised, kes on teinud seda juhul lisada Legewie (2015) , Connelly et al. (2016) , ja Einav and Levin (2014) . Lisainformatsiooni väärtus omavalitsuse andmed teadus-, vaata Card et al. (2010) , Taskforce (2012) , ja Grusky, Smeeding, and Snipp (2015) .
Sest selleks haldus teadus seest valitsuse statistilise süsteemi, eriti USA Census Bureau, vaata Jarmin and O'Hara (2016) . Sest raamatu pikkus ravi haldusandmetest teadustöö Rootsi statistikaamet, vaata Wallgren and Wallgren (2007) .
Peatükis, ma korraks võrreldes traditsioonilise küsitluse nagu General Social Survey (GSS), et sotsiaalse meedia andmete allikas nagu Twitter. Põhjalikult ja hoolikalt võrrelda traditsioonilise uuringud ja sotsiaalmeedia andmetele vt Schober et al. (2016) .
Need 10 omadused suur andmed on kirjeldatud erinevaid viise mitmesuguste erinevate autorite. Kirjutamine mõjutanud minu mõtlemist nimetatud küsimused hõlmavad: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ja Goldstone and Lupyan (2016) .
Sellesse peatükki olen kasutanud terminit digitaalne jälgi, mis minu arvates on suhteliselt neutraalseks. Teine populaarne mõiste digitaalse jäljed on digitaalse jalajälje (Golder and Macy 2014) , kuid kuna Hal Abelsoni, Ken Ledeen ja Harry Lewis (2008) märgivad, sobivam termin on ilmselt sõrmejälge. Kui loote jalajäljed, et olete teadlik, mis toimub ja oma jalajäljed ei ole üldjuhul võimalik jälgida Teile isiklikult. Sama ei kehti digitaalse jälgi. Tegelikult olete jälgi jätmata kogu aeg, mis teil on väga vähe teadmisi. Ja kuigi need jäljed ei pea oma nime, nad võivad sageli olla seotud sulle tagasi. Teisisõnu, nad on rohkem nagu sõrmejäljed: nähtamatu ning isikuandmetest.
suur
Lisateavet miks suurte andmekogude muuta statistiliste testide problemaatiline, vaata Lin, Lucas, and Shmueli (2013) ja McFarland and McFarland (2015) . Neid küsimusi tuleks viia teadlased keskenduda praktilise tähtsusega, mitte statistiline olulisus.
Alati olemas
Kaaludes alati-andmed, on oluline kaaluda, kas te võrrelda täpselt samad inimesed aja jooksul või kas te võrdlete mõned muutuvad grupp inimesi; vt näiteks Diaz et al. (2016) .
Non-reaktiivse
Klassikaline raamat mitte-reaktiivne meetmed on Webb et al. (1966) . Näited raamatust dateerimine digitaalajastul, kuid need on veel valgustamiseks. Näiteid inimesi oma käitumist muuta, sest esinemine massilise järelevalve vt Penney (2016) ja Brayne (2014) .
puudulik
Täpsemat rekord seose kohta vt Dunn (1946) ja Fellegi and Sunter (1969) (ajaloolised) ja Larsen and Winkler (2014) (kaasaegse). Sarnased lähenes Samuti on välja töötatud infotehnoloogia nimede all, näiteks andmete de dubleerimise, näiteks identifitseerimise, nime sobitamine, dubleerida avastamise ja dubleerida rekord avastamine (Elmagarmid, Ipeirotis, and Verykios 2007) . On ka privaatsust säilitada lähenemisviise salvestada seosed, mis ei nõua edastamise isikuandmeid (Schnell 2013) . Facebook on ka arenenud edasi siduda oma andmed, et hääletamise; seda tehti hinnata eksperimendi, et ma ütlen teile peatükis 4 (Bond et al. 2012; Jones et al. 2013) .
Lisateavet ehitada kehtivuse vt Shadish, Cook, and Campbell (2001) , 3. peatükk.
ligipääsmatu
Täpsemat AOL hakulokista fiasko vt Ohm (2010) . Pakun nõu partneriks ettevõtete ja valitsuste 4. peatükis, kui ma kirjeldada eksperimente. Mitmed autorid on väljendanud muret uurimistöö, mis tugineb kättesaamatud andmeid, vaata Huberman (2012) ja boyd and Crawford (2012) .
Üks hea viis ülikooli teadlased omandada andmetele juurdepääsu on töötada firmas intern või külastada teadlane. Lisaks võimaldab juurdepääsu andmetele, see protsess aitab ka uurija rohkem teada, kuidas andmed on loodud, mis on oluline analüüsida.
Mitteesinduslikuks
Non-esinduslikkus on suureks probleemiks teadlased ja valitsused, kes soovivad teha avaldusi kogu elanikkonnast. See on vähem muret ettevõtetele, mis on tavaliselt keskendunud oma kasutajatele. Täpsemat kuidas Statistika Holland arvab küsimus mitte esinduslikkust äri suured andmed, vaata Buelens et al. (2014) .
3. peatükis, ma kirjeldada proovide võtmise ja hindamise palju üksikasjalikumalt. Isegi kui andmed ei ole esindaja, teatud tingimustel võivad nad olla kaalutud nii häid hinnanguid.
Põgenevad
Süsteem triiv on väga raske näha väljastpoolt. Kuid MovieLens projekti (arutatakse rohkem peatükis 4) on töötanud rohkem kui 15 aastat akadeemilise uurimisrühma. Seetõttu on nad dokumenteerida ja jagada infot nii, et süsteem on aja jooksul arenenud ning kuidas see võib mõjutada analüüsi (Harper and Konstan 2015) .
Mitmed teadlased on keskendunud triivi Twitteris: Liu, Kliman-Silver, and Mislove (2014) ja Tufekci (2014) .
algoritmidega segas
Kuulsin esimest korda sõna "algoritmide segas" kasutatakse Jon Kleinberg suusõnaline. Põhiidee performatiivsuse on, et mõned ühiskonnaõpetus teooriate on "mootorid ei kaamerad" (Mackenzie 2008) . See tähendab, et nad tegelikult kujundavad maailma, mitte ainult seda lüüa.
määrdunud
Governmental statistikaasutused nõuavad andmete puhastamine, statistiliste andmete redigeerimiseks. De Waal, Puts, and Daas (2014) kirjeldavad statistilised andmed montaažitehnikaid töötatud uuringu andmed ja uurida, mil määral need on kohaldatavad suur allikatele ja Puts, Daas, and Waal (2015) esitab mõned sama ideed laiema publikuni.
Sest mõned näited uuringud keskendunud rämpsposti Twitter, Clark et al. (2016) ja Chu et al. (2012) . Lõpuks Subrahmanian et al. (2016) kirjeldab tulemusi DARPA Twitter Bot Challenge.
tundlik
Ohm (2015) ülevaade varasemate uuringute idee tundlikku teavet ja pakub multi-faktor test. Neli tegurid ta teeb on: tõenäosus kahju; tõenäosus kahju; olemasolu on salajane suhe; ja kas risk peegeldavad majoritaarset muresid.
Farber uurimus taksod New Yorgis põhines varasema uuringu Camerer et al. (1997) , et kasutada kolme erinevat mugavuse proovidega paberit reisi lehed-paber kasutatavad vormid juhtide salvestada reisi algusaeg, lõpuaeg ja hinnast. See varasemas uuringus leiti, et juhid tundus olevat eesmärki töötajate puhul: nad töötasid vähem päeva, kus nende palgad olid kõrgemad.
Kossinets and Watts (2009) keskendus päritolu homophily sotsiaalseid võrgustikke. Vaata Wimmer and Lewis (2010) teistsugust lähenemist sama probleem, mis kasutab andmete Facebook.
Järgnevatel töö, King ja tema kolleegid on täiendavalt uurida Internetis tsensuur Hiinas (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Sest seotud hindamisviisile Internetis tsensuur Hiinas, vaata Bamman, O'Connor, and Smith (2012) . Täpsemat statistilisi meetodeid nagu üks kasutatud King, Pan, and Roberts (2013) , et hinnata sentiment on 11 miljonit postitusi vt Hopkins and King (2010) . Lisateavet juhendatud õppimise vt James et al. (2013) (vähem tehniline) ja Hastie, Tibshirani, and Friedman (2009) (tehnilisem).
Prognoose on suur osa tööstustoodangu andmed teaduse (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Üks tüüp prognoosimine, mida tavaliselt tehakse sotsiaalse teadlased on demograafilise prognoosimine, näiteks Raftery et al. (2012) .
Google Flu Trends ei olnud esimene projekti kasutada otsingut andmeid nowcast gripi levikut. Tegelikult on teadlased Ameerika Ühendriigid (Polgreen et al. 2008; Ginsberg et al. 2009) ja Rootsi (Hulth, Rydevik, and Linde 2009) on leidnud, et teatud otsingu tingimusi (nt "gripp") ennustas riigi avalik tervisekontrolli andmed enne ilmus. Seejärel paljud, paljud teised projektid on üritanud kasutada digitaalset jälgi andmete haiguste jälgimise avastamise vt Althouse et al. (2015) läbivaatamiseks.
Lisaks digitaalne jälg andmete ennustada tervisele, seal on ka väga palju tööd kasutades Twitter andmed ennustada valimiste tulemusi; eest ülevaateid vaata Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), ja Huberty (2015) .
Kasutades otsingut andmeid ennustavad gripi levikut ning kasutades Twitter andmed ennustada valimised on mõlemad näited kasutamise mingi digitaalne jälg ennustada mingi sündmus maailmas. Seal on tohutu hulk uuringuid, mis on selle üldine struktuur. Tabel 2.5 sisaldab mõned muud näited.
Digitaalne jälgi | tulemus | Viide |
---|---|---|
puperdama | Kassad tulu filme USA | Asur and Huberman (2010) |
Hakulokien | Müük filme, muusikat, raamatuid ja videomänge USA | Goel et al. (2010) |
puperdama | Dow Jones Industrial Average (USA aktsiaturul) | Bollen, Mao, and Zeng (2011) |
Ajakirjas PS politoloogia oli sümpoosioni suur andmeid, põhjuslik järeldada, ja ametliku teooria ja Clark and Golder (2015) võtab kokku iga panus. Ajakirjas Proceedings of the National Academy of Sciences of the United States of America oli sümpoosioni põhjuslik järeldada ja suur andmete ja Shiffrin (2016) võtab kokku iga panus.
Loomuliku eksperimente, Dunning (2012) annab suurepärase raamatu pikkus ravi. Lisateavet abil Vietnam eelnõu loterii kui looduslik eksperiment, vaadake Berinsky and Chatfield (2015) . Sest masin õppe lähenemist, mis püüavad automaatselt leida looduslikke eksperimendid sees suur andmeallikate vt Jensen et al. (2008) ja Sharma, Hofman, and Watts (2015) .
Seoses sobitamise jaoks optimistlik vaata ülevaadet Stuart (2010) , ja pessimistlik ülevaateks vt Sekhon (2009) . Lisateavet sobitamine mingi pügamine, vaata Ho et al. (2007) . Raamatuid, mis annavad suurepärase ravi sobitamine vt Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ja Imbens and Rubin (2015) .