Ein tegund af því að fylgjast með því sem ekki er innifalið í þessum kafla er etnografi. Fyrir frekari upplýsingar um etnografi í stafrænum rýmum, sjá Boellstorff et al. (2012) , og til að fá meiri upplýsingar um þjóðfræði í blönduðu stafrænu og líkamlegu rými, sjá Lane (2016) .
Það er engin einhliða skilgreining á "stórum gögnum" en mörg skilgreiningar virðast einbeita sér að "3 Vs": bindi, fjölbreytni og hraða (td Japec et al. (2015) ). Sjá De Mauro et al. (2015) til að endurskoða skilgreiningar.
Inntaka ríkisstjórnarupplýsinga í flokki stóra gagna er svolítið óvenjulegt, þótt aðrir hafi einnig gert þetta mál, þar á meðal Legewie (2015) , Connelly et al. (2016) og Einav and Levin (2014) . Fyrir frekari upplýsingar um gildi stjórnsýsluupplýsinga um rannsóknir, sjá Card et al. (2010) , Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) og Grusky, Smeeding, and Snipp (2015) .
Til að skoða stjórnsýsluannsóknir innan ríkisstjórnarinnar, einkum US Census Bureau, sjá Jarmin and O'Hara (2016) . Fyrir bókhaldsmeðferð við rannsóknir á rekstrarskrám hjá Svíþjóð, sjá Wallgren and Wallgren (2007) .
Í kaflanum samanstóð ég stuttlega með hefðbundnum könnunum, svo sem almennum félagsskoðun (GSS) með félagslegum fjölmiðlum, svo sem Twitter. Fyrir nákvæma og nákvæma samanburð á hefðbundnum könnunum og félagslegum fjölmiðlum, sjá Schober et al. (2016) .
Þessar 10 einkenni stórra gagna hafa verið lýst á ýmsum mismunandi vegu af ýmsum höfundum. Ritun sem hefur áhrif á hugsun mína um þessi mál felur í sér Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) og Goldstone and Lupyan (2016) .
Í þessum kafla hefur ég notað hugtakið stafrænar leifar , sem ég held að sé tiltölulega hlutlaus. Önnur vinsæl orð fyrir stafrænar leifar eru stafrænar fótspor (Golder and Macy 2014) , en eins og Hal Abelson, Ken Ledeen og Harry Lewis (2008) benda á, er meira viðeigandi hugtak sennilega stafræn fingraför . Þegar þú býrð til fótspor, þú ert meðvituð um hvað er að gerast og ekki er almennt hægt að rekja spor einhvers til þín persónulega. Sama gildir ekki um stafræna ummerki þína. Reyndar ertu að fara frá ummerkjum allan tímann sem þú hefur mjög litla þekkingu á. Og þó að þessi ummerki hafi ekki nafn þitt á þeim, þá geta þau oft verið tengd aftur til þín. Með öðrum orðum, þau eru meira eins og fingraför: ósýnileg og persónulega auðkenning.
Fyrir frekari upplýsingar um hvers vegna stórar gagnasöfn gera tölfræðilegar prófanir erfiðar, sjá M. Lin, Lucas, and Shmueli (2013) og McFarland and McFarland (2015) . Þessi mál ætti að leiða vísindamenn til að leggja áherslu á hagnýta þýðingu frekar en tölfræðilega þýðingu.
Fyrir frekari upplýsingar um hvernig Raj Chetty og samstarfsmenn fengu aðgang að skattaskrámunum, sjá Mervis (2014) .
Stórar gagnasöfn geta einnig búið til tölvuvandamál sem eru almennt utan getu einföldu tölvu. Þess vegna eru vísindamenn sem gera útreikninga á stórum gagnasöfnum oft dreift verkinu á mörgum tölvum, sem er stundum kallað samhliða forritun . Fyrir kynningu á samhliða forritun, sérstaklega tungumáli sem heitir Hadoop, sjá Vo and Silvia (2016) .
Þegar miðað er við alltaf-á gögn er mikilvægt að íhuga hvort þú bera saman nákvæmlega sama fólkið með tímanum eða hvort þú bera saman nokkra breytta hóp fólks; sjá til dæmis Diaz et al. (2016) .
Klassískt bók um óvirkar aðgerðir er Webb et al. (1966) . Dæmiin í þeirri bók eru fyrir stafrænu aldri, en þau eru enn að lýsa. Fyrir dæmi um fólk sem breytir hegðun sinni vegna tilvistar eftirlits með massa, sjá Penney (2016) og Brayne (2014) .
Reactivity er nátengd hvað vísindamenn kalla eftirspurnaráhrif (Orne 1962; Zizzo 2010) og Hawthorne áhrif (Adair 1984; Levitt and List 2011) .
Fyrir meira á tengslanet, sjá Dunn (1946) og Fellegi and Sunter (1969) (söguleg) og Larsen and Winkler (2014) (nútíma). Svipaðar aðferðir hafa einnig verið þróaðar í tölvunarfræði með nöfnum eins og gagnaúthlutun, td auðkenningu, nafngreiningu, tvítekning og tvítekningarmæling (Elmagarmid, Ipeirotis, and Verykios 2007) . Það eru einnig persónuverndarverndar aðferðir til að skrá tengsl sem ekki krefjast sendingar persónulegra upplýsinga (Schnell 2013) . Facebook hefur einnig þróað ferli til að tengja skrár sínar við atkvæðagreiðslu hegðun; Þetta var gert til að meta tilraun sem ég segi þér um í kafla 4 (Bond et al. 2012; Jones et al. 2013) .
Fyrir frekari upplýsingar um byggingargildi, sjá 3. kafla Shadish, Cook, and Campbell (2001) .
Fyrir frekari upplýsingar um AOL leitarskráin, sjá Ohm (2010) . Ég býð ráðgjöf um samstarf við fyrirtæki og ríkisstjórnir í kafla 4 þegar ég lýsi tilraunum. Fjöldi höfunda hefur lýst yfir áhyggjum um rannsóknir sem byggjast á óaðgengilegum gögnum, sjá Huberman (2012) og boyd and Crawford (2012) .
Ein góð leið fyrir háskólanema vísindamenn að eignast gögn aðgangur er að vinna hjá fyrirtæki sem nemi eða heimsækja rannsóknir. Auk þess að gera gögn aðgangur, þetta ferli mun einnig hjálpa vísindamaður að læra meira um hvernig gögnum var búin, sem er mikilvægt fyrir greiningu.
Að því er varðar að fá aðgang að opinberum gögnum, Mervis (2014) um hvernig Raj Chetty og samstarfsmenn fengu aðgang að skattaskrámunum sem notaðar voru í rannsóknum sínum á félagslegri hreyfanleika.
Í Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) og Kruskal and Mosteller (1980) , sjáðu meira um sögu "representativeness" sem hugtak.
Samantekt mín um verk Snjór og verk Doll og Hill voru stutt. Fyrir meira um vinnu Snow í kóleru, sjá Freedman (1991) . Fyrir frekari upplýsingar um breska læknarannsóknina, sjá Doll et al. (2004) og Keating (2014) .
Margir vísindamenn vilja vera undrandi að læra að þó að Doll og Hill hafi safnað gögnum frá kvenkyns læknum og læknum undir 35 ára aldri, notuðu þeir ekki af ásetningi þessar upplýsingar í fyrstu greiningu sinni. Eins og þeir héldu því fram: "Þar sem lungnakrabbamein er tiltölulega sjaldgæft hjá konum og körlum yngri en 35, er ólíklegt að gagnlegar tölur séu fengnar í þessum hópum fyrir nokkrum árum. Í þessari frumskýrslu höfum við því takmarkað athygli okkar við karla á aldrinum 35 ára og eldri. " Rothman, Gallacher, and Hatch (2013) , sem hefur ögrandi titilinn" Af hverju ætti að koma í veg fyrir að ekki sé hægt að sýna fullnægjandi eiginleika " viljandi búa til órepresentative gögn.
Óprúttanlegt er stórt vandamál fyrir vísindamenn og ríkisstjórnir sem vilja gera yfirlýsingar um heilan íbúa. Þetta er minna áhyggjuefni fyrir fyrirtæki, sem eru venjulega áherslu á notendur sína. Fyrir frekari upplýsingar um hvernig Hagstofan telur að ekki sé unrepresentativeness stórra gagna, sjá Buelens et al. (2014) .
Fyrir dæmi um vísindamenn sem tjá áhyggjur af óhefðbundnum eðli stórra gagnaheimilda, sjá boyd and Crawford (2012) , K. Lewis (2015b) og Hargittai (2015) .
Fyrir nánari samanburð á markmiðum félagslegra könnunar og faraldsfræðilegra rannsókna, sjá Keiding and Louis (2016) .
Til að fá frekari upplýsingar um tilraunir til að nota Twitter til að gera almennar Jungherr (2013) um kjósendur, einkum málið frá þýska kosningunum árið 2009, sjá Jungherr (2013) og Jungherr (2015) . Eftir vinnu Tumasjan et al. (2010) vísindamenn um allan heim notið hagkvæmari aðferðir - til dæmis með því að nota viðhorfargreiningu til að greina á milli jákvæða og neikvæða ummæla aðila - til að bæta getu Twitter gögn til að spá fyrir um margs konar gerðir kosninga (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Hér er hvernig Huberty (2015) tók saman niðurstöðurnar af þessum tilraunum til að spá fyrir um kosningar:
"Allar þekktar spáunaraðferðir byggðar á félagslegum fjölmiðlum hafa mistekist þegar þær eru settar fram í kröfum sannrar framsýnar kosningarannsókna. Þessar bilanir virðast vera vegna grundvallar eiginleika félagslegra fjölmiðla, frekar en aðferðafræðilegra eða algrímfræðilegra erfiðleika. Í stuttu máli, félagsleg fjölmiðla, og mun líklega aldrei, bjóða upp á stöðugt, óhlutdræg, fulltrúa mynd af kjósendum; og þægindi sýna af félagslegum fjölmiðlum skortir nægjanlegar upplýsingar til að laga vandann eftir aðstæðum. "
Í 3. kafla lýsi ég sýnatöku og mati í miklu meiri smáatriðum. Jafnvel þótt gögn séu órepresentative, við vissar aðstæður, geta þau verið vegin til að framleiða góðar áætlanir.
Kerfisdrift er mjög erfitt að sjá utan frá. Hins vegar hefur MovieLens verkefnið (rætt meira í kafla 4) verið runnið í meira en 15 ár af fræðilegum rannsóknarhópi. Þannig hafa þeir tekist að skrá og deila upplýsingum um hvernig kerfið hefur þróast með tímanum og hvernig þetta gæti haft áhrif á greiningu (Harper and Konstan 2015) .
Nokkrir fræðimenn hafa lagt áherslu á svíf í Twitter: Liu, Kliman-Silver, and Mislove (2014) og Tufekci (2014) .
Ein aðferð til að takast á við íbúafjölda er að búa til spjaldið af notendum, sem gerir vísindamenn kleift að læra sama fólkið með tímanum, sjá Diaz et al. (2016) .
Ég heyrði fyrst hugtakið "algrímfræðilega skaðlegt" notað af Jon Kleinberg í samtali, en því miður man ég ekki hvenær eða hvar málið var gefið. Í fyrsta sinn sem ég sá hugtakið í prenti var í Anderson et al. (2015) , sem er áhugaverð umfjöllun um hvernig reiknirit sem notuð er af stefnumótum gæti valdið getu vísindamanna til að nota gögn frá þessum vefsíðum til að læra félagslegar óskir. Þessi áhyggjuefni var alin upp af K. Lewis (2015a) svar við Anderson et al. (2014) .
Til viðbótar við Facebook mælir Twitter einnig fólki fyrir notendur að fylgja á grundvelli hugmyndarinnar um triadic lokun; sjá Su, Sharma, and Goel (2016) . Þannig að þrívíddu lokunin í Twitter er sambland af sumum tilhneigingu manna til þríhyrningslaga lokunar og nokkuð algrímfræðileg tilhneiging til að stuðla að þríhyrningslaga lokun.
Fyrir meira um frammistöðu - einkum hugmyndin um að sumarvísindasögur séu "vélar ekki myndavélar" (þ.e. þeir móta heiminn frekar en að lýsa því aðeins) - sjá Mackenzie (2008) .
Ríkisstjórnarstofnanir kalla gögn gagnahreinsun tölfræðilegra gagnavinnslu . De Waal, Puts, and Daas (2014) lýsa tölfræðilegum gagnavinnsluaðferðum sem eru þróaðar til könnunargagna og kanna hversu mikið þau eiga við um stór gögn og Puts, Daas, and Waal (2015) kynna nokkrar af sömu hugmyndum um almennari áhorfendur.
Fyrir yfirlit yfir félagslegar bots, sjá Ferrara et al. (2016) . Fyrir dæmi um rannsóknir sem beinast að því að finna ruslpóst í Twitter, sjá Clark et al. (2016) og Chu et al. (2012) . Að lokum, Subrahmanian et al. (2016) lýsa niðurstöðum DARPA Twitter Bot Challenge, samvinnuverkefni sem hönnuð er til að bera saman leiðir til að greina bots á Twitter.
Ohm (2015) skoðar fyrri rannsóknir á hugmyndinni um viðkvæmar upplýsingar og býður upp á fjölþætt próf. Fjórum þættirnir sem hann leggur fram eru magn skaða, líkur á skaða, trúverðug tengsl og hvort áhættan endurspeglar majoritarian áhyggjur.
Farber rannsókn á leigubíla í New York byggðist á fyrri rannsókn Camerer et al. (1997) sem notaðir voru þrjár mismunandi gerðarprófanir á pappírsblöðum. Þessi fyrri rannsókn komst að því að ökumenn virtust vera miðlari: þeir unnu minna á daga þar sem laun þeirra voru hærri.
Í síðari starfi hafa konungur og samstarfsmenn rannsakað frekar ritskoðun á netinu í Kína (King, Pan, and Roberts 2014, [@king_how_2016] ) . Fyrir tengda nálgun til að mæla ritskoðun á netinu í Kína, sjá Bamman, O'Connor, and Smith (2012) . Fyrir frekari upplýsingar um tölfræðilegar aðferðir eins og sá sem notað er í King, Pan, and Roberts (2013) til að meta viðhorf 11 milljón innlegga, sjá Hopkins and King (2010) . Til að fá nánara námsráðgjöf, sjá James et al. (2013) (minna tæknilega) og Hastie, Tibshirani, and Friedman (2009) (meira tæknilega).
Spá er stór hluti iðnaðarupplýsinga (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ein tegund af spá sem almennt er gert af félagslegum vísindamönnum er lýðfræðilegar spáir; sjá, til dæmis, Raftery et al. (2012) .
Þróunin í Google-inflúensu var ekki fyrsta verkefnið til að nota leitargögn til að koma í veg fyrir inflúensu. Reyndar hafa vísindamenn í Bandaríkjunum (Polgreen et al. 2008; Ginsberg et al. 2009) og Svíþjóð (Hulth, Rydevik, and Linde 2009) komist að því að ákveðnar leitarorðin (td "inflúensu") spáðu til eftirlits með almannaheilbrigði gögn áður en hún var gefin út. Í kjölfarið hafa margir, mörg önnur verkefni reynt að nota stafræna rekja gögn til uppgötvun sjúkdóms eftirlits; sjá Althouse et al. (2015) fyrir endurskoðun.
Auk þess að nota stafræna rekja gögn til að spá heilsu niðurstöður, það hefur einnig verið mikið af vinnu með því að nota Twitter gögn til að spá fyrir um kosningar niðurstöður; fyrir umsagnir sjá Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kafli 7) og Huberty (2015) . Núverandi hagvísar, svo sem vergri landsframleiðsla (VLF), eru einnig algeng í seðlabönkum, sjá Bańbura et al. (2013) . Tafla 2.8 inniheldur nokkur dæmi um rannsóknir sem nota einhvers konar stafræna rekja til að spá fyrir um einhvers konar atburð í heiminum.
Stafrænn rekja | Útkoma | Tilvitnun |
---|---|---|
Innifalið í kvikmyndahúsum í Bandaríkjunum | Asur and Huberman (2010) | |
Leitarskrár | Sala á kvikmyndum, tónlist, bækur og tölvuleikjum í Bandaríkjunum | Goel et al. (2010) |
Dow Jones Industrial Average (bandaríska hlutabréfamarkaðinn) | Bollen, Mao, and Zeng (2011) | |
Félagsleg fjölmiðla og leitarskrár | Kannanir um viðhorf fjárfesta og hlutabréfamarkaða í Bandaríkjunum, Bretlandi, Kanada og Kína | Mao et al. (2015) |
Leitarskrár | Algengi Dengue Fever í Singapúr og Bangkok | Althouse, Ng, and Cummings (2011) |
Að lokum hafa Jon Kleinberg og samstarfsmenn (2015) bent á að spávandamál séu í tveimur, ólíkum flokkum og að félagsvísindamenn hafa tilhneigingu til að einbeita sér að einum og hunsa hinn. Ímyndaðu þér eina stefnumótandi framleiðanda, ég hringi í hana Anna, sem stendur frammi fyrir þurrka og verður að ákveða hvort að ráða shaman til að gera regndans til að auka möguleika á rigningu. Annar stefnumótandi framleiðandi, ég kalla hana Betty, verður að ákveða hvort að taka regnhlíf til vinnu til að forðast að verða blautur á leiðinni heim. Bæði Anna og Betty geta gert betri ákvörðun ef þeir skilja veður, en þeir þurfa að vita mismunandi hluti. Anna þarf að skilja hvort rigning dansin veldur rigningu. Betty, hins vegar, þarf ekki að skilja neitt um orsakasamband; hún þarf bara nákvæma spá. Félagsvísindamenn leggja áherslu á vandamálin eins og Anna-sem Kleinberg og samstarfsmennirnir kalla á "regnskólagjafar" stefnumótandi vandamál - vegna þess að þær tengjast spurningum um orsakasamhengi. Spurningar eins og Betty-sem Kleinberg og samstarfsmenn kalla á "regnhlíf-eins" stefnumótandi vandamál - geta verið mjög mikilvægt líka, en hafa fengið miklu minni athygli frá félagslegum vísindamönnum.
Tímarit PS Political Science átti málþing um stóra gagna, orsakasamhengi og formlega kenningu, og Clark and Golder (2015) saman hvert framlag. Tímaritið Rannsóknir á vísindaskólanum í Bandaríkjunum höfðu málþing um orsakasamhengi og stór gögn og Shiffrin (2016) samantektir hvert framlag. Til að læra aðferðir til að reyna að uppgötva náttúrulega tilraunir inni í stórum gögnum, sjá Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , og Sharma, Hofman, and Watts (2016) .
Hvað varðar náttúrulegar tilraunir, gefur Dunning (2012) inngangsbeiðni, bókalengd með mörgum dæmi. Fyrir Rosenzweig and Wolpin (2000) útsýni yfir náttúrulegar tilraunir, sjá Rosenzweig and Wolpin (2000) (hagfræði) eða Sekhon and Titiunik (2012) (stjórnmálafræði). Deaton (2010) og Heckman and Urzúa (2010) halda því fram að áhersla á náttúrulegar tilraunir geti leitt til þess að vísindamenn leggi áherslu á að meta óveruleg orsakatengd áhrif; Imbens (2010) gegn þessum rökum með bjartsýnri mynd af verðmæti náttúrulegra tilrauna.
Þegar ég lýsi því hvernig vísindamaður gæti farið frá því að meta áhrif þess að vera tekinn út fyrir áhrif þjóna, þá var ég að lýsa tækni sem kallast hljóðfæraleikar . Imbens and Rubin (2015) , í kafla 23 og 24, veita kynningu og nota drög lotukerfisins sem dæmi. Áhrif herþjónustu á samanburðaraðilum er stundum kallaður meðalverkandi orsakatengsl (CAcE) og stundum staðbundin meðaltal meðferðaráhrif (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) og Bollen (2012) bjóða upp á umsagnir um notkun hljóðfæraleika í stjórnmálafræði, hagfræði og félagsfræði og Sovey and Green (2011) veitir tékklistann "lesandans" fyrir meta rannsóknir með hljóðfærum.
Það kemur í ljós að áratugardrottningin frá 1970 var ekki í raun rétt slembiraðað; Það voru lítil frávik frá hreinu handahófi (Fienberg 1971) . Berinsky and Chatfield (2015) halda því fram að þessi litla frávik sé ekki efnislega mikilvægt og fjalla um mikilvægi þess að réttar slembirannsóknir séu gerðar.
Hvað varðar samsvörun, sjá Stuart (2010) fyrir bjartsýnn endurskoðun og Sekhon (2009) fyrir svartsýnn endurskoðun. Fyrir meira um samsvörun eins konar snyrta, sjá Ho et al. (2007) . Að finna einn fullkominn samsvörun fyrir hvern einstakling er oft erfitt og þetta kynnir fjölda flókinna. Í fyrsta lagi, þegar nákvæmir passar eru ekki tiltækar, þurfa vísindamenn að ákveða hvernig á að mæla fjarlægðin milli tveggja eininga og ef tiltekinn fjarlægð er nægilega nálægt. Annað flókið veldur því að vísindamenn vilja nota margar samsvörun fyrir hvert tilfelli í meðferðarhópnum, þar sem þetta getur leitt til nákvæmara áætlana. Bæði þessi mál, auk annarra, eru lýst nánar í kafla 18 í Imbens and Rubin (2015) . Sjá einnig hluta II af ( ??? ) .
Sjá Dehejia and Wahba (1999) fyrir dæmi þar sem samsvörunaraðferðir voru færar til að framleiða áætlanir svipaðar þeim sem slembiraðað var í stýrðri tilraun. En sjáðu Arceneaux, Gerber, and Green (2006) og Arceneaux, Gerber, and Green (2010) fyrir dæmi þar sem samsvörunaraðferðir mistókst að endurskapa tilraunamerki.
Rosenbaum (2015) og Hernán and Robins (2016) bjóða upp á aðrar ráðstafanir til að uppgötva gagnlegar samanburður innan stóra gagnasafna.