Þessi hluti er hannað til að nota sem viðmiðun, frekar en að vera að lesa sem frásögn.
Einn góður af að fylgjast með að ekki er innifalinn í þessum kafla er þjóðfræði. Frekari upplýsingar um þjóðfræði í stafrænum rýmum sjá Boellstorff et al. (2012) , og meira um þjóðfræði í blönduðum stafrænum og líkamlega rými sjá Lane (2016) .
Þegar þú ert repurposing gögn, það eru tveir andlega bragðarefur sem getur hjálpað þér að skilja hugsanleg vandamál sem geta komið upp. Fyrst, þú geta reyna að ímynda sér hugsjón gagnapakkann fyrir vanda þínum og bera það við gagnapakkann sem þú ert að nota. Hvernig þau eru svipuð og hvernig eru þeir öðruvísi? Ef þú hefur ekki safna gögnum sjálfur, eru líklegri til að vera munur á milli hvað þú vilt og hvað þú þarft. En, þú þarft að ákveða hvort þessi munur er minniháttar eða meiriháttar.
Í öðru lagi, muna að einhver búin og safnað gögnum fyrir sumir ástæða. Þú ættir að reyna að skilja rök þeirra. Af þessu tagi andstæða-verkfræði getur hjálpað þér að finna hugsanleg vandamál og hlutdrægni í repurposed gögnunum.
Það er engin ein samstaða skilgreining "stór gögn", en margir skilgreiningar virðast einblína á 3 vs: (td rúmmál, fjölbreytni og hraða Japec et al. (2015) ). Frekar en að einblína á eiginleikum gagnanna, skilgreiningu mína fjallar meira um hvers vegna gögnin var búin.
Skráning mitt stjórnvalda Stjórnsýslugögnum inni í flokki stór gögn er dálítið óvenju. Aðrir sem hafa gert þetta mál, ma Legewie (2015) , Connelly et al. (2016) , og Einav and Levin (2014) . Fyrir meira um gildi stjórnvalda Stjórnsýslugögnum fyrir rannsóknir, sjá Card et al. (2010) , Taskforce (2012) , og Grusky, Smeeding, and Snipp (2015) .
Fyrir augum stjórnsýslu rannsókna frá inni í ríkisstjórn tölfræðileg kerfi, einkum US Census Bureau, sjá Jarmin and O'Hara (2016) . Fyrir meðferð bók lengd stjórnsýsluupplýsingar rannsóknir á Hagstofu Svíþjóðar, sjá Wallgren and Wallgren (2007) .
Í kaflanum, sem ég saman stuttlega hefðbundinn könnun eins og General Social Survey (GSS) til félagslegur frá miðöldum gögn uppspretta svo sem eins og Twitter. Fyrir ítarlega og vandlega samanburð milli hefðbundinna kannanir og félagslega fjölmiðlum gögn, sjá Schober et al. (2016) .
Þessir 10 eiginleikar stór gögn hefur verið lýst í ýmsum mismunandi vegu með ýmsum mismunandi höfunda. Ritun sem áhrif hugsun mína á þessum málum eru: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , og Goldstone and Lupyan (2016) .
Allan þennan kafla, hef ég notað hugtakið stafræna ummerki, sem ég held er tiltölulega hlutlaus. Annar vinsæll orð fyrir stafrænar snefil er stafræn sporin (Golder and Macy 2014) , en eins og Hal Abelson, Ken Ledeen og Harry Lewis (2008) benda á, meira viðeigandi tíma er líklega stafræn fingraför. Þegar þú býrð spor, þú ert meðvituð um hvað er að gerast og sporin þín er almennt ekki unnt að rekja til þín persónulega. Hið sama er ekki satt fyrir stafrænar ummerki þínum. Í raun, þú ert að fara ummerki allan tímann um hver þú ert mjög litla þekkingu. Og þótt þessi ummerki hafa ekki nafnið þitt á þeim, geta þeir oft verið tengd aftur til þín. Með öðrum orðum, þeir eru meira eins og fingraför: ósýnilega og persónugreinanlegar.
Big
Frekari upplýsingar um hvers vegna stór gagnasett, bakið tölfræðipróf erfið, sjá Lin, Lucas, and Shmueli (2013) og McFarland and McFarland (2015) . Þessi atriði ættu að leiða vísindamenn að einblína á hagnýta þýðingu fremur en marktækni.
Alltaf á
Þegar miðað alltaf-á gögnum, það er mikilvægt að íhuga hvort þú ert að bera saman nákvæmlega sömu fólkið tímanum eða hvort þú ert að bera saman nokkrar breytast hóp af fólki; sjá til dæmis, Diaz et al. (2016) .
Bregst ekki við
Sígild bók á non-viðbragða er Webb et al. (1966) . Dæmin í bókinni pre-dagsetning stafrænni öld, en þeir eru samt fræðandi. Fyrir dæmi um fólk að breyta hegðun sinni vegna þess að tilvist massa eftirlit, sjá Penney (2016) og Brayne (2014) .
Ófullkomin
Frekari upplýsingar um skrá tengingu, sjá Dunn (1946) og Fellegi and Sunter (1969) (historical) og Larsen and Winkler (2014) (nútíma). Líkur nálgast hafa einnig verið þróuð í tölvunarfræði undir nöfnum svo sem gögn deduplication, td greiningu, nafn samsvörun, fjölfalda uppgötvun, og afrit skrá uppgötvun (Elmagarmid, Ipeirotis, and Verykios 2007) . Það eru líka næði viðhalda aðferðir til að taka tengsl sem þurfa ekki í sér persónugreinanlegar upplýsingar (Schnell 2013) . Facebook hefur einnig þróað áfram að tengja skrár sínar hegðun atkvæðagreiðslu; þetta var gert til þess að meta tilraun sem ég ætla að segja ykkur í 4. kafla (Bond et al. 2012; Jones et al. 2013) .
Frekari upplýsingar um reisa gildi, sjá Shadish, Cook, and Campbell (2001) , 3. kafla.
óaðgengilegur
Fyrir meira um AOL Search log debacle, sjá Ohm (2010) . Ég bjóða upp á ráðgjöf um samstarf við fyrirtæki og ríkisstjórnir í 4. kafla þegar ég lýsa tilraunir. Ýmis höfundar hafa lýst áhyggjum rannsóknir sem byggir á óaðgengilegur gögn, sjá Huberman (2012) og boyd and Crawford (2012) .
Ein góð leið fyrir háskólanema vísindamenn að eignast gögn aðgangur er að vinna hjá fyrirtæki sem nemi eða heimsækja rannsóknir. Auk þess að gera gögn aðgangur, þetta ferli mun einnig hjálpa vísindamaður að læra meira um hvernig gögnum var búin, sem er mikilvægt fyrir greiningu.
Non-fulltrúi
Non-, fulltrúa er stórt vandamál fyrir vísindamenn og stjórnvöld sem vilja til að gera yfirlýsingar um heilt íbúa. Þetta er minna áhyggjuefni fyrir fyrirtæki sem eru oftast lögð áhersla á notendur sína. Meira um hvernig Hagstofa Holland telur málið á ekki dæmigert fyrirtæki stór gögn, sjá Buelens et al. (2014) .
Í 3. kafla, ég lýsa sýnatöku og mat í mun meiri smáatriðum. Jafnvel þótt gögn eru ekki dæmigerð, við vissar aðstæður, þeir geta verið vegið að framleiða góða mat.
reki
System svíf er mjög erfitt að sjá utan frá. Hins vegar MovieLens verkefnið (rætt meira í kafla 4) hefur verið rekið í meira en 15 ár af rannsóknarverkefni hópi. Þess vegna hafa þeir skjalfest og deilt upplýsingum um hvernig að kerfið hefur þróast með tímanum og hvernig þetta gæti haft áhrif greining (Harper and Konstan 2015) .
Nokkrir fræðimenn hafa lagt áherslu á reki í Twitter: Liu, Kliman-Silver, and Mislove (2014) og Tufekci (2014) .
algorithmically háðungar
Ég heyrði fyrst hugtakið "algorithmically ruglaði" notað af Jon Kleinberg í ræðu. The aðalæð hugmynd á bak performativity er að sum félagsleg vísindi kenningar eru "vélar ekki myndavélar" (Mackenzie 2008) . Það er, þeir móta í raun heiminn frekar en bara handtaka það.
Dirty
Ríkisstofnanir tölfræðilegar stofnanir kalla gögn hreinsun, tölfræðileg gögn klippingu. De Waal, Puts, and Daas (2014) lýsa tölfræðilegum gögnum klippingu aðferðir sem þróaðar fyrir kannanaefni og kanna að hve miklu leyti þeir eiga við stór gögn heimildum, og Puts, Daas, and Waal (2015) kynnir sumir af sömu hugmyndum um almennari áhorfendur.
Fyrir nokkur dæmi um rannsóknir áherslu á spam í Twitter, Clark et al. (2016) og Chu et al. (2012) . Að lokum, Subrahmanian et al. (2016) lýsir yfir niðurstöður DARPA Twitter Bot Challenge.
næmur
Ohm (2015) ritdóma fyrri rannsóknir á þeirri hugmynd að viðkvæmar upplýsingar og býður upp á multi-þáttur próf. Fjórir þættir hann leggur eru: líkurnar á skaða; Líkur á skaða; viðstöddum trúnaðarsambandi; og hvort hætta endurspegla Majoritarian áhyggjur.
Rannsókn Farber af leigubílum í New York var byggt á fyrri rannsókn Camerer et al. (1997) sem er notað þrjú mismunandi sýnum þægindi af pappír ferð blöð-pappír eyðublöðum sem notuð ökumenn til að taka ferð upphafstíma, lokatíma og fargjald. Þetta áðan rannsókn í ljós að ökumenn virtust vera miða launþega, þeir unnu minna á dögum þar sem laun þeirra voru hærri.
Kossinets and Watts (2009) var lögð áhersla á uppruna homophily í félagslega net. Sjá Wimmer and Lewis (2010) fyrir mismunandi nálgun við sama vandamál sem notar gögn frá Facebook.
Í síðari verkum, King og samstarfsmenn hafa frekar kannað netinu ritskoðun í Kína (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Fyrir tengdum nálgun að mæla online ritskoðun í Kína, sjá Bamman, O'Connor, and Smith (2012) . Frekari upplýsingar um tölfræðilegar aðferðir eins og er notað í King, Pan, and Roberts (2013) til að meta viðhorf þeirra 11 milljónir innlegg, sjá Hopkins and King (2010) . Frekari upplýsingar um umsjón náms, sjá James et al. (2013) (minna tæknilega) og Hastie, Tibshirani, and Friedman (2009) (meira tæknilega).
Spá er stór hluti af iðnaðar gögn vísindi (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ein tegund af spá sem eru almennt gert með félagslegum vísindamenn eru lýðfræðilega spá, td Raftery et al. (2012) .
Google Flensa Trends var ekki fyrsta verkefnið að nota leitina gögn til nowcast inflúensu algengi. Í raun, vísindamenn í Bandaríkjunum (Polgreen et al. 2008; Ginsberg et al. 2009) og Svíþjóð (Hulth, Rydevik, and Linde 2009) hafa komist að því að ákveðin leitarskilyrði (td "flensu") spáð National Public heilbrigðiseftirlit gögnum áður en það var sleppt. Í kjölfarið margar aðrar framkvæmdir hafa reynt að nota stafræn gögn rekja til sjúkdómsins eftirlitssvæðinu uppgötvun, sjá Althouse et al. (2015) um endurskoðun.
Auk þess að nota stafræn gögn snefil að spá heilsu niðurstöður, það hefur einnig verið mikið magn af vinna með Twitter gögn til að spá kosningar niðurstöður; að rifja sjá Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), og Huberty (2015) .
Notkun leitargögnum að spá inflúensu algengi og nota Twitter gögn til að spá kosningar eru bæði dæmi um að nota einhvers konar stafræna rekja að spá einhvers konar atburði í heiminum. Það gífurlegur fjöldi rannsókna sem hafa þessa almennu uppbyggingu. Tafla 2.5 inniheldur nokkrar fleiri dæmi.
Digital rekja | Outcome | Citation |
---|---|---|
Aðgöngumiðasala tekjur af bíó í Bandaríkjunum | Asur and Huberman (2010) | |
Leitarskrár | Sala kvikmyndir, tónlist, bækur og tölvuleiki í Bandaríkjunum | Goel et al. (2010) |
Dow Jones Industrial Average (US birgðir markaður) | Bollen, Mao, and Zeng (2011) |
Tímaritið PS Political Science hafði málþingi um stór gögn, orsakasamhengi ályktun, og formleg kenning, og Clark and Golder (2015) er samantekt hvert framlag. The Journal Proceedings of the National Academy of Sciences í Bandaríkjunum hafði málþingi um orsakasamhengi ályktun og stór gögn og Shiffrin (2016) er samantekt hvert framlag.
Hvað varðar náttúrulegum tilraunum, Dunning (2012) veitir framúrskarandi bók lengd meðferðar. Frekari upplýsingar um notkun Víetnam drög lottóinu sem náttúrulegt tilraun, sjá Berinsky and Chatfield (2015) . Fyrir vél nám aðferðir sem tilraun til sjálfkrafa uppgötva náttúrulega tilraunir inni í stóru gögn heimildum, sjá Jensen et al. (2008) og Sharma, Hofman, and Watts (2015) .
Hvað varðar samsvörun, fyrir bjartsýnn endurskoðun, sjá Stuart (2010) , og fyrir svartsýnn endurskoðun sjá Sekhon (2009) . Frekari upplýsingar um samsvarandi eins konar pruning, sjá Ho et al. (2007) . Bækur sem veita framúrskarandi meðferðir af samsvörun, sjá Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , og Imbens and Rubin (2015) .