Tá an chuid seo deartha chun a úsáid mar thagairt, seachas a léamh mar scéal.
Is é ceann de bhreathnú nach bhfuil san áireamh sa chaibidil seo comhchineáil eitneagrafaíochta. Chun níos mó ar eitneagrafaíochta i spásanna digiteach féach Boellstorff et al. (2012) , agus le haghaidh níos mó ar eitneagrafaíochta i spásanna digiteach agus fisiceach measctha féach Lane (2016) .
Nuair a bhíonn tú sonraí a repurposing, tá dhá cleasanna mheabhrach is féidir a chabhróidh leat tuiscint a fháil ar na fadhbanna is féidir go d'fhéadfá teacht. Gcéad dul síos, is féidir leat triail a shamhlú an tacar sonraí oiriúnach do do fhadhb agus an chur i gcomparáid go dtí an tacar sonraí a bhfuil tú ag úsáid. Cén chaoi a bhfuil siad cosúil agus an chaoi a bhfuil siad difriúil? Mura ndearna tú a bhailiú do chuid sonraí féin, is dócha go mbeadh difríocht idir an méid ba mhaith leat agus a bhfuil tú. Ach, tá tú chun cinneadh a dhéanamh má tá na difríochtaí beaga nó móra.
Dara, cuimhnigh go cruthaíodh duine éigin agus bhailigh do shonraí ar chúis éigin. Ba chóir duit iarracht chun tuiscint a fháil ar a réasúnú. Is féidir an cineál droim ar ais-innealtóireacht cabhrú leat fadhbanna féideartha agus claonadh i do shonraí repurposed aithint.
Níl aon sainmhíniú chomhdhearcadh amháin ar "sonraí mór", ach is cosúil go leor sainmhínithe chun díriú ar an vs 3: (eg, toirt, éagsúlacht, agus treoluas Japec et al. (2015) ). In áit a bheith ag díriú ar na saintréithe na sonraí, díríonn mo sainmhíniú níos mó ar cén fáth a cruthaíodh na sonraí.
Is é mo áireamh sonraí riaracháin rialtais taobh istigh den chatagóir sonraí mór le beagán neamhghnách. Orthu siúd a rinne chás seo, Legewie (2015) , Connelly et al. (2016) , agus Einav and Levin (2014) . Le haghaidh tuilleadh faoi luach sonraí riaracháin rialtais do thaighde, féach Card et al. (2010) , Taskforce (2012) , agus Grusky, Smeeding, and Snipp (2015) .
Chun léargas taighde riaracháin ón taobh istigh den chóras rialtais staidrimh, go háirithe leis an Biúró Daonáireamh US, féach Jarmin and O'Hara (2016) . Le haghaidh chóireáil fad leabhar ar an taighde dtaifead riaracháin ag Staitisticí tSualainn, féach Wallgren and Wallgren (2007) .
Sa chaibidil, i gcomparáid mé go hachomair suirbhé traidisiúnta ar nós Shuirbhé Ginearálta Shóisialta (GSS) le foinse sonraí meáin shóisialta ar nós Twitter. Le haghaidh comparáid críochnúil agus go cúramach idir suirbhéanna traidisiúnta agus sonraí meáin shóisialta, féach Schober et al. (2016) .
Tá na 10 saintréithe na sonraí mór a bheith cur síos orthu i ar bhealaí éagsúla éagsúla ag éagsúla údair éagsúla. Scríbhneoireacht a raibh tionchar acu ar mo smaointe maidir leis na saincheisteanna san áireamh: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , agus Goldstone and Lupyan (2016) .
Sa chaibidil seo, tá mé úsáid as na rianta téarma digiteach, a Sílim go bhfuil sách neodrach. Is ea an téarma coitianta le haghaidh rianta digiteach footprints digiteach (Golder and Macy 2014) , ach de réir mar Hal Abelson, Ken Ledeen, agus Harry Lewis (2008) in iúl, tá súil le téarma níos oiriúnaí dócha méarloirg digiteacha. Nuair a chruthú duit footprints, tá tú ar an eolas faoi cad atá ag tarlú agus ní féidir le do footprints a rianú go ginearálta le leat go pearsanta. Níl an rud céanna fíor do do rianta digiteach. Go deimhin, tá tú ag fágáil rianta ar fad an t-am mar gheall ar a bhfuil tú eolas an-beag. Agus, cé nach bhfuil na rianta d'ainm orthu, is féidir leo a nascadh go minic ar ais chugat. I bhfocail eile, tá siad níos mó cosúil le méarloirg: dofheicthe agus go pearsanta a aithint.
Big
Chun níos mó ar cén fáth tacair mhóra, rindreáil tástálacha staitistiúla fadhbanna, féach Lin, Lucas, and Shmueli (2013) agus McFarland and McFarland (2015) . Ba chóir na ceisteanna taighdeoirí mar thoradh ar díriú ar an tábhacht phraiticiúil seachas suntais staitistiúil.
I gcónaí ar
Nuair a bhreithniú i gcónaí ar shonraí, tá sé tábhachtach a bhreithniú cibé an bhfuil tú i gcomparáid na daoine ceannann céanna thar am nó cibé an bhfuil tú i gcomparáid roinnt grúpa atá ag athrú de dhaoine; féach, mar shampla, Diaz et al. (2016) .
Neamh-imoibríoch
Tá leabhar clasaiceach ar bhearta neamh-imoibríoch Webb et al. (1966) . Na samplaí sa leabhar roimh dáta an aois dhigiteach, ach tá siad illuminating fóill. Le haghaidh samplaí de na daoine atá ag athrú a n-iompar mar gheall ar an láithreacht an fhaireacháin mais, féach Penney (2016) agus Brayne (2014) .
neamhiomlán
Chun níos mó ar nasc taifead, féach Dunn (1946) agus Fellegi and Sunter (1969) (historical) agus Larsen and Winkler (2014) (nua-aimseartha). Chuaigh comhchosúla Tá forbairt déanta freisin san eolaíocht ríomhaireachta faoi na hainmneacha ar nós deduplication sonraí, aithint shampla, ainm meaitseáil, dhúbailt bhrath, agus dúbailt a bhrath taifead (Elmagarmid, Ipeirotis, and Verykios 2007) . Tá príobháideachta chuige chaomhnú nascadh nach gceanglaíonn go tarchur a aithint go pearsanta faisnéis a thaifeadadh ann freisin (Schnell 2013) . Facebook Tá forbairt déanta freisin ar aghaidh go dtí a dtaifid a nascadh le hiompar vótála; Rinneadh é seo a mheas ar thurgnamh go mbeidh mé ag insint duit faoi i gCaibidil 4 (Bond et al. 2012; Jones et al. 2013) .
Chun níos mó ar bhailíocht thógáil, féach Shadish, Cook, and Campbell (2001) , Caibidil 3.
inaccessible
Le haghaidh níos mó ar an AOL debacle logáil cuardaigh, féach Ohm (2010) . Glacaim comhairle faoi gcomhpháirtíocht le cuideachtaí agus rialtais i gCaibidil 4 nuair turgnaimh cur síos mé. Tá roinnt húdair a imní faoi thaighde atá ag brath ar na sonraí inaccessible iúl, féach Huberman (2012) agus boyd and Crawford (2012) .
Is é ceann bhealach maith do thaighdeoirí ollscoile chun rochtain ar shonraí a fháil a bheith ag obair ag cuideachta mar intéirneach nó taighdeoir ar cuairt. Chomh maith le a chumasú rochtain ar shonraí, beidh an próiseas seo cabhrú freisin leis an taighdeoir níos mó faoi conas a cruthaíodh na sonraí, rud atá tábhachtach le haghaidh anailíse fhoghlaim.
Neamh-ionadaí
Is Neamh-cé chomh hionadaíoch fhadhb mhór do thaighdeoirí agus rialtais atá ag iarraidh ráitis faoi daonra ar fad a dhéanamh. Tá sé seo níos lú imní do chuideachtaí atá dírithe de ghnáth ar a n-úsáideoirí. Chun níos mó ar an gcaoi a mheasann Staitisticí hÍsiltíre eisiúint neamh- ionadaíochas shonraí gnó mór, féach Buelens et al. (2014) .
I gCaibidil 3, beidh mé cur síos a dhéanamh samplála agus meastachán i bhfad níos mionsonraithe. Fiú má tá na sonraí neamh-ionadaí, faoi choinníollacha áirithe, is féidir iad a ualú chun meastacháin maith.
drifting
Tá sruth córas an-deacair a fheiceáil ón taobh amuigh. Mar sin féin, tá an tionscadal MovieLens (pléite níos mó i gCaibidil 4) curtha ar siúl ar feadh níos mó ná 15 bliain ag grúpa taighde acadúil. Dá bhrí sin, tá siad doiciméadaithe agus eolas faoin mbealach go bhfuil an córas chun cinn le himeacht ama agus ar an gcaoi a roinnt an anailís a d'fhéadfadh tionchar (Harper and Konstan 2015) .
Tá roinnt scoláirí tar éis díriú ar sruth i Twitter: Liu, Kliman-Silver, and Mislove (2014) agus Tufekci (2014) .
Algorithmically confounded
Chuala mé ar dtús leis an téarma "confounded algorithmically" in úsáid ag Jon Kleinberg in caint. Is é an príomh-smaoineamh taobh thiar de performativity go bhfuil roinnt teoiricí eolaíochta sóisialta "inneall nach ceamaraí" (Mackenzie 2008) . Is é sin, iad a mhúnlú i ndáiríre ar fud an domhain seachas díreach a ghabháil air.
Salach
Glaoch gníomhaireachtaí staitistiúla Rialtasach ghlanadh sonraí, staidrimh eagarthóireacht sonraí. De Waal, Puts, and Daas (2014) cur síos ar teicnící eagarthóireacht sonraí staidrimh a forbraíodh do shonraí suirbhé agus scrúdú ar a mhéid atá siad infheidhme maidir le foinsí sonraí mór, agus Puts, Daas, and Waal (2015) i láthair ar roinnt de na smaointe céanna do lucht féachana níos ginearálta.
I gcás roinnt samplaí de staidéir dírithe ar spam i Twitter, Clark et al. (2016) agus an Chu et al. (2012) . Ar deireadh, Subrahmanian et al. (2016) cur síos ar na torthaí an DARPA Twitter Bot Dúshlán.
íogaire
Ohm (2015) athbhreithniú taighde níos luaithe ar an smaoineamh faisnéis íogair agus cuireann tástáil il-fhachtóir. Is iad na ceithre fachtóirí beartaithe aige: an dóchúlacht dochair; dóchúlacht dochair; láithreacht caidreamh rúnda; agus cibé an riosca a léiriú imní majoritarian.
Cuireadh staidéar Farber ar tacsaithe i Nua-Eabhrac atá bunaithe ar staidéar níos luaithe ag Camerer et al. (1997) a úsáidtear trí shampla áisiúlacht éagsúla turas páipéir Foirmeacha bileoga-páipéar a úsáideann tiománaithe a thaifeadadh am tús turas, am deiridh, agus sonraí táillí. fuair an staidéar níos luaithe go bhfuil an chuma tiománaithe a bheith saothraithe sprioc: D'oibrigh siad níos lú ar laethanta nuair a bhí a gcuid pá níos airde.
Kossinets and Watts (2009) bhí dírithe ar an mbunús ar homophily i líonraí sóisialta. Féach Wimmer and Lewis (2010) le cur chuige difriúil leis an bhfadhb chéanna a úsáideann sonraí ó Facebook.
I obair ina dhiaidh sin, tá an Rí agus comhghleacaithe scrúdú tuilleadh líne chinsireacht sa tSín (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Do chur chuige a bhaineann le tomhais ar líne cinsireacht sa tSín, féach Bamman, O'Connor, and Smith (2012) . Le haghaidh tuilleadh maidir le modhanna staitistiúla cosúil leis an gceann a úsáidtear i King, Pan, and Roberts (2013) chun meastachán sentiment an 11 milliún post, féach Hopkins and King (2010) . Chun níos mó ar fhoghlaim faoi mhaoirseacht, féach James et al. (2013) (níos lú teicniúil) agus Hastie, Tibshirani, and Friedman (2009) (níos teicniúla).
Is réamhaisnéis cuid mhór de tionsclaíoch eolaíocht sonraí (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Tá réamhaisnéis ceann de chineál atá déanta go coitianta ag lucht taighde sóisialta réamhaisnéise déimeagrafacha, mar shampla Raftery et al. (2012) .
Ní raibh Google Fliú Treochtaí an chéad tionscadal a sonraí cuardaigh a úsáid chun nowcast leitheadúlacht fliú. Go deimhin, taighdeoirí sna Stáit Aontaithe (Polgreen et al. 2008; Ginsberg et al. 2009) agus an tSualainn (Hulth, Rydevik, and Linde 2009) a fuarthas amach go téarmaí cuardaigh áirithe (eg, "fliú") tuartha faire sláinte poiblí náisiúnta sonraí os a scaoileadh. Ina dhiaidh sin tá go leor, tograí eile iarracht úsáid a bhaint shonraí rian digiteach do bhrath faireachas galar, féach Althouse et al. (2015) ar athbhreithniú.
Chomh maith le baint úsáide as sonraí rian digiteach chun torthaí sláinte a thuar, tá freisin méid ollmhór oibre ag baint úsáide as sonraí Twitter torthaí toghcháin a thuar; le haghaidh athbhreithnithe féach Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), agus Huberty (2015) .
Ag baint úsáide as sonraí cuardaigh a tuar leitheadúlacht fliú agus úsáid sonraí Twitter a thuar bhfuil toghcháin dá samplaí de ag úsáid roinnt de rian digiteach shaghas a thuar ar roinnt de imeacht ar fud an domhain comhchineáil. Tá líon ollmhór staidéar go bhfuil an struchtúr ginearálta. Áiríonn Tábla 2.5 roinnt samplaí eile.
rian digiteach | toradh | lua |
---|---|---|
ioncam oifig na dticéad ar scannáin i SAM | Asur and Huberman (2010) | |
logs Search | Díolacháin na scannáin, ceoil, leabhair, agus cluichí físeáin i SAM | Goel et al. (2010) |
Dow Jones Tionscail Meán (margadh stoc na Stát Aontaithe) | Bollen, Mao, and Zeng (2011) |
An iris PS Eolaíocht Pholaitiúil Bhí siompóisiam ar shonraí mór, tátal cúiseach a lua, agus teoiric foirmiúil, agus Clark and Golder (2015) achoimre ar gach ranníoc. Na Imeachtaí iris an Acadamh Náisiúnta na nEolaíochtaí de na Stáit Aontaithe Mheiriceá Bhí siompóisiam ar tátal cúiseach a lua agus sonraí mór, agus Shiffrin (2016) achoimre ar gach ranníoc.
Maidir le turgnaimh nádúrtha, Dunning (2012) Soláthraíonn cóireáil fad leabhar den scoth. Le haghaidh níos mó ar úsáid a bhaint as an dréacht-crannchur Vítneam mar turgnamh nádúrtha, féach Berinsky and Chatfield (2015) . Maidir le cineálacha cur chuige foghlama meaisín go iarracht chun a fháil amach go huathoibríoch turgnaimh nádúrtha taobh istigh foinsí sonraí mór, féach Jensen et al. (2008) agus Sharma, Hofman, and Watts (2015) .
Maidir le meaitseáil, ar athbhreithniú dóchasach, féach Stuart (2010) , agus le haghaidh athbhreithniú Doirbh fheiceáil Sekhon (2009) . Chun níos mó ar mheaitseáil mar chineál de bearradh, féach Ho et al. (2007) . I gcás leabhair a chur ar fáil cóireálacha den scoth de meaitseáil, féach Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , agus Imbens and Rubin (2015) .