şîrovekirina berfireh li

Ev beş, ji bo wek referansa bê bikaranîn, ne ji bo ku çîroka bê xwendin.

  • Destpêk (Beş 2.1)

Yek kind of çavderiyê de ku di vê beşê de ne etnografyayê de ye. Ji bo bêtir li ser etnografiya di qadên dîjîtal bibînin Boellstorff et al. (2012) , û ji bo zêdetir li ser etnografiya di qadên dîjîtal û fîzîkî tevlihev bibînin Lane (2016) .

  • Daneyên Big (Beş 2.2)

Gava ku tu bi popê welat, ne du tricks derûnî ku dikare alîkariya te bike pirsgirêkên muhtemel, ku hûn pêşiya fêm hene. Yekem, tu dikare jibo xeyala xwe ya dataset îdeal ya ji bo pirsgirêka xwe û ber hev, ku li dataset, ku tu bi kar tînî. ew çawa mîna in û ew çawa cuda ne? Ger we berhev ne daneyên xwe bi xwe jî, wê cudahiya di navbera tiştên ku hûn dixwazin û her tiştê ku we tune. Lê belê, tu bi xwe biryarê eger van cudahiyên biçûk an jî mezin in.

Duyemîn, bîne bîra xwe, ku kesek tên afirandin û daneyên te ji ber hin sedemên komkirin. Tu divê hewl bidin ku fêm minaqeşeyên xwe. Bi vî rengî berevajî-engineering dikare alîkariya te bike tespîtkirina pirsgirêkên muhtemel û meylekê li welat repurposed xwe.

Li wir e, tu pênase lihevkirina yek ji "Daneyên mezin", di heman demê de gelek salixdanên xuya dikin ku balê li ser 3 Vs: (bo nimûne, volume, shéwezarék, û velocity Japec et al. (2015) ). Bêtir ji nemaze li ser taybetiyên yên welat, pênase min bêtir li ser vê yekê li welat tên kirin, disekine.

UNê min ên data îdarî yên hikûmetê di nava kategoriyê de ji daneyên mezin e hinekî dibûm. Kesên ku hatine vê rewşê de, di nav de Legewie (2015) , Connelly et al. (2016) , û Einav and Levin (2014) . Ji bo bêtir agahîya li ser nirxê welat îdarî yên hikûmetê ji bo lêkolîn, dîtina Card et al. (2010) , Taskforce (2012) , û Grusky, Smeeding, and Snipp (2015) .

Ji bo dîtina yên lêkolînên îdarî ji hundirê sîstema îstatîstîkî hikûmetê, bi taybetî jî li Buroya Federal a Serjimarê Amerîka, dîtina Jarmin and O'Hara (2016) . Ji bo tedawîya length pirtûka ji lêkolînên records îdarî li Statistics Swêdê, dîtina Wallgren and Wallgren (2007) .

Di beşa, ez bi kurtî lêkolînê kevneşopî yên wekî Survey civakî ya giştî (GSS) ji bo çavkaniya daneyên çapemeniya civakî yên weke Twitter bihêt. Ji bo berhevdana û kûr û baldar di navbera anketên kevneşop û welat di medya civakî de, dîtina Schober et al. (2016) .

  • Taybetiyên hevbeş ên data mezin (Beş 2.3)

Van 10 taybetiyên Daneyên mezin di cîhêreng ên bi awayên cuda bi zor ji nivîskarên cuda dîtin. Writing ku ramana min li ser van mijaran bandor in: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , û Goldstone and Lupyan (2016) .

Di vê beşê de, ez şopên dîjîtal term, Ez bawerim ku ez nisbî bêalî ye, bi kar neaniye. Din term gel ji bo şopên dîjîtal e û şûnpiyên digital (Golder and Macy 2014) , lê belê wek ku Hal Abelson, Ken Ledeen, û Harry Lewis (2008) destnîşan dikin, ku term bêtir guncaw e, dibe tilîyên digital. Gava ku tu hesabekî şûnpiyên, tu ji tiştên ku diqewimin û rêçên te bi giştî ji bo te werin şopandin, bi xwe haydar in. Eynî ne rast e ji bo şopên digital xwe ne. Di rastiyê de, tu dev ji şopên hemû dem li ser yên ku hûn bi zanîn pir kêm. Û tevî ku van şopên ji navê te li ser wan tune, ew gelek caran dikare dîsa ji we ve girêdayî be. invisible û xwe bidin naskirin: Bi gotineke din, ew bêtir wek tilîyên in.

Mezin

Ji bo bêtir li ser vê yekê datasets mezin, render testên îstatîstîkî pirsgirêk, dîtina Lin, Lucas, and Shmueli (2013) û McFarland and McFarland (2015) . Van mijaran de divê lêkolîneran sedema ku balê li ser girîngiya pratîk bêtir ji giringiya îstatîstîkî.

Herdem li ser

Dema mirov herdem-li ser welat, ev girîng e, ji bo ku ka tu bi danberheva gelê rastîn heman demê re, yan jî tu bi ber hev, hin koma guhertina ji xelkê; ji bo nimûne bibînin, Diaz et al. (2016) .

Non-bersivdanê

A pirtûka klasîk li ser tedbîrên non-reaksîyonî ye Webb et al. (1966) . The wergerandî Di pirtûkê de berî-date temenê dîjîtal, lê ew hê jî bo rohnîkirina. Ji bo wergerandî yên gelê guhartina tevgera wan, ji ber ku, hebûna çavdêriya girseyî, dîtina Penney (2016) û Brayne (2014) .

Netemam

Ji bo bêtir li ser têkiliya record, dîtina Dunn (1946) û Fellegi and Sunter (1969) (dîrokî) û Larsen and Winkler (2014) (modern). Manend ên nêzî li zanistê dibe di bin navên pêşxistin jî wek deduplication welat, nasnameya nimûne, navê lêhatî tespît hatiye jêbirin, û vedîtina detection record (Elmagarmid, Ipeirotis, and Verykios 2007) . Jî taybetîya parastina helwestên ji bo nîvîsandina girêdanek ku ji gîhandina bi xwe agahiyên danasînê ne hewce hene (Schnell 2013) . Facebook bi pêş a dewam berve qeydên xwe bi şêlên dengdanê; ev ji bo nirxandina ceribandina ku ez ê ji te re li ser li Chapter 4 dibêjim hate kirin (Bond et al. 2012; Jones et al. 2013) .

Ji bo bêtir li ser nasnekirina başûr, dîtina Shadish, Cook, and Campbell (2001) , Beşa 3.

Derbasnabe

Ji bo bêtir li ser AOL .Lewra log search, dîtina Ohm (2010) . Ez pêşkêşkirina şîretan li ser hevkarîya bi şirketên û hikûmetên li Chapter 4 gava ku ez di ceribandinên salix. A Hejmara nivîskarên fikarên der barê lêkolînên ku li ser welat nedikarîbû bi karhanîna torebûna xwe dîyar kirîye, dîtina Huberman (2012) û boyd and Crawford (2012) .

One bi awayekî baş ji bo lêkolînerên zanîngehê bo bidestxistina access welat e ji bo xebatê li şîrketek wekî intern an serdana lêkolînerê. Li gel ne bitenê gihîştina welat, ev pêvajoya jî, lêkolînerekî hîn zêdetir li ser bê çawa welat, tên kirin ku ji bo analîzên girîng e ku alîkariyê bikin.

Non-nûnerê

Non-nûnerî de pirsgirêka serekî ji bo lêkolîner û hikûmetên ku dixwazin ji bo ku daxuyaniyên li ser tevaya xelkê ye. Ev kêmtir ji xema ji bo şîrketên ku bi awayekî tîpîk li ser bikarhênerên xwe hûr dibe. Ji bo bêtir li ser çawa Statistics Netherlands ya pirsa ji non-nûnerî yên bazirganî Daneyên mezin dibîne, dîtina Buelens et al. (2014) .

Di Beşa 3, ez ê esil û estimation bi berfirehî mezintir salix. Heta eger welat ne non-nûner, di bin hin mercan de, ew dikare were pîvan ji bo hilberîna texmînên baş.

Walonya

drift sîstema pir dijwar e ji bo dîtina ji derva. Lê belê, vê projeyê MovieLens (zêdetir li Chapter 4 nîqaş) hatiye dîtin ji bo zêdetir ji 15 sal ji aliyê komeke lêkolînên akademîk birêvebirin. Ji ber vê yekê, ew belge û agahiyên li ser rê, ku sîstema hatiye li ser dema hêvînin, û çawa shared vê analîzê bibe bandorê (Harper and Konstan 2015) .

A gelek alimên li ser drift in Twitter giraniya: Liu, Kliman-Silver, and Mislove (2014) û Tufekci (2014) .

Algorithmically mat

Ez pêşî bihîst de têgeha "algorithmically mat man" ji aliyê Jon Kleinberg di gotûbêj tê bikaranîn. Fikra sereke ya li paş performativity e ku hin teoriyên zanistên civakî "motora kamerayan bi" in (Mackenzie 2008) . Ev e, ew di rastiyê de li dinyayê ban şûna ku ew dîl bigirin.

Qirêjî

Ajansên îstatîstîkî yên sivîl paqijî welat, editing daneyên îstatîstîkî re dibêjin. De Waal, Puts, and Daas (2014) salix teknîkên guherandinê daneyên îstatîstîkî pêşxistin, ji bo daneyên lêkolînê û dinirxînin, ji bo ku radeyê ew ji bo çavkaniyên daneyan mezin, û ne Puts, Daas, and Waal (2015) presents hin ji yên ku ramanên ji bo temaşevanên giştî zêdetir.

Ji bo hin wergerandî yên lêkolînên li ser zibil di Twitter, giraniya Clark et al. (2016) û Chu et al. (2012) . Di dawiyê de, Subrahmanian et al. (2016) ku encam ji aliyê DARPA Twitter Bot Challenge de rave dike.

Pêketî

Ohm (2015) reviews lêkolîn zûtir li ser fikra xwe ya hesas û test multi-faktora pêşkêş dike. Li çar faktorên ew pêşniyar dike in: sîlahan yên ziyanê; Dibe ku yên zirarê; hebûna têkiliya nepenî ne; û gelo rîska raman û fikarên piranîyê.

  • Hejmartin tiştên (Beþ 2.4.1)

Xebatê de Farber ya dihiştin, li New York li ser lêkolîneke berê de ji aliyê bingeha bû Camerer et al. (1997) , ku sê hevgirtinê cuda yên trip paper formên sheets-paper bikaranîn ji aliyê ajokarên ji bo nîvîsandina trip dema destpêka, dema dawî, û di rewacê de tê bikaranîn. Ev xebat zûtir dît ku ajokarên wisa xuyadikir, bi awakî target: ew li ser rojên ku heqê xwe jê mezintir bûn kêmtir xebitî.

Kossinets and Watts (2009) li ser koka homophily li tora civakî de giraniya xebata bû. Dîtina Wimmer and Lewis (2010) ji bo nêrîneke cuda ji bo heman pirsgirêk ku zimên welat ji Facebook.

Di karê ku piştre derketin, King û hevalên xwe hatine zêdetir ce'sûsîya wî sansor bike li Çînê (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Ji bo nêrîneke related to pîvandinê sansor bike li Çînê, dîtina Bamman, O'Connor, and Smith (2012) . Ji bo zêdetir li ser rêbazên îstatîstîkî wek yek bikaranîn, di King, Pan, and Roberts (2013) ji bo hesap hesek ji posts 11 milyon, dîtina Hopkins and King (2010) . Ji bo bêtir li ser fêrkirina sergêrî, dîtina James et al. (2013) (less teknîkî) û Hastie, Tibshirani, and Friedman (2009) (teknîkî more).

  • Forecasting (Beþ 2.4.2)

Forecasting beşek mezin yên pîşesazîyê yên zanist welat e (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Yek type of forecasting ku bi gelemperî, ji aliyê lêkolînerên civakî kiriye, ne forecasting demografîk, ji bo nimûne Raftery et al. (2012) .

Trends Flu Google bû yekem projeya bi kar welat lêgerîn ji bo nowcast berfirebûna grîpê ne. Di rastiyê de, lêkolînerên li Dewletên Yekbûyî (Polgreen et al. 2008; Ginsberg et al. 2009) û Swêd (Hulth, Rydevik, and Linde 2009) dît ku termên lêgerînê hin (wek nimûne, "persîvê") texmîn kontrola netewî saxlemî ya giştî Daneyên berî ku serbest hat berdan. Piştre gelek, gelek projeyên din ve jî hewl da ku bi kar tînin welat şopên digital ji bo tespîtkirinê çavdêriyê nexweşî, dîtina Althouse et al. (2015) ji bo pêdaçûna.

Li gel bikaranîna welat şopên dîjîtal mirov pêşbînî bike, encamên tenduristiyê, li wir hatiye bi yekcar pir kar bikaranîna welat Twitter mirov pêşbînî bike, encamên hilbijartinê hatine; ji bo reviews bibînin Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), û Huberty (2015) .

Bikaranîna welat lêgerîn ji bo encama berfirebûna grîpê û bikaranîna welat Twitter mirov pêşbînî bike, hilbijartinên hem wergerandî yên bikaranîna hin kind of şopên digital ji bo pêşbîniya hin cûre bûyer di cîhanê de ne. ku bêhejmar xebatên ku vê avahiya giştî hene. Table 2.5 Di nav çend wergerandî yên din.

Table 2.5: lîsteya nîv ji xebatên bikaranîna hin şopên dîjîtal mirov pêşbînî bike, hin bûyer.
şopên Digital Netîce Gazîname
Twitter Box dahatê ofîsa movies li Amerîka Asur and Huberman (2010)
Search têketin Firotina movies, music, pirtûk, û video games li Amerîka Goel et al. (2010)
Twitter Dow Jones Industrial Average (US Sûkên pişkan) Bollen, Mao, and Zeng (2011)
  • Ceribandinên li Approximating (Beþ 2.4.3)

Kovara PS Zanistên siyasî hebû sempozyûmek li ser daneyên mezin, analîzên ketûber, û teoriya fermî, û Clark and Golder (2015) diyar dike ku her parekî. Doz kovara National Academy of Sciences ya Dewletên Yekbûyî yên Amerîkayê sempozyûmek li ser analîzên ketûber û welat mezin bû, û Shiffrin (2016) diyar dike ku her parekî.

Di warê tecrûbeyên xwezayî, Dunning (2012) an tedawî length pirtûka baş pêşkêş dike. Ji bo zêdetir li ser bikaranîna Vietnam pêşnûma lottery ku wekî ezmûneke xwezayî, dîtina Berinsky and Chatfield (2015) . Ji bo helwestên fêrbûna makîneyeke ku hewldana ji bo automatically kifş tecrûbeyên xwezayî di nava çavkaniyên daneyan mezin, dîtina Jensen et al. (2008) û Sharma, Hofman, and Watts (2015) .

Di warê lêhatî ji bo nirxandina xweşbînî, dîtina Stuart (2010) , û ji bo pêdaçûna reşbîn bibînin Sekhon (2009) . Ji bo bêtir li ser hevcotî wek kind of pejikandina, dîtina Ho et al. (2007) . Ji bo pirtûkên ku ne dermanê baş yên lêhatî bibînin Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , û Imbens and Rubin (2015) .