sylwebaeth pellach

Mae'r adran hon wedi'i chynllunio i gael ei ddefnyddio fel cyfeiriad, yn hytrach nag i'w ddarllen fel naratif.

  • Cyflwyniad (Adran 2.1)

Mae un math o arsylwi nad yw wedi'i gynnwys yn y bennod hon yw ethnograffeg. I gael mwy o wybodaeth am ethnograffeg mewn mannau digidol gweler Boellstorff et al. (2012) , ac am fwy ar ethnograffeg mewn mannau digidol a chorfforol cymysg gweler Lane (2016) .

  • Data mawr (Adran 2.2)

Pan fyddwch yn roi pwrpas data, mae dau driciau meddwl all eich helpu i ddeall y problemau posibl y gallech ddod ar eu traws. Yn gyntaf, gallwch geisio dychmygu'r set ddata delfrydol ar gyfer eich problem a'r chymharu hynny i'r set ddata yr ydych yn ei ddefnyddio. Sut mae nhw'n debyg a sut maent yn wahanol? Os na wnaethoch chi gasglu eich data eich hun, mae'n debygol o fod yn wahaniaeth rhwng yr hyn yr ydych ei eisiau a beth sydd gennych. Ond, mae'n rhaid i chi benderfynu os gwahaniaethau hyn yn fach neu fawr.

Yn ail, cofiwch fod rhywun yn creu ac yn casglu eich data am ryw reswm. Dylech geisio deall eu rhesymu. Gall y math hwn o gefn-peirianneg yn eich helpu i nodi problemau a rhagfarnau posibl yn eich data repurposed.

Nid oes unrhyw ddiffiniad consensws sengl o "ddata mawr", ond mae llawer o ddiffiniadau yn ymddangos i ganolbwyntio ar y 3 Vs: (ee, cyfaint, amrywiaeth, a chyflymder Japec et al. (2015) ). Yn hytrach na chanolbwyntio ar y nodweddion y data, fy diffiniad yn canolbwyntio mwy ar pam fod y data ei greu.

Mae fy cynnwys data gweinyddol y llywodraeth y tu mewn i'r categori o ddata mawr yn ychydig yn anarferol. Mae eraill sydd wedi gwneud yr achos hwn, yn cynnwys Legewie (2015) , Connelly et al. (2016) , a Einav and Levin (2014) . Am fwy o wybodaeth am werth ddata gweinyddol y llywodraeth ar gyfer ymchwil, gweler Card et al. (2010) , Taskforce (2012) , a Grusky, Smeeding, and Snipp (2015) .

I gael golwg ar ymchwil gweinyddol o du mewn i'r system ystadegol y llywodraeth, yn enwedig y Biwro Cyfrifiad yr Unol Daleithiau, gweler Jarmin and O'Hara (2016) . Ar gyfer triniaeth hyd llyfr yr ymchwil cofnodion gweinyddol ar Ystadegau Sweden, gweler Wallgren and Wallgren (2007) .

Yn y bennod, yr wyf yn cymharu yn fyr arolwg traddodiadol fel yr Arolwg Cyffredinol Cymdeithasol (GSS) at ffynhonnell ddata cyfryngau cymdeithasol fel Twitter. Ar gyfer cymhariaeth drylwyr a gofalus rhwng arolygon traddodiadol a data cyfryngau cymdeithasol, gweler Schober et al. (2016) .

  • Nodweddion cyffredin o ddata mawr (Adran 2.3)

Mae'r 10 nodwedd o ddata mawr wedi eu disgrifio mewn amrywiaeth o wahanol ffyrdd gan amrywiaeth o wahanol awduron. Ysgrifennu a ddylanwadodd ar fy ffordd o feddwl ar y materion hyn yn cynnwys: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , a Goldstone and Lupyan (2016) .

Drwy gydol y bennod hon, rwyf wedi defnyddio olion digidol tymor, a chredaf yn gymharol niwtral. Dymor arall poblogaidd am olion digidol yw olion traed digidol (Golder and Macy 2014) , ond fel Hal Abelson, Ken Ledeen, a Harry Lewis (2008) yn nodi, yn derm mwy priodol yn ôl pob tebyg olion bysedd digidol. Pan fyddwch yn creu olion traed, eich bod yn ymwybodol o'r hyn sy'n digwydd ac ni all eich olion traed yn gyffredinol yn cael ei olrhain i chi'n bersonol. Nid yw'r un peth yn wir ar gyfer eich olion digidol. Yn wir, yr ydych yn gadael olion drwy'r amser am y mae gennych ychydig iawn o wybodaeth. Ac, er nad olion hyn yn cael eich enw arnynt, maent yn aml gellir cysylltu yn ôl i chi. Mewn geiriau eraill, maent yn fwy tebyg i olion bysedd: anweledig a nodi personol.

Big

Am fwy ar pam setiau data mawr, rendrad profion ystadegol problemus, gweler Lin, Lucas, and Shmueli (2013) a McFarland and McFarland (2015) . Dylai'r materion hyn arwain ymchwilwyr i ganolbwyntio ar arwyddocâd ymarferol yn hytrach na arwyddocâd ystadegol.

Bob amser-on

Wrth ystyried bob amser-ar ddata, mae'n bwysig ystyried a ydych yn cymharu â'r un bobl union dros gyfnod o amser neu a ydych yn cymharu rhyw grŵp newidiol pobl; gweler er enghraifft, Diaz et al. (2016) .

Di-adweithiol

Mae llyfr clasurol ar fesurau nad ydynt yn adweithiol yw Webb et al. (1966) . Mae'r enghreifftiau yn y cyn-dyddiad llyfr yr oes ddigidol, ond maent yn dal i dadlennol. Am enghreifftiau o bobl yn newid eu hymddygiad oherwydd presenoldeb o wyliadwriaeth torfol, gweler Penney (2016) a Brayne (2014) .

anghyflawn

Am ragor am gysylltu cofnodion, gweler Dunn (1946) a Fellegi and Sunter (1969) (hanesyddol) a Larsen and Winkler (2014) (modern). Cysylltu tebyg hefyd wedi cael eu datblygu mewn gwyddoniaeth gyfrifiadurol o dan yr enwau megis deduplication data, adnabod enghraifft, cyfateb enw, dyblygu canfod, a dyblyg cofnod canfod (Elmagarmid, Ipeirotis, and Verykios 2007) . Mae yna hefyd preifatrwydd cadw dulliau i gofnodi cysylltedd nad oes angen trosglwyddo gwybodaeth adnabod yn bersonol (Schnell 2013) . Facebook hefyd wedi datblygu symud ymlaen i gysylltu eu cofnodion i patrwm pleidleisio; gwnaed hyn i werthuso arbrawf y byddaf yn dweud wrthych am ym Mhennod 4 (Bond et al. 2012; Jones et al. 2013) .

I gael rhagor o wybodaeth am ddilysrwydd lluniad, gweler Shadish, Cook, and Campbell (2001) , Pennod 3.

anhygyrch

Am fwy ar y AOL llanastr chwilio log, gweler Ohm (2010) . Yr wyf yn cynnig cyngor am partneru gyda chwmnïau a llywodraethau ym Mhennod 4 pan fyddaf yn disgrifio arbrofion. Mae nifer o awduron wedi mynegi pryderon am ymchwil sy'n dibynnu ar ddata anhygyrch, gweler Huberman (2012) a boyd and Crawford (2012) .

Un ffordd dda i ymchwilwyr prifysgol i gaffael mynediad data yw gweithio mewn cwmni fel intern neu ymchwilydd ymweld. Yn ogystal â galluogi mynediad data, bydd y broses hon hefyd yn helpu'r ymchwilydd ddysgu mwy am sut y data ei greu, sy'n bwysig ar gyfer dadansoddi.

Di-cynrychiolydd

Non-cynrychioldeb yn broblem fawr ar gyfer ymchwilwyr a llywodraethau sydd am wneud datganiadau am boblogaeth gyfan. Mae hyn yn llai o bryder i gwmnïau sy'n canolbwyntio fel arfer ar eu defnyddwyr. Am fwy ar sut Ystadegau Iseldiroedd yn ystyried y mater o ddiffyg cynrychioldeb data mawr busnes, gweler Buelens et al. (2014) .

Ym Mhennod 3, 'n annhymerus' yn disgrifio samplu ac amcangyfrif mewn llawer mwy o fanylder. Hyd yn oed os yw data yn nad ydynt yn gynrychioliadol, o dan amodau penodol, gellir eu pwysoli i gynhyrchu amcangyfrifon da.

drifftio

drifft system yn anodd iawn gweld o'r tu allan. Fodd bynnag, mae'r prosiect MovieLens (a drafodir yn fwy ym Mhennod 4) wedi cael ei rhedeg am fwy na 15 mlynedd gan grŵp ymchwil academaidd. Felly, maent wedi dogfennu a gwybodaeth am y ffordd y mae'r system wedi esblygu dros amser a sut rhennir y dadansoddiad a allai effeithio (Harper and Konstan 2015) .

Mae nifer o ysgolheigion wedi canolbwyntio ar drifft yng Twitter: Liu, Kliman-Silver, and Mislove (2014) a Tufekci (2014) .

gwaradwyddir algorithmically

Clywais yn gyntaf y term "confounded algorithmically" a ddefnyddir gan Jon Kleinberg mewn sgwrs. Y prif syniad y tu ôl performativity yw bod rhai damcaniaethau gwyddor gymdeithasol yn cael eu "peiriannau Nid yw camerâu" (Mackenzie 2008) . Hynny yw, maent mewn gwirionedd yn siapio'r byd yn hytrach na dim ond dal hi.

Dirty

Asiantaethau ystadegol llywodraethol yn galw glanhau data, golygu data ystadegol. De Waal, Puts, and Daas (2014) yn disgrifio technegau golygu data ystadegol a ddatblygwyd ar gyfer data arolygon ac yn archwilio pa raddau y maent yn berthnasol i ffynonellau data mawr, ac Puts, Daas, and Waal (2015) yn cyflwyno rhai o'r un syniadau ar gyfer cynulleidfa fwy cyffredinol.

Ar gyfer rhai enghreifftiau o astudiaethau yn canolbwyntio ar spam yn Twitter, Clark et al. (2016) a Chu et al. (2012) . Yn olaf, Subrahmanian et al. (2016) yn disgrifio canlyniadau'r DARPA Twitter Her Bot.

Sensitif

Ohm (2015) yn adolygu ymchwil cynharach ar y syniad o wybodaeth sensitif ac yn cynnig prawf aml-ffactor. Mae'r pedwar ffactor mae'n cynnig yw: y tebygolrwydd o niwed; tebygolrwydd o niwed; presenoldeb perthynas gyfrinachol; ac a yw'r risg yn adlewyrchu pryderon fwyafrifyddol.

  • Cyfrif pethau (Adran 2.4.1)

Astudiaeth Farber o dacsis yn Efrog Newydd yn seiliedig ar astudiaeth gynharach gan Camerer et al. (1997) a oedd yn arfer tri samplau cyfleus gwahanol ffurflenni taith papur taflenni-papur a ddefnyddir gan yrwyr i gofnodi amser dechrau taith, amser diwedd, a pris. Canfu'r astudiaeth hon yn gynharach bod gyrwyr yn ymddangos i fod yn enillwyr targed: yr oeddent yn gweithio llai ar ddiwrnodau lle mae eu cyflog yn uwch.

Kossinets and Watts (2009) yn canolbwyntio ar y tarddiad homophily mewn rhwydweithiau cymdeithasol. Gweler Wimmer and Lewis (2010) am ddull gwahanol i'r un broblem sy'n defnyddio data o Facebook.

Mewn gwaith dilynol, King a chydweithwyr wedi archwilio sensoriaeth ar-lein bellach yn Tsieina (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Am ymagwedd gysylltiedig at fesur sensoriaeth ar-lein yn Tsieina, gweler Bamman, O'Connor, and Smith (2012) . Am fwy ar ddulliau ystadegol fel yr un a ddefnyddir yn King, Pan, and Roberts (2013) i amcangyfrif teimlad y 11 miliwn o swyddi, gweler Hopkins and King (2010) . Am fwy ar ddysgu dan oruchwyliaeth, gweler James et al. (2013) (llai technegol) a Hastie, Tibshirani, and Friedman (2009) (mwy technegol).

  • Rhagweld (Adran 2.4.2)

Rhagolygu yn rhan fawr o wyddoniaeth data diwydiannol (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Mae un math o ragweld a wneir yn gyffredin gan ymchwilwyr cymdeithasol yn rhagweld demograffig, er enghraifft Raftery et al. (2012) .

Nid oedd Tueddiadau Ffliw Google y prosiect cyntaf i ddefnyddio data i chwilio nowcast nifer yr achosion ffliw. Yn wir, mae ymchwilwyr yn yr Unol Daleithiau (Polgreen et al. 2008; Ginsberg et al. 2009) a Sweden (Hulth, Rydevik, and Linde 2009) wedi darganfod bod termau chwilio penodol (ee, "ffliw") gwyliadwriaeth iechyd cyhoeddus cenedlaethol a ragwelir data cyn iddo gael ei ryddhau. Yn dilyn hynny mae llawer, llawer o brosiectau eraill wedi ceisio defnyddio data olrhain digidol ar gyfer canfod arolygu clefydau, gweler Althouse et al. (2015) ar gyfer adolygiad.

Yn ogystal â defnyddio data olrhain digidol i ragfynegi canlyniadau iechyd, mae hefyd wedi bod yn llawer iawn o waith gan ddefnyddio data Twitter i ragweld canlyniadau etholiad; ar gyfer adolygiadau yn gweld Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), ac Huberty (2015) .

Defnyddio data chwilio i ragweld pa mor gyffredin ffliw a defnyddio data Twitter i ragweld etholiadau yn ddwy enghraifft o ddefnyddio rhyw fath o olion digidol i ragfynegi rhyw fath o ddigwyddiad yn y byd. Mae nifer enfawr o astudiaethau sy'n cael strwythur cyffredinol hwn. Tabl 2.5 yn cynnwys rhai enghreifftiau eraill.

Tabl 2.5: Rhestr rhannol o astudiaethau yn defnyddio rhai olion digidol i ragweld ryw ddigwyddiad.
olrhain digidol canlyniad Enwi
Twitter Blwch refeniw swyddfa o ffilmiau yn yr Unol Daleithiau Asur and Huberman (2010)
logiau Chwilio Gwerthu o ffilmiau, cerddoriaeth, llyfrau, a gemau fideo yn yr Unol Daleithiau Goel et al. (2010)
Twitter Dow Jones Industrial Cyfartaledd (farchnad stoc yr Unol Daleithiau) Bollen, Mao, and Zeng (2011)
  • Arbrofion frasamcanu (Adran 2.4.3)

Roedd gan y cylchgrawn PS Gwyddor Gwleidyddiaeth symposiwm ar ddata mawr, dod i gasgliadau achosol, a theori ffurfiol, a Clark and Golder (2015) yn crynhoi'r bob cyfraniad. Roedd gan y Trafodion cylchgrawn yr Academi y Gwyddorau Cenedlaethol yr Unol Daleithiau America symposiwm ar gasgliadau achosol a data mawr, a Shiffrin (2016) yn crynhoi'r bob cyfraniad.

O ran arbrofion naturiol, Dunning (2012) yn darparu triniaeth hyd llyfr ardderchog. Am fwy ar ddefnyddio'r loteri drafft Fietnam fel arbrawf naturiol, gweler Berinsky and Chatfield (2015) . Am ddulliau dysgu peiriant sy'n ceisio darganfod arbrofion naturiol y tu mewn o ffynonellau data mawr yn awtomatig, gweler Jensen et al. (2008) a Sharma, Hofman, and Watts (2015) .

O ran paru, am adolygiad optimistaidd, gweler Stuart (2010) , ac ar gyfer adolygiad yn besimistaidd gweler Sekhon (2009) . Am fwy ar gyfateb fel rhyw fath o docio, gweler Ho et al. (2007) . Ar gyfer llyfrau sy'n darparu triniaethau ardderchog o paru, gweler Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , a Imbens and Rubin (2015) .