Yi apakan ti a ṣe lati ṣee lo bi a itọkasi, dipo ju lati wa ni ka bi a alaye.
Ọkan ni irú ti wíwo ti wa ni ko to wa ni yi ipin jẹ ethnography. Fun siwaju sii lori ethnography ni oni alafo ri Boellstorff et al. (2012) , ati fun siwaju sii lori ethnography ni adalu oni ati ti ara alafo ri Lane (2016) .
Nigbati o ti wa repurposing data, nibẹ ni o wa meji opolo ẹtan ti o le ran o ye awọn ti ṣee ṣe isoro ti o le ba pade. First, o le gbiyanju lati fojuinu awọn bojumu eko fun isoro ati awọn afiwe ti o si eko ti o ti wa ni lilo. Bi o ti wa ni ti won ni iru ati bi o ti wa ni ti won o yatọ si? Ti o ba ti o ba ko gba rẹ data ara rẹ, nibẹ ni o wa seese lati wa ni iyato laarin ohun ti o fẹ ati ohun ti o ni. Sugbon, o ni lati pinnu ti o ba ti awon iyato wa ni kekere tabi pataki.
Keji, ranti wipe ẹnikan ṣẹda ki o si gba rẹ data fun idi kan. O yẹ ki o gbiyanju lati ni oye won ero. Yi ni irú ti ọna-ina- le ran o da ṣee ṣe isoro ati siwaju ninu rẹ repurposed data.
Nibẹ ni ko si nikan ipohunpo definition ti "nla data", sugbon opolopo itumo dabi si idojukọ lori awọn 3 Vs: iwọn didun, orisirisi, ati ere sisa (eg, Japec et al. (2015) ). Dipo ju fojusi lori awọn abuda kan ti awọn data, mi definition fojusi siwaju sii lori idi ti awọn data ti a da.
Mi ifisi ti ijoba Isakoso data inu awọn eya ti ńlá data ti wa ni a bit pọnran. Awọn elomiran ti o ti ṣe idi eyi, ni Legewie (2015) , Connelly et al. (2016) , ati Einav and Levin (2014) . Fun diẹ ẹ sii nipa awọn iye ti ijoba Isakoso data fun iwadi, wo Card et al. (2010) , Taskforce (2012) , ati Grusky, Smeeding, and Snipp (2015) .
Fun kan wo ti Isakoso iwadi lati inu awọn ijoba iṣiro eto, paapa ni US Census Bureau, wo Jarmin and O'Hara (2016) . Fun kan iwe ipari itọju ti awọn Isakoso igbasilẹ iwadi ni Statistics Sweden, wo Wallgren and Wallgren (2007) .
Ni awọn ipin, Mo ni soki akawe a ibile iwadi iru bi awọn Gbogbogbo Social iwadi (GSS) si a awujo media data orisun bi Twitter. Fun kan nipasẹ ati ki o ṣọra lafiwe laarin ibile iwadi ati awujo media data, wo Schober et al. (2016) .
Awọn wọnyi 10 abuda kan ti ńlá data ti a ti se apejuwe ninu orisirisi kan ti o yatọ si awọn ọna nipa orisirisi kan ti o yatọ si awọn onkọwe. Kikọ ti o nfa mi ero lori awon oran ni: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ati Goldstone and Lupyan (2016) .
Jakejado yi ipin, Mo ti sọ ti lo ni oro oni wa, eyi ti mo ro ni jo boseyẹ lọ. Miran ti gbajumo igba fun oni wa ni oni footprints (Golder and Macy 2014) , sugbon bi Hal Abelson, Ken Ledeen, ati Harry Lewis (2008) ntoka jade, a diẹ yẹ igba jẹ jasi oni itẹka. Nigbati o ba ṣẹda footprints, ti o ba wa mọ ti ohun ti ṣẹlẹ ati awọn rẹ footprints ko le gbogbo wa ni itopase si o tikalararẹ. Awọn kanna ni ko otitọ fun nyin oni wa. Ni pato, o ti wa ni nlọ wa gbogbo awọn akoko nipa eyi ti o ni gidigidi kekere imo. Ati, biotilejepe awọn wọnyi wa ko ni orukọ rẹ lori wọn, won le igba sopọ pada si o. Ni gbolohun miran, won ni o wa siwaju sii bi itẹka: alaihan ati ki o tikalararẹ idamo.
Big
Fun diẹ ẹ sii lori idi ti o tobi akosile, mu iṣiro igbeyewo iṣoro, wo Lin, Lucas, and Shmueli (2013) ati McFarland and McFarland (2015) . Awon oran yẹ ki o ja oluwadi si idojukọ lori ilowo lami kuku ju iṣiro lami.
Nigbagbogbo-on
Nigbati considering nigbagbogbo-lori data, o jẹ pataki lati ro boya o ti wa wé awọn gangan kanna awon eniyan lori akoko tabi boya o ti wa ni wé diẹ ninu awọn iyipada ẹgbẹ ti awọn eniyan; wo fun apẹẹrẹ, Diaz et al. (2016) .
Non-ifaseyin
A Ayebaye iwe kan lori ti kii-ifaseyin igbese ni Webb et al. (1966) . Awọn apeere ninu iwe kọkọ-ọjọ awọn oni ori, sugbon ti won ti wa ni ṣi illuminating. Fun apeere ti eniyan iyipada won ihuwasi nitori ti awọn niwaju ibi-kakiri, wo Penney (2016) ati Brayne (2014) .
pe
Fun diẹ ẹ sii lori gba alasopo, wo Dunn (1946) ati Fellegi and Sunter (1969) (itan) ati Larsen and Winkler (2014) (igbalode). Iru sunmọ ti tun a ti ni idagbasoke ni kọmputa Imọ labẹ awọn orukọ bi data deduplication, apeere idanimọ, orukọ tuntun, pidánpidán erin, ati pidánpidán gba erin (Elmagarmid, Ipeirotis, and Verykios 2007) . Nibẹ ni o wa tun asiri toju yonuso lati gba alasopo eyi ti ko beere awọn gbigbe ti tikalararẹ idamo alaye (Schnell 2013) . Facebook tun ti ni idagbasoke a tẹsiwaju lati jápọ wọn igbasilẹ to idibo iwa; yi a ṣe lati se akojopo ohun ṣàdánwò ti mo ti yoo so fun o nipa ní Orí 4 (Bond et al. 2012; Jones et al. 2013) .
Fun siwaju sii lori múu Wiwulo, wo Shadish, Cook, and Campbell (2001) , Chapter 3.
inaccessible
Fun siwaju sii lori awọn AOL search log debacle, wo Ohm (2010) . Mo nse imọran nipa ìjọṣiṣẹpọ pẹlu ilé iṣẹ ati awọn ijoba ní Orí 4 nigbati mo se apejuwe adanwo. A nọmba ti awọn onkọwe ti so awọn ifiyesi nipa iwadi ti o gbekele lori inaccessible data, wo Huberman (2012) ati boyd and Crawford (2012) .
Ọkan ti o dara ọna fun University oluwadi lati gba data wiwọle ni lati ṣiṣẹ ni a ile bi ohun Akọṣẹ tabi àbẹwò awadi. Ni afikun si muu data wiwọle, yi ilana yoo tun ran awọn awadi ni imọ siwaju sii nipa bi awọn data ti a da, ti o jẹ pataki fun onínọmbà.
Non-asoju
Non-representativeness ni a isoro pataki fun oluwadi ati ijoba ti o fẹ lati ṣe gbólóhùn nipa ohun gbogbo olugbe. Eleyi jẹ kere ti ibakcdun fun ile ise ti o wa ni ojo melo lojutu lori wọn olumulo. Fun siwaju sii lori bi Statistics Netherlands ka oro ti kii-representativeness ti owo nla data, wo Buelens et al. (2014) .
Ní Orí 3, Mo ti yoo se apejuwe iṣapẹẹrẹ ati idiyelé rẹ ni Elo tobi apejuwe awọn. Paapa ti o ba data wa ti kii-asoju, labẹ awọn ipo, won le wa ni iwọn lati gbe awọn ti o dara nkan.
Drifting
System fiseete jẹ gidigidi gidigidi lati ri lati ita. Sibẹsibẹ, awọn MovieLens ise agbese (sísọ diẹ ninu Chapter 4) ti a ti ṣiṣe awọn fun diẹ ẹ sii ju 15 years nipa ohun omowe iwadi ẹgbẹ. Nitorina, nwọn ti ni akọsilẹ ki o si pín alaye nipa awọn ọna ti awọn eto ti wa lori akoko ati bi yi le ikolu onínọmbà (Harper and Konstan 2015) .
A nọmba ti awọn ọjọgbọn ti lojutu lori fiseete ni Twitter: Liu, Kliman-Silver, and Mislove (2014) ati Tufekci (2014) .
Algorithmically tì
Mo ti akọkọ gbọ oro "algorithmically tì" lo nipa Jon Kleinberg ni a sọrọ. Awọn ifilelẹ ti awọn agutan sile performativity ni wipe diẹ ninu awọn awujo Imọ imo wa ni "enjini ko kamẹra" (Mackenzie 2008) . Ti o ni, ti wọn nhu apẹrẹ aye kuku ju o kan gba o.
idọti
Ijoba iṣiro ajo pe data ninu, iṣiro data ṣiṣatunkọ. De Waal, Puts, and Daas (2014) apejuwe iṣiro data ṣiṣatunkọ imuposi idagbasoke fun iwadi data ki o si wo si eyi ti iye ti won ti wa ni wulo lati nla data orisun, ati Puts, Daas, and Waal (2015) iloju diẹ ninu awọn ti kanna ero fun kan diẹ gbogboogbo jepe.
Fun diẹ ninu awọn apeere ti ẹrọ lojutu lori spam ni Twitter, Clark et al. (2016) ati Chu et al. (2012) . Níkẹyìn, Subrahmanian et al. (2016) apejuwe awọn esi ti DARPA Twitter Bot Ipenija.
kókó
Ohm (2015) reviews sẹyìn iwadi lori awọn agutan ti kókó alaye ati ki o nfun kan ti ọpọlọpọ-ifosiwewe igbeyewo. Awọn mẹrin okunfa ti o tanmo ni: awọn iṣeeṣe ti ipalara; iṣeeṣe ti ipalara; niwaju kan ti a ti igbekele ibasepo; ati boya awọn ewu irisi majoritarian awọn ifiyesi.
Farber ká iwadi ti taxis ni New York a da lori ohun sẹyìn iwadi nipa Camerer et al. (1997) ti o ti lo meta o yatọ si wewewe ayẹwo ti iwe irin ajo sheets-iwe fọọmu lo nipa awakọ lati gba ajo ibere akoko, opin akoko, ati ounj. Yi sẹyìn iwadi ri wipe awakọ dabi enipe lati wa afojusun earners: nwọn sise kere lori awọn ọjọ ibi ti won oya wà ti o ga.
Kossinets and Watts (2009) ti a lojutu lori awọn origins ti homophily ni awujo nẹtiwọki. Wo Wimmer and Lewis (2010) fun kan yatọ si ona to kanna isoro eyi ti o nlo data lati Facebook.
Ni tetele iṣẹ, Ọba ati awọn araa ti siwaju waidi online ihamon ni China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Fun kan ti o ni ibatan ona lati idiwon online ihamon ni China, wo Bamman, O'Connor, and Smith (2012) . Fun siwaju sii lori iṣiro ọna bi awọn ọkan ti a lo ninu King, Pan, and Roberts (2013) to siro itara ti awọn 11 million posts, wo Hopkins and King (2010) . Fun siwaju sii lori àmójútó eko, wo James et al. (2013) (kere imọ) ati Hastie, Tibshirani, and Friedman (2009) (diẹ imọ).
Asọtẹlẹ jẹ ńlá kan ara ti ise data Imọ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ọkan Iru ti asọtẹlẹ ti o ti wa commonly ṣe nipa awujo oluwadi ni o wa ibi asọtẹlẹ, fun apẹẹrẹ Raftery et al. (2012) .
Google kooli lominu je ko ni akọkọ ise agbese lati lo search data lati nowcast aarun itankalẹ. Ni o daju, awọn oluwadi ni United States (Polgreen et al. 2008; Ginsberg et al. 2009) ati Sweden (Hulth, Rydevik, and Linde 2009) ti ri wipe awọn ìfẹnukò àwárí (eg, "aisan") anro orile-ede àkọsílẹ ilera kakiri data ṣaaju ki o to ti o ti tu. Paradà ọpọlọpọ, ọpọlọpọ awọn miiran ise agbese ti gbiyanju lati lo oni kakiri data fun arun kakiri erin, wo Althouse et al. (2015) fun a awotẹlẹ.
Ni afikun si lilo oni kakiri data lati ṣe asọtẹlẹ ilera awọn iyọrisi, nibẹ ti tun ti a tobi iye ti ise nipa lilo Twitter data lati ṣe asọtẹlẹ woôn awọn iyọrisi; fun agbeyewo wo Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ch. 7), ati Huberty (2015) .
Lilo search data to asotele aarun itankalẹ ati lilo Twitter data lati ṣe asọtẹlẹ idibo ni o wa mejeeji apeere ti lilo diẹ ninu awọn Iru oni kakiri lati ṣe asọtẹlẹ diẹ ninu awọn Iru iṣẹlẹ ninu aye. Nibẹ ohun tobi pupo nọmba ti ẹrọ ti o ni yi gbogbo be. Table 2.5 pẹlu kan diẹ miiran apeere.
Digital kakiri | abajade | ni imo |
---|---|---|
Apoti ọfiisi wiwọle ti sinima ni US | Asur and Huberman (2010) | |
àwárí àkọọlẹ | Tita ti sinima, music, awọn iwe ohun, ati awọn fidio awọn ere ninu awọn US | Goel et al. (2010) |
Dow Jones Industrial Išẹ (US iṣura oja) | Bollen, Mao, and Zeng (2011) |
Akosile PS Oselu Science ní a apero lori ńlá data, ifẹsẹmulẹ mu ero jade, ati lodo yii, ati Clark and Golder (2015) akopọ kọọkan ilowosi. Akosile ejo ti awọn National Academy of Sciences ti awọn United States of America ní a apero lori ifẹsẹmulẹ mu ero jade ati ńlá data, ati Shiffrin (2016) akopọ kọọkan ilowosi.
Ni awọn ofin ti adayeba adanwo, Dunning (2012) pese ohun o tayọ iwe ipari itọju. Fun siwaju sii lori lilo awọn Vietnam osere lotiri bi a adayeba ṣàdánwò, wo Berinsky and Chatfield (2015) . Fun ẹrọ eko yonuso ti o gbiyanju lati laifọwọyi iwari adayeba adanwo inu ti ńlá data orisun, wo Jensen et al. (2008) ati Sharma, Hofman, and Watts (2015) .
Ni awọn ofin ti tuntun, fun ohun ireti awotẹlẹ, wo Stuart (2010) , ati fun a irewesi awotẹlẹ ri Sekhon (2009) . Fun siwaju sii lori tuntun bi a irú ti pruning, wo Ho et al. (2007) . Fun awọn iwe ohun ti o pese o tayọ awọn itọju ti tuntun, wo Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ati Imbens and Rubin (2015) .