[ , ] Algoritmyske ferfeling wie in probleem mei Google Flu Trends. Lês it papier fan Lazer et al. (2014) , en skriuwe in koarte, dúdlike e-post ta in yngenieur by Google om it probleem te ferklearjen en in idee oan te meitsjen hoe't jo it beheine.
[ ] Bollen, Mao, and Zeng (2011) beklamme dat gegevens fan Twitter brûkt wurde om de boarnemint te foarsjen. Dizze fûns liedt ta it oprjochtsjen fan in hedgefonds-Derwent Capital Markets - te ynvestearjen yn 'e boarnemerk basearre op gegevens dy't sammele binne fan Twitter (Jordan 2010) . Hokker bewiis sil jo sjen sille foardat jo jild yn dat fûns sette?
[ ] Wylst in publyk sûnens foar e-sigaretten in effektive help foar oankocht wurde, oaren warskôgje oer de potinsjele risiko's, lykas de hege nivo's fan nikotine. Stel dan ris dat in ûndersiker beslút om it publike miening te ûndersiikjen nei e-sigaretten troch it sammeljen fan e-sigaretten-ferbûne Twitterposten en it ferdujen fan sentimens analyze.
[ ] Yn novimber 2009 feroare Twitter de fraach yn it tweetkoffer fan "Wat dogge jo?" Nei "Wat is it gefal?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" wurde faak brûkt om ynfloed te mjitten en spraak fan ynfloed op Twitter. Ynearsten moasten de brûkers it kopje en pakje de tweet dy't se graach markearje, markearje de orizjinele skriuwer mei syn / har manier, en typearje "RT" foar it tweet omtinken te jaan dat it in retweet is. Dwaande, yn 2009, tafoege Twitter in "retweet" knop. Yn juny 2016 makke Twitter it mooglik foar brûkers om har eigen tweets (https://twitter.com/twitter/status/742749353689780224) werom te retweetjen. Wolle jo tinke dat dizze wizigingen effekt ha moatte hoe't jo "skriuwt" yn jo ûndersyk brûke? Wêrom of wêrom net?
[ , , , ] Yn in breed besprutsen papier analysearre Michel en kollega's (2011) de ynhâld fan mear as fiif miljoen digitalisearre boeken yn in besykjen om lange termynlike kulturele trends te identifisearjen. De gegevens dy't se brûkten binne no frijjûn as it Google NGrams dataset, en dus kinne wy de gegevens brûke om wer wat fan har wurk te replikaarjen en te ferlingjen.
Yn ien fan 'e protte resultaten yn it papier stelde Michel en kollega's dat wy ferneare en flugger ferjitte. Foar in bepaalde jier, sizze "1883", berekkene se it diel fan 1-gram út elk jier útjûn tusken 1875 en 1975 dat '1883' wienen. Se hawwe fan betinken dat dit oanpart in maat is fan 'e belangstelling foar eveneminten dy't yn dat jier barde. Yn har figuer 3a plottere se foar trije jier de brûkte trajektoares op: 1883, 1910, en 1950. Dizze trije jier dielen in mienskiplik patroan: lyts gebrûk foar dat jier, dan in spits, dan ferfal. Dêrnei bepale Michel en kollega's it "heale leven" fan elke jier foar alle jierren tusken 1875 en 1975 te kwantearjen. Yn har figuer 3a (ynsette) hawwe se te sjen dat it heale libben fan elk jier It jier is ôfnommen, en hja argulearre dat dit betsjut dat wy it ferline faker en flugger ferjitte. Se brûkte ferzje 1 fan 'e Ingelske taalkorpus, mar letter hat Google in twadde ferzje fan' e corpus útbrocht. Lês allegearre de ûnderdielen fan 'e fraach foardat jo begjinne mei kodearring.
Dizze aktiviteit sil jo brûke om skriuwbere werjeftige koade te meitsjen, resultaten út te sprekken, en gegevens ferrinnewearje (lykas wurkje mei skruten triemmen en ferpleatse fan gegevens). Dizze aktiviteit sil jo ek helpe om op te leegjen en te rinnen mei in ryk en nijsgjirrige dataset.
Krij de rûge gegevens fan de webside fan Google Books NGram Viewer. Bysûnder moatte jo ferzje 2 fan 'e Ingelske taalkorpus brûke, dy't op 1 july 2012 frijlitten wurde. Unverfrede, dizze bestân is 1.4GB.
Rekkenje it haaddiel fan figuer 3a fan Michel et al. (2011) . Om dizze sifers opnij te meitsjen, sille jo twa bestannen nedich hawwe: de ien dy't jo dield downloade (a) en de "folsleine betingsten" triem, wêrmei jo gebrûk meitsje kinne om de rûge beoarders yn prestaasjes te feroarjen. Tink derom dat de folsleine bepalende triem in struktuer hat dy't it in bytsje hurder meitsje kin om yn te lêzen. Ferzjes 2 fan 'e NGram-gegevens produsearje sa'n resultaten oan dyjingen dy't presintearre binne yn Michel et al. (2011) , dy't basearre binne op ferzje 1 gegevens?
Kontrolearje jo grafyk tsjin de grafyk dy't makke wurdt troch de NGram Viewer.
Ferklearje figuer 3a (haadfiguer), mar feroarje de \(y\) -aks om de rûge ferwizing te meitsjen (net de taryf fan meldingen).
Does it ferskil tusken (b) en (d) liede jo ta ien fan 'e resultaten fan Michel et al. (2011). Wêrom of wêrom net?
Tsjintwurdich brûke jo it oanpart fan it ferwizing, de ynset fan figuer 3a. Dat is, foar elke jier tusken 1875 en 1975, it halde libje fan dat jier berekkene. It heale leeftyd is definiearre om it oantal jierren dy't passe foardat it oanpart fan 'e neikommende meldings de helte fan har peak wearde berikt. Notysje dat Michel et al. (2011) dogge wat mear komplisearre om de heulich libben - sjoch ôfdieling III.6 fan 'e Stipe Online Ynformaasje - te beoardielje - mar se beweitsje dat beide oanwêzigen inoar ferantwurdlik meitsje. Is ferzje 2 fan 'e NGram-gegevens produsearre ferlykbere resultaten nei de presintearingen yn Michel et al. (2011) , dy't basearre binne op ferzje 1 gegevens? (Tink: Wês net fernuvere as it net.)
Wiene der dan in jier dy't útrinners wie as jierren, dy't benammen snel of spesjaal stadich fergetten binne? Kies spesifyk oer mooglike redenen foar dat patroan en ferklearje hoe't jo de útlanners identifisearje.
Sesje dit resultaat foar ferzje 2 fan 'e NGram's gegevens yn Sineesk, Frânsk, Dútsk, Hebrieusk, Italiaansk, Russysk en Spaansk.
Fergeliking oer alle talen, wiene der alle jierren in útlieder, lykas jierren dy't benammen fluch of spesjaal stadich fergetten binne? Koart spekulearje oer mooglike redenen foar dat patroan.
[ , , , ] Penney (2016) ûndersocht oft de wiidferspraate publisiteit oer NSA / PRISM-tafersjoch (dus de Snowden-iepenbieringen) yn juny 2013 ferbûn is mei in skerpe en hommelse fermindering fan ferkear nei Wikipedia artikels oer ûnderwerpen dy't privacybelesting oproppe. As dat sa is, soe de feroaring yn gedrach konsekwint wêze mei in waarme effekt fan resultaat fan massaugeraasje. De oanpak fan Penney (2016) wurdt soms in ûnderbrutsen tiidrige- ûntwerp neamd, en it is relatearre oan de oanwêzigen beskreaun yn haadstik 2.4.3.
Om kiezen te kiezen oer de titel fan it ûnderwerp, lei Penney op 'e list dy't brûkt waard troch de US Department of Homeland Security foar it foljen en kontrolearjen fan sosjale media. De DHS-list befettet beskate sykkommunikaasjes yn in soad ûnderwerpen, dus "Health Concern", "Infrastruktuerfeiligens" en "Terrorisme". Foar de stúdzje groep brûkte Penney de 48 keunstwurden yn ferbân mei "terrorisme" (sjoch taheakke tabel 8 ). Dêrnei aggregearre er it artikel fan artikel oer in mooglike basis foar de bywurke 48 Wikipedia-artikels oer in 32-moanne perioade, fan begjin fan jannewaris 2012 oant ein augustus 2014. Om syn argumint te fersterkjen makke hy ek ferskate fergeliking-groepen troch te foljen artikelwerken oer oare ûnderwerpen.
No sille jo Penney (2016) replikaarje en útwreidzje. Alle rûge gegevens dy't jo nedich binne foar dizze aktiviteit binne beskikber fan Wikipedia. Of jo kinne it krije fan it R-package wikipediatrend (Meissner and R Core Team 2016) . As jo jo antwurden opskriuwe, markearje de hokker gegevensboarne jo brûkt. (Tink derom dat dizze selde aktiviteit ek foarkomt yn haadstik 6.) Dizze aktiviteit sil jo praktyk jaan yn data ferwiderje en tinke oer natuerlike eksperiminten yn grutte data boarnen. It sil jo ek ophelje en rinne mei in potinsjeel nijsgjirrige gegevensboarne foar takomstige projekten.
[ ] Efrati (2016) rapportearre, basearre op fertroude ynformaasje, dat "totale dieling" op Facebook hat in jier fan 'e likernôch 5,5% fan' Dizze ferfal wie benammen acute mei Facebook-brûkers ûnder 30 jier. De rapport presintearret de ferfal op twa faktoaren. Ien is it groei fan it tal "freonen" minsken op Facebook. De oare is dat guon dielsaktiviteiten ferpleatst binne nei messaging en oan kompetysjes lykas Snapchat. It rapport ferskynde ek dat de ferskate taktiken Facebook besocht te dielen te dielen, ynklusyf Nijs Feed algoritme-tweaks dy't oarspronklike berjochten mear promininte meitsje, en ek periodike herinneringen fan 'e orizjinele berjochten mei de funksje "Op dizze dei". Hokker gefolgen, as der binne, sille dizze befiningen hawwe foar ûndersikers dy't Facebook as in gegevensboarne brûke wolle?
[ ] Wat is it ferskil tusken in sosjolooch en in histoarikus? Neffens Goldthorpe (1991) is it haadferdrach de kontrôle oer gegevensammeling. De histoarisy wurde twongen om relics te brûken, wylst sosjologen har gegevens sammele kinne oan spesifike doelen. Lês Goldthorpe (1991) . Hoe is it ferskil tusken sosjology en skiednis ferbûn mei it idee fan kustommades en klearmaden?
[ ] Dit boud op 'e eardere quesiton. Goldthorpe (1991) tekene in oantal krityske antwurden, ûnder oaren ien fan Nicky Hart (1994) dy't de duorsumens fan Goldthorpe om oanpast gegevens te meitsjen. Om de potinsjele beheiningen fan tailorre-gegevens te klikken, beskreau Hart it Unbefêstige arbeiderprojekt, in grutte perioade om de relaasje tusken sosjale klasse en stimmen te bepalen dy't troch de Midsieuwen fan 'e Goldthorpe útfierd waard en kollega's. As men ferwachte kin fan in gelearde dy't begeliedende gegevens oer fûnen gegeven befrijd, sammele it Affluent Worker Project dat gegevens oanpast oan in adres fan 'e takomst fan' e maatskippij yn in tiidrek fan ferheegjende libbensnormen. Mar, Goldthorpe en kollega 's binne "fergetten" om ynformaasje te sammeljen oer it stimbehear fan froulju. Hjir is hoe Nicky Hart (1994) de folsleine ôflevering fermelde:
"... it is dreech om de konklúzje te foarkommen dat froulju wegere waarden omdat dizze" maatregel makke "dataset waard troch in paradigmatyske logika beheind, dy't de froulike ûnderfining útsluten. Ferfolgens troch in teoretyske fyzje fan klassenbewustwêzen en aksje as manlike besunigingen ..., makke Goldthorpe en syn kollega's in set fan empiryske bewiisen dy't har eigen teoretyske assumpenissen fiedde en nourreinige hienen ynstee fan it opjaan oan in jildich test fan adequacy. "
Hart fierder:
"De empiryske befiningen fan it lestige arbeidersprojekt fertel ús mear oer de masculinistyske wearden fan 'e midden fan' e midden fan 'e ieu as se ynformearje oer de prosessen fan stratifikaasje, polityk en materiaal."
Kinne jo tinke oan oare foarbylden dêr't maat makke makke gegevens-sammeljen de beëasten fan de datammekollektor ynboud hat? Hoe fergelyk mei dit algoritmyske ferfeling? Hokker ymplikaasjes kinne dat hawwe foar wannear't ûndersikers klearmoades brûke moatte en wannear't se kustommades brûke moatte?
[ ] Yn dit haadstik haw ik kontroversje gegevens sammele troch ûndersikers foar ûndersikers mei bestjoersakten dy't makke binne troch bedriuwen en oerheden. Guon minsken neame dizze bestjoerlike rekken "data fûn", dy't sy kontrast mei "ûntworpen data". It is wier dat bestjoersaksjes fûn binne troch ûndersikers, mar se binne ek tige ûntwurpen. Bygelyks moderne technysk bedriuwen wurkje tige hurd om har gegevens te sammeljen en te curearjen. Sa wurde dizze bestjoersakten fûn en ûntwikkele, it is gewoan hingje fan jo perspektyf (figuer 2.12).
Gebe in foarbyld fan boarne foar boarne wêr't it sawol as fûn en ûntwurpen is is brûkber by it brûken fan dy gegevensboarne foar ûndersyk.
[ ] Yn in yndiedige essay split Christian Sandvig en Eszter Hargittai (2015) digitale ûndersyks nei twa brede kategoryen ôfhinklik fan of it digitale systeem in "ynstrumint" of "objekt fan stúdzje". In foarbyld fan 'e earste soarte wêr' t it systeem is in ynstrumint - is it ûndersyk fan Bengtsson en kollega's (2011) om gebrûk fan mobile tillefoan te folgjen om de migraasje nei it ierdbeving yn Haïti yn 2010 te folgjen. In foarbyld fan 'e twadde soarte - wêr't it systeem in objekt fan stúdzje is, is ûndersyk troch Jensen (2007) oer hoe't de ynfiering fan mobyl tillefoans yn 'e hiele Kerala, Yndia, beynfloede is op it funksjonearjen fan' e merk foar fisken. Ik fyn dit dizze ûnderskieding faaks om't it klikt dat stúdzjes mei digitale gegevensboarnen hiel ferskillende doelen hawwe kinne, sels as se itselde soarte fan gegevensboarne brûke. Om dizze ûnderskieding fierder te klikken, beskriuwe fjouwer stúdzjes dy't jo sjoen hawwe: twa dy't digitaal systeem brûke as in ynstrumint en twa dy't digitaal systeem as in objekt fan stúdzje brûke. Jo kinne foarbylden fan dit haadstik brûke as jo wolle.