[ , ] A cunfusioni algorìttimica era un prublema cù Google Trunia di Flu. Leghje u paper da Lazer et al. (2014) , è scrivite un email cortu è chjaru à un ingegneru in Google chì spiega u prublema è per offre una idea di a manera di riscuprire.
[ ] Bollen, Mao, and Zeng (2011) dichjara chì e dati di Twitter pò esse utilizati per prontiche à u borsu. Stu logu hà purtatu à a creazione di un fundiu di spiaggia-Derwent Capital Markets-per inviste in u sughjettu nantu à a data recopilata da Twitter (Jordan 2010) . Chì evidenza volsi vede prima di purtà i vostri soldi in quellu fundale?
[ ] Mentre chì certi difendenti di a salute pubblicu cunzidenu e-cigarettes un aiutu efficace à u cesamentu di u fumu, l'altri avvenenu di i risichi potenzjali, cum'è l'altitudini di a nicotina. Imagine chì un investigatore decide di studià l'opinione publica versu e-cigarettes per coglie e-cigarettes-related posts Twitter è realizazione di sentiment analysis.
[ ] Nuvembre di u 2009, Twitter cambia a question in u tweet box da "Quale site?" Per "Quì chì succede?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" sò spessu usati per meditar influenza è diffusioni di influenza in Twitter. In iniziale, l'utilizatori avianu a copre è appiccicate u tweetu chì l 'avianu piace, tag l'autoru originale cù u so manicu, è scrivite «RT» manualmente prima di u tuitettu per indicà chì era un retweet. Dopu, in u 2009, Twitter agghiunciu un "retweet". In u giugnu di u 2016, Twitter hà pussibile bisognu di i reticurati à i vostri tweets (https://twitter.com/twitter/status/742749353689780224). Pensate chì queste cambiassi anu influenatu cumu si usa "retweets" in a vostra ricerca? Perchè o perchè micca?
[ , , , ] In un discutu largamente discussatu, Michel è i culleghji (2011) analizà u cuntenutu di più di cinque miliuna di libri di digitalizati in un tentativu per identifiere tendenzi culturali longu. I dati chì anu utilizatu hè statu liberatu com'è u dataset di Google NGrams, è cusì ponu utilizà a dati per rimpriverà è allargate parechji di u so travagliu.
In unu di i parechji risultati in u documentu, Michel è i culleghji argumentanu chì avemu scurdatu più veloce è più veloci. Per un annu particular, dite "1883", calculanu a proporzioni di 1 gramma publicati in ogni annu entre u 1875 è u 1975 chì eranu "1883". E ragiunonu chì sta preghjunu hè una misura di l'interesse in i manifistazioni chì succidia quellu annu. In a so figura 3a, tramindui i trajectorii d'utilizazione per trè anni: 1883, 1910 è 1950. Queste trè anni facianu un patronu cumuni: pocu usu prima di quellu annu, da un pezzu, in a decadenza. Appena, per quantificà a freccia di decadenza per ogni annu, Michel è i culleghji calculate a "half-life" di ogni annu per tutti l'anni 1875 è 1975. In a so figura 3a (inset), amparanu chì a half-vita di ogni annu hè di diminuenti, è argüenu chì questu significa chì avemu scurdatu u passatu veloce è più veloce. Usà a Versione 1 di u corpusu di lingua inglesa, ma dopu Google hà liberatu una seconda versione di u corpus. Sceglite tutti i partiti di a quistione prima di cumincià u codificazione.
Questa attività vi darà prutezzione scrivintendu u codice reutilizante, interprete e risultati è dati à rivolve (per esempiu di travaglià cù schedari strammi è manipule i manca dati). Questa attività dinò l'aiuta ancu nantu à aduprà cù un richtu di datu interessanti.
Aghjunghjite l'elementi prima di u web di Google Books NGram Viewer. In particulari, avete aduprà a versione 2 di u corpusu di lingua inglesa, chì hè stata liberata l'1 di lugliu di u 2012. Uncompressed, stu schedariu hè 1.4GB.
Recreate a parte principale di a figura 3a di Michel et al. (2011) . Per fà riprochisce sta figura, avete bisognu di duie file: quellu chì scaricava in parte (a) è u "schedariu tutali", chì pudete utilizate per cunvertisce u cuntestu crudu in pruporzioni. Innota chì u schedariu tutale di cuntenuti hè una struttura chì pò fà un pocu di sicuru per leghje. Queda a versione 2 di a data NGram pruducighu risultati simili à quelli presentati in Michel et al. (2011) , chì sò basati nantu à a versione 1?
Verificate u vostru gràficu contru u graficu creatu da u NGram Viewer.
Recreate figura 3a (figura principale), ma cambia a \(y\) -axis per esse u cuntestu di cita prima (micca u ritmu di menzione).
A diffarenza entre (b) è (d) vi porta à reevaluà qualche di i risultati di Michel et al. (2011). Perchè o perchè micca?
Avà, utilizendu a proporzione di ricerche, riplicate l'insetu di a figura 3a. Eccu, per ogni annu entre u 1875 è u 1975, calculate a semi-vita di quellu annu. A semi-vita hè definita per esse u numicu d'anni chì passanu prima chì a proporzione di ricerche alcuni a mità di u puntu più altu. Note chì Michel et al. (2011) fate quarchi più cumplessu per calculà a migità di a vita; vede a seczione III.6 di l'infurmazione in ligna, ma chì sustinendu chì i avviamenti pruducini risultati simili. A versione 2 di a data NGram pruduce risultati simili à i presentati in Michel et al. (2011) , chì sò basati nantu à a versione 1? (Hint: Ùn vi maravigliate se micca.)
Anu erani chì parechji anni sò stati alculitarii, cum'è anni chì eranu eseguitu piccu rapidamente o particularmente lenta? Speculate briefly about possible motivi di quellu patronu è spiegà cumu identificanu l'outliers.
Avete riplicatu stu risultatu per a versione 2 di a basa di NGrammi in Cinese, Francese, Alimanu, Ebreu, Italiano, Russo è Spagnolu.
Comparare nantu à tutte l'lingue, avianu alcuni anni chì sò stati alculitari, cum'è anni chì eranu eseguitu picchi rapidamente o particularmente lenta? Speculate briefly about possible motivi di quellu patronu.
[ , , , ] Penney (2016) sbulicatu o micca a publicità generale nantu à a vigilazione NSA / PRISM in a ghjugna di u 2013 hè assuciatu cù una sguità è sutt'ella in u trafficu di l'articuli di Wikipedia nantu à temà chì elevanu a prublema di privacy. Se sia cusì, sta cambiamentu in i cumpurtamenti seranu coherente cù un effettu chilling fruttu da a vigilazione di massa. L'approcciu di Penney (2016) veni à spessu qualificatu un disegnu di serie di tempu interu , è hè in relazione cù l'approczii scritte in a seccion 2.4.3.
Puderete sceglie u prublemu chjave, Penney faciule a lista utilizada da u Dipartimentu di a Patria di u Patronu di i Stati Uniti per u seguimentu è seguimentu di e media. A lista di u DHS categorizeghja certi termini di ricerca in una varietà di prublemi, per esempiu "Cumprimentu à a Salute", "Infrastruttura di Securità" è "Terrorismu". Per u gruppu studiu, Penney hà utilizatu l'48 parole chjamati cù "Terrorismu" (vede appendix table 8 ). Dopu aggiunta l'articulu di l'articulu hè cuntadore nantu à una basa mensuale per quelle 48 articuli di Wikipedia cù un periodu di 32 mesi, da u principiu di ghjennaghju di u 2012 à a fini di l'aostu di u 2014. Per rinfurzà a so argumentu, hà ancu criatu parechji gruppi di comparatori tracciau visioni articuli nantu à altri temi.
Avà, site per riplicate è extende Penney (2016) . Tutti i dati virali chì avete bisognu di sta attività hè disponibile da Wikipedia. O pudete acquistà da u R-package wikipediatrend (Meissner and R Core Team 2016) . Quandu puderete scrive u vostri risposte, avete nutitu l'infurmazioni di u fonti chì avete usatu. (Nota chì sta stessa attività hè ancu in u capitulu 6.) Questu attivazione vi darà a pratica in dati di cunferenze è di pensà à i esperimenti naturali in grandi fonti di dati. Hè ancu avà ghjustificatu cù un spaziu di dati interessanti per i prughjetti in future.
[ ] Efrati (2016) informatu, basatu annantu à l'infurmazione confidenti, chì "a spargugliu tutali" in Facebook s'hè diminuitu nantu à circa un 5,5% annu annata quandu "sharing broadcast broadcast" era 21% annu annata annata. Questa diminuite hè particularmente agutu cù l'utilizatori di Facebook sottu 30 anni di età. U rapportu attribuía u decadente à duie fatturi. Unu hè u cretu in u numaru di "amichi" di e persone anu in Facebook. L'altru hè chì qualchissia parte sparte d'attivazione hà trasfigurata à messageria è à i competitors com Snapchat. L'annunziu anu revelatu ancu e quarchi tacticità Facebook avia pruvatu à sparà u sparte, cumpresa di l'algoritmo di News Feed, chì cambia a publicazioni originali più prominenti, è di ricordi pericinali di i publicazioni origginali cù a funzione "On This Day". Chì significati, se qualchissia, fà questi loghazioni per i circhanti chì vulianu usà Facebook cum'è fonte di dati?
[ ] Cosa hè a diferenza per un sociologu è un stòricu? Sicondu Goldthorpe (1991) , a principalità hè u cuntrollu di a ricerca di dati. L'historiatrici sò obligati di utilizà relidicamenti, mentri i sociologue si poni à apprezzà a so ricerca di dati à sviluppi specifiche. Lee Goldthorpe (1991) . Cumu hè a differenza trà i sociologie è a storia ligata à l'idea di custommades e readymades?
[ ] Questa custruisce nantu à u quesiton anticu. Goldthorpe (1991) hà fattu un sensu di risposti crìtichi, cumpresa unu di Nicky Hart (1994) chì sfidau a devozione di Goldthorpe à l'articuli fugliale. Per essecimentate e limitazione potenzale di data fatta, Hart hà descrizatu u Prughjettu di u travagliu affluente, una stonda larga per misurà a rilazioni trà a classa suciale è u votu chì era guidatu da Goldthorpe è i culleghi in a mezzo di l'anni 1960. Comu pò esse espertu di un studiente chì favurizatu e dati chì hà datu cunfirmati, u travagliu affluente di u travagliu hàbbenu datu chì sò stati disciplinati per affruntà una teoria propositu di u futuru di a classi suciali in una era di standards di vita di creazioni. Ma, Goldthorpe è i culleghi d'alcuni "scurdati" di cullittà infurmazioni nantu à u cumpurtamentu di u votu di e donne. Eccu Cumu Nicky Hart (1994) resume l'episodiu sanu:
"... hè [hè] difficiule per evitarà a cunvinzione chì e donne fanu omessi per chì questa fattura di« fatta fatta fatta »hè stata cunfinata da una lòggica paradigmata chì escludisci l'esperma femminile. Impulsatu da una visione teorica di a cuscenza di a classi è l'accontu cumu preoccupations maschile ..., Goldthorpe è i so culleghi sò stati prupziunzii empirichi chì alimentonu è coseu i so propunsioni tiurici propii invece di esse l'esposta à una prova valida d'adattazione ".
Hart cuntava:
"I travagliu empiricu di u Prughjettu di u travagliu affluente dici di più nantu à i valori masculinisti di a sociologija di u seculu versione ch'elli anu infurmatu i prucessi di stratificazione, a pulitica è a vita materiale.
Pudete pensate di altri esempi, chì a recopilazione di sguardi fugliale anu u preghjudiziu di u cullettore di dati cumprati? Cumu cumpunisce cusì cun nahista algorìmichi? E quali implicazione puderanu questu questu per quandu i ricoditeri avissiru aduprà readymades è quandu elli si tenenu custommades?
[ ] In questu capitulu, aghju cuntrastatu e dati recullati da i circhificanti per i circhieri cù registri amministrativi creati da i impresi è i guverni. Certi città chjamanu sti registri amministrativi "dati truvati", quale anu cuntrastatu cù "dati disinniati". Hè veru chì i registri amministrativi sò truvati da i ricerca, ma sò dinò assai ricunnisciuti. Per esempiu, e tecnulugii tecnulugia muderni travaglianu assai di ricumpinsalli è curate i so dati. Cusì, sti registri amministrativi sò tutti dui è truvatu, hè ghjustu da a vostra perspettiva (figura 2.12).
Fornite un esempiu di l'oraghja di dati chì vede cum'è truvatu è stampatu hè utili when using that data source for research.
[ ] In un prucessu pensativu, Christian Sandvig è Eszter Hargittai (2015) split research digitale in dui largheghini categuriendu si u sistema di l'digitale hè un "instrumentu" o "unicu studiu di studiu". Un esempiu di u primu tipu induve u sistema hè un strumentu - hè a ricerca di Bengtsson è i culleghji (2011) nantu à l'utilizazione di dati telefonii di telefunali per seguità a migrazione dopu à u terrimotu in Haiti in u 2010. Un esempiu di u sicondu tipu induve u sistema hè un ughjettu di studiu-hè ricerca di Jensen (2007) nantu à a manera chì l'introduzione di i telefuni mubilii in Kerala, l'India hà impussibule u funziunamentu di u mercatu di u pesciu. Truvaru questa distinazioni aiutera perchè elabura chì i studii cù l'infurmazioni digitale puderanu esse ghjustifiche ancu à l'uggettu di u fondu di dati. Per esse di clarificà sta distinzione, detti quattru studii chì avete vistu: dui chì usanu un sistema digitale com'è un strumentu è dui chì usanu un sistema digitale com'è un ughjettu di studiu. Pudete utilizà esempii di stu capitulu se vulete.