[ , ] Konfużjoni algoritmika kienet problema bil-Google Flu Trends. Aqra l-karta minn Lazer et al. (2014) , u ikteb email qasir u ċar lil inġinier fuq Google li jispjega l-problema u joffri idea ta 'kif tiffissah.
[ ] Bollen, Mao, and Zeng (2011) isostnu li d-dejta minn Twitter tista 'tintuża biex tbassar is-suq tal-ishma. Din il-konstatazzjoni wasslet għall-ħolqien ta 'hedge fund-Derwent Capital Markets-biex tinvesti fil-borża bbażata fuq data miġbura minn Twitter (Jordan 2010) . Liema evidenza trid tara qabel ma tpoġġi l-flus tiegħek f'dak il-fond?
[ ] Filwaqt li xi avukati tas-saħħa pubblika jikkunsidraw is-sigaretti elettroniċi għajnuna effettiva għall-waqfien mit-tipjip, oħrajn iwissu dwar ir-riskji potenzjali, bħal livelli għoljin ta 'nikotina. Immaġina li riċerkatur jiddeċiedi li jistudja l-opinjoni pubblika lejn e-sigaretti billi jiġbor postazzjonijiet ta 'Twitter relatati ma' sigaretti elettroniċi u jwettaq analiżi ta 'sentiment.
[ ] F'Novembru 2009, Twitter biddlet il-mistoqsija fil-kaxxa tweet minn "What are you doing?" Għal "What's happening?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" spiss jintużaw biex ikejlu l-influwenza u t-tixrid tal-influwenza fuq Twitter. Inizjalment, l-utenti kellhom jikkupjaw u pejst it-tweet li xtaqu, immarka l-awtur oriġinali bil-manku tiegħu / tagħha, u manwalment ittajpja "RT" qabel it-tweet biex tindika li kienet retweet. Imbagħad, fl-2009, Twitter żied buttuna "retweet". F'Ġunju 2016, Twitter għamilha possibbli għall-utenti li jirtiraw it-tweets tagħhom stess (https://twitter.com/twitter/status/742749353689780224). Taħseb li dawn il-bidliet għandhom jaffettwaw kif tuża "retweets" fir-riċerka tiegħek? Għaliex jew għaliex le?
[ , , , ] F'diskussjoni diskussa ħafna, Michel u l-kollegi (2011) analizzaw il-kontenut ta 'aktar minn ħames miljun ktieb iddiġitizzat f'attentat biex jiġu identifikati tendenzi kulturali fit-tul. Id-dejta li użaw issa ġiet rilaxxata bħala s-sett tad-dejta tal-Google NGrams, u għalhekk nistgħu nużaw id-dejta biex tirreplika u testendi xi xogħolhom.
F'waħda mill-bosta riżultati fil-karta, Michel u l-kollegi argumentaw li aħna ninsew aktar malajr u aktar malajr. Għal sena partikolari, jiġifieri "1883," huma kkalkulaw il-proporzjon ta '1 gramma ppubblikati f'kull sena bejn l-1875 u l-1975 li kienu "1883". Huma rraġunaw li dan il-proporzjon huwa miżura tal-interess f'avvenimenti li seħħew f'dik is-sena. Fil-figura 3a, huma ddettaw it-trajettorji tal-użu għal tliet snin: 1883, 1910, u 1950. Dawn it-tliet snin għandhom mudell komuni: ftit użu qabel dik is-sena, imbagħad spike, imbagħad decay. Imbagħad, biex tikkwantifika r-rata ta 'tħassir għal kull sena, Michel u l-kollegi kkalkulaw il- "half-life" ta' kull sena għas-snin kollha bejn 1875 u 1975. Fil-figura 3a (inset), urew li l-half-life ta 'kull sena qed tonqos, u argumentaw li dan ifisser li aħna ninsew il-passat b'ħeffa u aktar malajr. Huma użaw il-Verżjoni 1 tal-corpus tal-lingwa Ingliża, iżda sussegwentement Google ħarġet it-tieni verżjoni tal-corpus. Jekk jogħġbok aqra l-partijiet kollha tal-mistoqsija qabel tibda kodifikazzjoni.
Din l-attività tgħinek tipprattika l-kodiċi li tista 'terġa' tintuża, l-interpretazzjoni tar-riżultati u t-tqassim tad-data (bħal xogħol b'fajls skomdi u l-immaniġġjar ta 'dejta nieqsa). Din l-attività tgħinek ukoll tibda taħdem b'konnessjoni rikka u interessanti.
Akkwista d-data mhux ipproċessata mill-websajt tal-Google Books NGram Viewer. B'mod partikolari, għandek tuża l-verżjoni 2 tal-corpus tal-lingwa Ingliża, li ġiet rilaxxata fl-1 ta 'Lulju 2012. Mhux kompressata, dan il-fajl huwa 1.4GB.
Irrepeti l-parti prinċipali tal-figura 3a ta ' Michel et al. (2011) . Biex terġa 'toħloq din iċ-ċifra, ser ikollok bżonn żewġ fajls: dak li niżżilt fil-parti (a) u l-fajl "għadd totali", li tista' tuża biex taqleb l-għadd mhux maħdum fi proporzjonijiet. Innota li l-fajl tal-għadd totali għandu struttura li tista 'tagħmilha daqsxejn diffiċli biex tinqara. Il-verżjoni 2 tad-dejta NGram tipproduċi riżultati simili għal dawk ippreżentati f'Michael Michel et al. (2011) , li huma bbażati fuq data tal-verżjoni 1?
Issa iċċekkja l-graff tiegħek mal-graff maħluq mill-NGram Viewer.
Irrikkrea l-figura 3a (figura ewlenija), imma ibdel l- \(y\) - jiġifieri l-għadd ta 'referenza prima (mhux ir-rata ta' referenza).
Id-differenza bejn (b) u (d) iwasslu biex tirrevedi kwalunkwe riżultat tar-riżultati ta 'Michel et al. (2011). Għaliex jew għaliex le?
Issa, billi tuża l-proporzjon ta 'indikazzjonijiet, irreplika l-inset tal-figura 3a. Jiġifieri, għal kull sena bejn l-1875 u l-1975, ikkalkula l-half-life ta 'dik is-sena. Il-half-life hija definita bħala n-numru ta 'snin li jgħaddu qabel ma l-proporzjon tas-sejbiet jilħaq nofs il-valur massimu tiegħu. Innota li Michel et al. (2011) tagħmel xi ħaġa aktar ikkumplikata biex tistma l-half-life ara sezzjoni III.6 tat-Tagħrif Online ta 'Appoġġ - iżda jsostnu li ż-żewġ approċċi jipproduċu riżultati simili. Il-verżjoni 2 tad-dejta NGram tipproduċi riżultati simili għal dawk ippreżentati f'Michael Michel et al. (2011) , li huma bbażati fuq data tal-verżjoni 1? (Ħjiel: Ma jkun sorpriż jekk ma jagħmilx dan.)
Kien hemm xi snin li kienu validi bħas-snin li kienu minsija partikolarment malajr jew partikolarment bil-mod? Spjega fil-qosor dwar raġunijiet possibbli għal dak il-mudell u spjega kif identifikajt l-outliers.
Issa tirreplika dan ir-riżultat għall-verżjoni 2 tad-dejta ta 'NGrams fi Ċiniż, Franċiż, Ġermaniż, Ebrajk, Taljan, Russu u Spanjol.
Tqabbil fil-lingwi kollha, kien hemm xi snin li kienu outliers, bħal snin li kienu minsija partikolarment malajr jew partikolarment bil-mod? Spjega fil-qosor dwar ir-raġunijiet possibbli għal dak il-mudell.
[ , , , ] Penney (2016) esplorat jekk il-pubbliċità mifruxa dwar is-sorveljanza NSA / PRISM (jiġifieri r-rivelazzjonijiet ta 'Snowden) f'Ġunju 2013 kienet assoċjata ma' tnaqqis qawwi u f'daqqa fit-traffiku għal artikli tal-Wikipedija fuq suġġetti li jqajmu tħassib dwar il-privatezza. Jekk iva, din il-bidla fl-imġiba tkun konsistenti ma 'effett ta' tkessiħ li jirriżulta minn sorveljanza tal-massa. L-approċċ ta ' Penney (2016) kultant jissejjaħ disinn ta' serje ta 'ħin interrott , u huwa relatat mal-approċċi deskritti fit-taqsima 2.4.3.
Biex tagħżel il-kliem prinċipali tas-suġġett, Penney irreferiet għal-lista użata mid-Dipartiment tas-Sigurtà Interna ta 'l-Istati Uniti biex tissorvelja u timmonitorja l-midja soċjali. Il-lista tad-DHS tikkategorizza ċerti termini ta 'tfittxija f'firxa ta' kwistjonijiet, jiġifieri, "Tħassib dwar is-Saħħa", "Sigurtà tal-Infrastruttura" u "Terroriżmu." Għall-grupp ta 'studju, Penney użat 48 kelma prinċipali relatati ma' "Terroriżmu" ). Huwa mbagħad aggregat il-fehma ta 'l-artiklu tal-Wikipedija jgħodd kull xahar għall-korrispondenti 48 artiklu tal-Wikipedija fuq perjodu ta' 32 xahar, mill-bidu ta 'Jannar 2012 sa tmiem Awissu 2014. Biex isaħħaħ l-argument tiegħu, ħoloq ukoll diversi gruppi ta' fehmiet ta 'l-artiklu dwar suġġetti oħra.
Issa, ser tirreplika u testendi l- Penney (2016) . Id-data mhux ipproċessata kollha li ser ikollok bżonn għal din l-attività hija disponibbli mill-Wikipedija. Jew tista 'tiksbu mill-pakkett R-wikipediatrend (Meissner and R Core Team 2016) . Meta tikteb it-tweġibiet tiegħek, jekk jogħġbok innota liema sors tad-dejta int użajt. (Innota li din l-istess attività tidher ukoll fil-kapitolu 6.) Din l-attività tghidlek il-prattika fit-tqassim tad-data u l-hsieb ta 'esperimenti naturali f'sorsi ta' data kbar. Se jkollok ukoll taħdem b'sors ta 'dejta potenzjalment interessanti għal proġetti futuri.
[ ] Efrati (2016) irrapporta, ibbażat fuq informazzjoni kunfidenzjali, li "qsim totali" fuq Facebook naqas b'madwar 5.5% sena wara sena filwaqt li "l-iskambju oriġinali tax-xandir" naqas b'21% sena wara sena. Dan it-tnaqqis kien partikolarment akut ma 'utenti ta' Facebook taħt it-30 sena. Ir-rapport attribwixxa t-tnaqqis għal żewġ fatturi. Wieħed huwa t-tkabbir fin-numru ta 'nies "ħbieb" li għandhom fuq Facebook. L-ieħor huwa li xi attività ta 'qsim inbidlet għal messaġġi u għal kompetituri bħal Snapchat. Ir-rapport żvela wkoll id-diversi tattiċi Facebook ipprova jtejjeb il-qsim, inkluż tweġibiet tal-algoritmi Feed News li jagħmlu l-postijiet oriġinali aktar prominenti, kif ukoll tfakkiriet perjodiċi tal-postijiet oriġinali bil-karatteristika "Fuq din il-ġurnata". Liema implikazzjonijiet, jekk ikun hemm, jagħmlu dawn is-sejbiet għal riċerkaturi li jixtiequ jużaw Facebook bħala sors tad-dejta?
[ ] X'inhi d-differenza bejn soċjologu u storiku? Skond Goldthorpe (1991) , id-differenza ewlenija hija l-kontroll fuq il-ġbir tad-dejta. L-istoriċi huma mġiegħla jużaw fdalijiet, filwaqt li s-soċjologi jistgħu jfasslu l-ġbir tad-dejta tagħhom għal skopijiet speċifiċi. Aqra Goldthorpe (1991) . Kif hija d-differenza bejn is-soċjoloġija u l-istorja relatata mal-idea ta 'kustillji u lesti?
[ ] Dan jibni fuq il-kwesiton ta 'qabel. Goldthorpe (1991) ġibdet numru ta 'tweġibiet kritiċi, inkluż wieħed minn Nicky Hart (1994) li kkontestaw id-devozzjoni ta' Goldthorpe għal data magħmula apposta. Biex tiċċara l-limitazzjonijiet potenzjali ta 'data mfassla apposta, Hart iddeskriviet il-Proġett tal-Ħaddiema Affluwenti, stħarriġ kbir biex titkejjel ir-relazzjoni bejn il-klassi soċjali u l-votazzjoni li tmexxiet minn Goldthorpe u kollegi f'nofs is-sittinijiet. Kif wieħed jista 'jistenna minn studjuż li ffavorixxa dejta ddisinjata fuq data misjuba, il-Proġett Ħaddiema Affluwenti ġabar dejta li kienet imfassla biex tindirizza teorija proposta reċentement dwar il-futur tal-klassi soċjali f'era ta' livelli ta 'għixien dejjem jiżdiedu. Iżda, Goldthorpe u l-kollegi b'xi "nesa" biex jiġbru informazzjoni dwar l-imġiba tal-votazzjoni tan-nisa. Ara kif Nicky Hart (1994) qassar l-episodju kollu:
"[...] huwa diffiċli li tiġi evitata l-konklużjoni li n-nisa tħallew barra minħabba li dan is-sett tad-dejta" magħmul apposta "kien limitat minn loġika paradigmatika li eskludiet l-esperjenza femminili. Immexxija minn viżjoni teoretika tal-kuxjenza u l-azzjoni tal-klassi bħala preokkupazzjonijiet maskili ..., Goldthorpe u l-kollegi tiegħu bnew sett ta 'provi empiriċi li taw u nrawmu s-suppożizzjonijiet teoretiċi tagħhom stess minflok jesponuhom għal test validu ta' adegwatezza. "
Hart kompla:
"Is-sejbiet empiriċi tal-Proġett tal-Ħaddiema Affluenti jgħidulna aktar dwar il-valuri maskinisti tas-soċjoloġija ta 'nofs is-seklu milli jinfurmaw il-proċessi tal-istratifikazzjoni, il-politika u l-ħajja materjali."
Tista 'taħseb eżempji oħra fejn il-ġbir tad-dejta mfassal apposta għandu l-preġudizzju tal-kollettur tad-dejta mibni fih? Kif tqabbel dan ma 'konfużjoni algoritmika? Liema implikazzjonijiet jista 'jkollhom għal meta r-riċerkaturi għandhom jużaw readymades u meta għandhom jużaw kustassi?
[ ] F'dan il-kapitolu, kkuntestajt id-dejta miġbura minn riċerkaturi għal riċerkaturi b'reġistri amministrattivi maħluqa minn kumpaniji u gvernijiet. Xi nies jitolbu lil dawn ir-rekords amministrattivi "data misjuba", li huma kuntrast ma '"data mfassla." Huwa veru li r-reġistri amministrattivi jinstabu minn riċerkaturi, iżda huma wkoll iddisinjati ħafna. Pereżempju, il-kumpaniji moderni ta 'teknoloġija jaħdmu ferm diffiċli biex jiġbru u jikkonservaw id-dejta tagħhom. Għalhekk, dawn ir-rekords amministrattivi huma t-tnejn misjuba u ddisinjati, tiddependi biss fuq il-perspettiva tiegħek (figura 2.12).
Agħti eżempju ta 'sors tad-dejta meta jarah kemm kif misjub kif ukoll iddisinjat huwa utli meta jintuża dak is-sors tad-dejta għar-riċerka.
[ ] Fi studju maħsub, Christian Sandvig u Eszter Hargittai (2015) qassmu riċerka diġitali f'żewġ kategoriji wiesgħa skont jekk is-sistema diġitali hix "strument" jew "oġġett ta 'studju." Eżempju tal-ewwel tip - fejn is-sistema hija strument - hija r-riċerka minn Bengtsson u l-kollegi (2011) dwar l-użu ta 'data tat-telefon ċellulari biex tissorvelja l-migrazzjoni wara t-terremot f'Ħaiti fl-2010. Eżempju tat-tieni tip - fejn is-sistema hija oġġett ta' studju- hija riċerka minn Jensen (2007) dwar kif l-introduzzjoni tal-mowbajls madwar Kerala, l-Indja kellha impatt fuq il-funzjonament tas-suq tal-ħut. Jiena nsib din id-distinzjoni utli għax tiċċara li studji li jużaw sorsi ta 'data diġitali jistgħu jkollhom għanijiet pjuttost differenti anki jekk qed jużaw l-istess tip ta' sors ta 'dejta. Sabiex tiċċara aktar din id-distinzjoni, iddeskrivi erba 'studji li rajt: tnejn li jużaw sistema diġitali bħala strument u tnejn li jużaw sistema diġitali bħala oġġett ta' studju. Tista 'tuża eżempji minn dan il-kapitlu jekk trid.