Ewlenin:
[ , ] Jistgħu jfixklu Algorithmic kienet problema bil-Google Flu Xejriet. Aqra l-karta permezz Lazer et al. (2014) , u jiktbu fil-qosor, email ċara għal inġinier fuq Google tispjega l-problema u li joffru idea ta 'kif jiġu ffissati l-problema.
[ ] Bollen, Mao, and Zeng (2011) isostni li data minn Twitter jistgħu jintużaw biex jitbassru l-istokk tas-suq. Din il-konstatazzjoni wassal għall-ħolqien ta 'hedge fond ta' Derwent Swieq Kapitali-biex jinvestu fil-istokk tas-suq ibbażat fuq data miġbura mid Twitter (Jordan 2010) . X'evidenza kieku inti tixtieq li tara qabel it-tqegħid tal-flus tiegħek f'dak il-fond?
[ ] Filwaqt li xi avukati saħħa pubblika silġ e-sigaretti bħala għajnuna effettiva għall-waqfien mit-tipjip, oħrajn iwissu dwar ir-riskji potenzjali, bħalma huma t-livelli għolja ta 'nikotina. Immaġina li riċerkatur jiddeċiedi li jistudja l-opinjoni pubblika lejn e-sigaretti permezz tal-ġbir karigi Twitter relatati mal-e-sigaretti u t-tmexxija analiżi sentiment.
[ ] F'Novembru 2009, Twitter biddel il-kwistjoni fil-kaxxa tweet minn "X'Ser tagħmel?" Għal "Dak li qed jiġri?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analizzat 41.7 miljun profili utent, 1.47 biljun relazzjonijiet soċjali, 4262 suġġetti trending, u 106 miljun tweets bejn 6 Ġunju u 31 Ġunju, 2009. Abbażi ta 'din l-analiżi huma kkonkludew li Twitter jservi aktar bħala mezz ġdid ta' qsim ta 'informazzjoni minn netwerk soċjali.
[ ] "Retweets" spiss jintużaw biex jitkejlu l-influwenza u t-tixrid ta 'influwenza fuq Twitter. Inizjalment, l-utenti kellhom kopja u paste tal-tweet li Għoġobni, tag l-awtur oriġinali mal-manku tiegħu / tagħha, u manwalment tip "RT" qabel il-tweet li jindika li din hija retweet. Imbagħad, fl-2009 Twitter żied buttuna "retweet". F'Ġunju 2016, Twitter għamilha possibbli għall-utenti biex retweet tweets tagħhom stess (https://twitter.com/twitter/status/742749353689780224). Taħseb dawn il-bidliet għandhom jaffettwaw kif tuża "retweets" fir-riċerka tiegħek? Għaliex jew għaliex le?
[ , , ] Michel et al. (2011) mibnija korpus li joħorġu mill-isforz Google biex jiġi diġitalizzat kotba. Uża l-ewwel verżjoni tal-corpus, li ġiet ippubblikata fl-2009 u li jinsabu aktar minn 5 miljun kotba diġitizzati, l-awturi analizzati kelma frekwenza użu biex jinvestiga bidliet lingwistiċi u x-xejriet kulturali. Hekk il-Google Books Corpus saret sors ta 'dejta popolari għar-riċerkaturi, u verżjoni 2 tad-database ġiet rilaxxata fl-2012.
Madankollu, Pechenick, Danforth, and Dodds (2015) wissiet li r-riċerkaturi jeħtieġu li jikkaratterizzaw bis-sħiħ il-proċess ta 'kampjunar tal-corpus qabel ma tużah għal tfassil tal-konklużjonijiet wesgħin. Il-kwistjoni ewlenija hija li l-corpus huwa librerija simili, li fihom wieħed minn kull ktieb. Bħala riżultat, l-individwu, awtur prolifiku huwa kapaċi li notevoli daħħal frażijiet ġodda fis-lessiku Google Books. Barra minn hekk, it-testi xjentifiċi jikkostitwixxu porzjon dejjem aktar sostantiva tal-corpus matul il-1900s. Barra minn hekk, billi jitqabblu żewġ verżjonijiet tal-datasets Fiction Ingliż, Pechenick et al. evidenza li nstabet li filtrazzjoni insuffiċjenti kien użat fil-produzzjoni tal-ewwel verżjoni. Kollha tad-data meħtieġa għall-attività hija disponibbli hawn: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) jesplora jekk il-pubbliċità mifruxa madwar NSA sorveljanza / PRISM (jiġifieri, il-rivelazzjonijiet Snowden) f'Ġunju 2013 huwa assoċjat ma 'tnaqqis qawwi u f'daqqa fil-traffiku għall-artikoli Wikipedija fuq suġġetti li jqajmu tħassib privatezza. Jekk iva, din il-bidla fl-imġiba tkun konsistenti ma 'effett li jiffriża tirriżulta minn sorveljanza tal-massa. L-approċċ tal Penney (2016) xi kultant jissejjaħ 'disinn interrotta serje taż-żmien u hija relatata mal-approċċi fil-kapitolu dwar approssimazzjoni esperimenti mid data ta' osservazzjoni (Taqsima 2.4.3).
Biex jagħżlu l-keywords topiċi, Penney irrefera għall-lista wżata mill-US Dipartiment tas-Sigurtà Interna għat-traċċar u l-monitoraġġ tal-midja soċjali. Il-lista DHS categorizes ċerti termini ta 'tiftix f'firxa ta' kwistjonijiet, jiġifieri "Tħassib Saħħa," "Sigurtà Infrastruttura," u "Terroriżmu." Għall-grupp ta 'studju, Penney użat il-tmienja u erbgħin keywords relatati ma' "Terroriżmu" (ara t-Tabella 8 Appendiċi). Huwa mbagħad miġbura Wikipedija artikolu ħsieb għadd fuq bażi mensili għall-tmienja u erbgħin Artikoli korrispondenti Wikipedija fuq perjodu ta 'tnejn u tletin xahar, mill-bidu ta' Jannar 2012 lill-aħħar ta 'Awwissu 2014 Biex tissaħħaħ l-argument tiegħu, huwa wkoll ħolqot paragun diversi gruppi mill tracking fehmiet artiklu dwar suġġetti oħra.
Issa, inti ser tiġi replikata u testendi Penney (2016) . L-dejta prima li ser ikollok bżonn għal din l-attività hija disponibbli mill-Wikipedija (https://dumps.wikimedia.org/other/pagecounts-raw/). Jew tista 'tikseb mill-wikipediatrend pakkett R (Meissner and Team 2016) . Meta tiktbilna-up tweġibiet tiegħek, jekk jogħġbok innota li sors tad-dejta inti użati. (Nota: Din l-istess attività tidher ukoll fil-Kapitolu 6)
[ ] Efrati (2016) rapporti, ibbażati fuq informazzjoni kunfidenzjali, li "qsim totali" fuq Facebook kienet naqset b'sena madwar 5.5% matul is-sena filwaqt li "qsim xandira oriġinali" kienet l isfel sena 21% matul is-sena. Dan it-tnaqqis kien partikolarment gravi mal-utenti Facebook taħt it-30 sena. Ir-rapport attribwit it-tnaqqis għal żewġ fatturi. Wieħed huwa t-tkabbir fl-għadd ta ' "ħbieb" nies ikollhom fuq Facebook. L-ieħor huwa li xi attività qsim mxiet għal messaġġi u lill-kompetituri bħall SnapChat. Ir-rapport żvela wkoll il-bosta tattiċi Facebook kienu ppruvaw biex tingħata spinta lill-kondiviżjoni, inklużi tweaks algoritmu Għalf News li jagħmlu postijiet oriġinali aktar prominenti, kif ukoll tfakkir perjodiċi tal-utenti postijiet oriġinali "Fuq Dan Jum" bosta snin ilu. X'inhuma l-implikazzjonjiet, jekk ikun hemm, ma dawn is-sejbiet għandhom għal riċerkaturi li jixtiequ jużaw Facebook bħala sors ta 'data?
[ ] Tumasjan et al. (2010) irrapporta li proporzjon ta tweets jsemmu partit politiku mqabbla l-proporzjon tal-voti dik il-parti li waslu fl-elezzjoni parlamentari Ġermaniża fl-2009 (Figura 2.9). Fi kliem ieħor, jidher li inti tista 'tuża Twitter biex wieħed ibassar l-elezzjoni. Fiż-żmien kien ippubblikat dan l-istudju kien ikkunsidrat ferm eċċitanti minħabba li deher li jissuġġerixxu użu siewi għal sors komuni ta 'data kbar.
Minħabba l-karatteristiċi ħżiena ta 'dejta kbar, madankollu, inti għandek immedjatament tkun xettiċi ta' dan ir-riżultat. Ġermaniżi fuq Twitter fl-2009 kienu pjuttost grupp mhux rappreżentattiv, u partitarji ta 'partit wieħed jista tweet dwar il-politika aktar spiss. Għalhekk, jidher sorprendenti li l-preġudizzji possibbli li inti tista 'timmaġina kieku b'xi jikkanċella. Fil-fatt, ir-riżultati Tumasjan et al. (2010) irriżultaw li huma wisq tajbin biex ikunu vera. Fil-karta tagħhom, Tumasjan et al. (2010) ikkunsidrat sitt partiti politiċi: Demokristjani (CDU), Demokristjani Soċjali (CSU), SPD,-Liberali (PDT), Il-Xellug (Die Linke), u l-Partit tal-Ħodor (Grüne). Madankollu, il-partit politiku Ġermaniż aktar imsemmija hawn fuq Twitter dak iż-żmien kien l-Partit pirata (Piraten), parti li tissielet regolament tal-gvern ta 'l-Internet. Meta l-Partit Pirata kien inkluż fl-analiżi, Twitter isemmi isir tbassar terribbli ta 'riżultati tal-elezzjoni (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Sussegwentement, riċerkaturi oħra madwar id-dinja użaw Metodi bħal fancier huma jużaw analiżi sentiment li ssir distinzjoni bejn pożittivi u negattivi jsemmi restrizzjonijiet tal-partijiet sabiex tittejjeb il-kapaċità ta 'data Twitter li wieħed ibassar varjetà ta' tipi differenti ta 'elezzjonijiet (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Ara kif Huberty (2015) -qosor ir-riżultati ta 'dawn il-tentattivi biex wieħed ibassar elezzjonijiet:
"Il-metodi kollha tat-tbassir magħrufa bbażati fuq midja soċjali naqsu meta jkun suġġetti għall-bżonnijiet tas-tbassir elettorali vera tħares 'il quddiem. Dawn in-nuqqasijiet jidhru li huma minħabba l-proprjetajiet fundamentali tal-midja soċjali, aktar milli għal diffikultajiet metodoloġiċi jew algorithmic. Fil-qosor, il-midja soċjali ma, u probabbilment qatt se, joffri stabbli, imparzjali, stampa rappreżentattiva tal-elettorat; u l-kampjuni konvenjenza tal-midja soċjali huma nieqsa biżżejjed dejta biex jiffissaw dawn il-problemi wara hoc. "
Aqra xi wħud mill-riċerka li twassal Huberty (2015) għal din il-konklużjoni, u jiktbu paġna waħda memo lil kandidat politiku li jiddeskrivi jekk u kif Twitter għandhom jintużaw biex jitbassru elezzjonijiet.
[ ] X'inhi d-differenza bejn soċjologu u storiku? Skond Goldthorpe (1991) , id-differenza prinċipali bejn soċjologu u storiku huwa kontroll fuq ġbir tad-dejta. L-istoriċi huma sfurzati li jużaw fdalijiet filwaqt soċjologi jistgħu jfasslu ġbir ta 'data tagħhom għal skopijiet speċifiċi. Aqra Goldthorpe (1991) . Kif huwa d-differenza bejn is-soċjoloġija u l-istorja marbuta mal-idea ta 'Custommades u Readymades?
[ ] Filwaqt li tibni fuq il-mistoqsija ta 'qabel, Goldthorpe (1991) ġibdet għadd ta' tweġibiet kritiċi, inkluż wieħed minn Nicky Hart (1994) li kkontestat devozzjoni Goldthorpe li jfasslu data magħmula. Biex tiġi ċċarata l-limitazzjonijiet potenzjali ta 'dejta magħmula apposta, Hart deskritti l Proġett Ħaddiem sinjuri, stħarriġ kbir biex titkejjel ir-relazzjoni bejn klassi soċjali u li jivvotaw kienet immexxija mill Goldthorpe u l-kollegi fil-nofs l-1960. Kif wieħed jistenna minn studjuż li jiffavorixxu mfassla data fuq data misjuba, il-Proġett Ħaddiem sinjuri dejta li ġiet mfassla biex jindirizzaw teorija propost riċentement dwar il-futur tal-klassi soċjali f'era ta 'żieda standards ta' għajxien miġbura. Iżda, Goldthorpe u l-kollegi b'xi mod "nesa" li tinġabar informazzjoni dwar l-imġiba tal-vot tan-nisa. Ara kif Nicky Hart (1994) sommarji l-episodju kollu:
". . . huwa [hija] diffiċli li tiġi evitata l-konklużjoni li n-nisa kienu tħallew barra minħabba li din "magħmula apposta" CCD kienet limitata minn loġika paradigmatiku li eskludiet l-esperjenza tan-nisa. Immexxija minn viżjoni teoretika ta 'koxjenza klassi u azzjoni bħala preokkupazzjonijiet maskili. . . , Goldthorpe u l-kollegi tiegħu mibnija sett ta 'provi empiriċi li mitmugħa u mrawwem assunzjonijiet teoretiku tagħhom stess minflok jesponihom għal test validu ta' adegwatezza. "
Hart kompliet:
"Is-sejbiet empiriċi tal-Proġett Ħaddiem sinjuri jurina aktar dwar il-valuri masculinist ta soċjoloġija nofs is-seklu milli jinfurmaw il-proċessi ta 'stratifikazzjoni, il-politika u l-ħajja materjali."
Tista 'taħseb ta eżempji oħra fejn il-ġbir tad-data magħmula apposta għandha l-preġudizzji tal-kollettur tad-data mibnija fis dan? Kif jaħdem dan tqabbel jistgħu jfixklu algoritmiku? X'inhu l-implikazzjonijiet jista jkollu dan għal meta riċerkaturi għandhom jużaw Readymades u meta dawn għandhom jużaw Custommades?
[ ] F'dan il-kapitlu, jien kuntrast data miġbura mir-riċerkaturi għal riċerkaturi mar-rekords amministrattivi maħluqa mill-kumpaniji u l-gvernijiet. Xi nies sejħa dawn ir-rekords amministrattivi "d-dejta tinstab," li huma jikkuntrastaw mal- "data maħsuba." Huwa veru li r-rekords amministrattivi jinstabu mir-riċerkaturi, iżda huma wkoll maħsuba ferm. Per eżempju, il-kumpaniji b'teknoloġija moderna jonfqu ammonti enormi ta 'żmien u r-riżorsi biex jiġbru u curate data tagħhom. Għalhekk, dawn ir-rekords amministrattivi huma t-tnejn jinstabu u ddisinjati, hija biss tiddependi fuq il-perspettiva tiegħek (Figura 2.10).
Jipprovdu eżempju ta 'sors tad-data fejn iqisuh kemm bħala misjuba u ddisinjat huwa utli meta jużaw dan is-sors tad-data għal riċerka.
[ ] Fi essay maħsub, Christian Sandvig u Eszter Hargittai (2015) jiddeskrivi żewġ tipi ta 'riċerka diġitali, fejn is-sistema diġitali hija "strument" jew "oġġett ta' studju." Eżempju tal-ewwel tip ta 'studju huwa fejn Bengtsson u l-kollegi (2011) wżat data mowbajl sabiex jittraċċjaw il-migrazzjoni wara t-terremot f'Ħaiti fl-2010 eżempju tat-tieni tip huwa fejn Jensen (2007) studji kif l-introduzzjoni ta 'telefowns ċellulari madwar Kerala, l-Indja kellhom impatt tal-funzjonament tas-suq għall-ħut. Nsib dan utli għaliex jikkjarifika li l-istudji li jużaw sorsi ta 'dejta diġitali jistgħu jkollhom għanijiet pjuttost differenti, anki jekk huma jużaw l-istess tip ta' sors tad-data. Sabiex tkun iċċarata aktar din id-distinzjoni, jiddeskrivi erba 'studji li inti stajt tidher: żewġ li jużaw sistema diġitali bħala strument u żewġ li jużaw sistema ta diāitali bħala oġġett ta' studju. Tista 'tuża eżempji minn dan il-kapitolu jekk inti tixtieq.