aktivitetet

Ky përkthim u krijua nga një kompjuter. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

aktivitetet

Celes:

shkalla e vështirësisë: e lehtë , të mesme , hard , shume e veshtire
kërkon matematikë ( $kërkon matematikë$ )
kërkon kodim ( )
Mbledhja e të dhënave ( )
te Preferuarat e mia ( )

[ , ] Ngatërruar algorithmic ishte një problem me Google gripit Trendet. Lexoni gazeta me Lazer et al. (2014) , dhe shkruani një email të shkurtër, të qartë për një inxhinier në Google shpjeguar problemin dhe ofron një ide se si për të zgjidhur problemin.
[ ] Bollen, Mao, and Zeng (2011) pohon se të dhënat nga Twitter mund të përdoret për të parashikuar në tregun e aksioneve. Ky zbulim çoi në krijimin e një fond-DERWENT gardh Capital Markets-për të investuar në tregun e aksioneve bazuar në të dhënat e mbledhura nga Twitter (Jordan 2010) . Çfarë provash do të dëshironi të shihni para se të vënë paratë tuaja në këtë fond?
[ ] Ndërsa disa avokatë e shëndetit publik breshër e-cigare si një ndihmë efektive për ndërprerjen e duhanit, të tjerë paralajmërojnë për rreziqet e mundshme, të tilla si të lartë-nivelet e nikotinës. Imagjinoni që një studiues vendos për të studiuar opinionin publik drejt e-cigaret duke mbledhur postimet e-cigare-lidhur Twitter dhe kryerjen e analizave ndjenjave.
1. Cilat janë tri biases e mundshme që ju janë më të shqetësuar në lidhje me këtë studim?
2. Clark et al. (2016) u zhvillua vetëm një studim të tillë. Së pari, ata mblidhen 850,000 cicërima që përdoren fjalë kyçe e-cigareve të lidhura nga janari 2012 deri në dhjetor 2014. Pas inspektimit të ngushta, ata e kuptuan se shumë nga këto tweets janë automatizuar (dmth, jo të prodhuara nga njerëzit) dhe shumë nga këto tweets automatizuar ishin në thelb reklama. Ata zhvilluan një Zbulimit Algoritmi njerëzore për të ndarë tweets të automatizuar nga tweets organike. Duke përdorur këtë Human zbuluar Algoritmi ata zbuluan se 80% e tweets janë të automatizuar. A ka ndryshuar ky zbulim përgjigjen tuaj në pjesën e (a)?
3. Kur ata krahasim ndjenjën në tweets organike dhe të automatizuara kanë gjetur se tweets automatizuar janë më pozitive se cicërima organike (6.17 kundrejt 5.84). A ka ndryshuar ky zbulim përgjigjen tuaj në (b)?
[ ] Në nëntor të vitit 2009, Twitter ka ndryshuar pyetjen në kutinë cicërimë nga "Çfarë po bën?" Për të "Çfarë po ndodh?" (Https://blog.twitter.com/2009/whats-happening).
1. Si mendoni se ndryshimi i promptet do të ndikojë që tweet dhe / ose atë që ata cicëroj?
2. Emri një projekt kërkimor për të cilën ju do të preferoni të shpejtë "Çfarë po bën?" Shpjegoni pse.
3. Emri një projekt kërkimor për të cilën ju do të preferoni prompt "Çfarë po ndodh?" Shpjegoni pse.
[ ] Kwak et al. (2010) ka analizuar 41.7 milionë profilet e përdoruesve, 1.47 miliardë marrëdhëniet shoqërore, 4262 tema trending, dhe 106 milionë tweets në mes të 6 qershor dhe 31 qershor, 2009. Në bazë të kësaj analize kanë arritur në përfundimin se Twitter e shërben më shumë si një medium të ri të shkëmbimit të informacionit se një rrjet social.
1. Duke pasur parasysh gjetjen Kwak et al-së, çfarë lloji të hulumtimit do të bëni me të dhënat e Twitter? Çfarë lloji të hulumtimit nuk do të bëni me të dhënat e Twitter? Pse?
2. Në vitin 2010, shtoi Twitter një Who To Follow shërbimin e bërë sugjerim përshtatur për përdoruesit. Tre rekomandimet janë paraqitur në një kohë në faqen kryesore. Rekomandimet janë tërhequr shpesh nga dikujt "miqtë-e-miqtë" dhe kontaktet e ndërsjella janë shfaqur edhe në rekomandimin. Përdoruesit mund të rifreskoni të parë një seri të re të rekomandimeve apo të vizitoni një faqe me një listë të gjatë të rekomandimeve. A mendoni se ky tipar i ri do të ndryshojë përgjigjen tuaj në pjesë a)? Pse ose pse jo?
3. Su, Sharma, and Goel (2016) ka vlerësuar efektin e që të ndiqni të shërbimit dhe ka gjetur se ndërsa përdoruesit e gjithë spektrit popullaritetit përfituar nga rekomandimet, përdoruesit më të njohura përfituan ndjeshëm më shumë se mesatarja. A ka ndryshuar ky zbulim përgjigjen tuaj në pjesë b)? Pse ose pse jo?
[ ] "Retweets" shpesh përdoren për të matur ndikimin dhe përhapjen e ndikimit në Twitter. Fillimisht, përdoruesit duhej të kopjoni dhe ngjisni cicërimë që ata i pëlqente, tag autori origjinal me dorezë të tij / saj, dhe me dorë tipit "RT" para cicërimë për të treguar se kjo është një retweet. Më pas, në vitin 2009 Twitter ka shtuar një buton "retweet". Në qershor të vitit 2016, Twitter ka bërë të mundur për përdoruesit për të retweet tweets e tyre (https://twitter.com/twitter/status/742749353689780224). A mendoni se këto ndryshime duhet të ndikojnë se si ju përdorni "retweets" në kërkimin tënd? Pse ose pse jo?
[ , , ] Michel et al. (2011) ndërtuar një korpus del nga përpjekjet e Google për të digjitalizuar libra. Duke përdorur versionin e parë të korpusit, i cili u botua në vitin 2009 dhe që përmban më shumë se 5 milionë libra të digjitalizuar, autorët analizuar përdorimin fjalën frekuencë të hetuar ndryshimet gjuhësore dhe trendet kulturore. Së shpejti Books Google Corpus u bë një burim popullor të dhënave për hulumtuesit, dhe një version 2 të dhënave u lirua në vitin 2012.

Megjithatë, Pechenick, Danforth, and Dodds (2015) paralajmëroi se studiuesit duhet të karakterizojë plotësisht procesin e marrjes së mostrave të korpusit para se të përdorni atë për nxjerrjen e konkluzioneve të gjerë. Çështja kryesore është se corpus është biblioteka-si, që përmban një nga çdo libër. Si rezultat, një individ, autor pjellor është në gjendje të ndjeshëm futur fraza të reja në leksik Google Books. Për më tepër, tekste shkencore përbëjnë një pjesë gjithnjë e më thelbësor të korpusit të gjithë të viteve 1900. Përveç kësaj, duke krahasuar dy versione të dhënash fantastiko-anglisht, Pechenick et al. gjeti prova se filtrimi i pamjaftueshëm është përdorur në prodhimin versionin e parë. Të gjitha të dhënat e nevojshme për aktivitet është në dispozicion këtu: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. Në Michel et al. 'S letër origjinale (2011) , ata kanë përdorur versionin e 1-rë e të dhënave vendosur angleze, komplotoi frekuencën e përdorimit të viteve "1880", "1912" dhe "1973", dhe arriti në përfundimin se "ne jemi harruar të kaluarën tonë të shpejtë me kalimin e çdo viti "(Fig. 3A, Michel et al.). Përsëris të njëjtën komplot duke përdorur 1) versionin 1 e korpusit, angleze CCD (njëjtë si Fig. 3A, Michel et al.)
2. Tani përsëris të njëjtën komplot me versionin e 1, English fiction CCD.
3. Tani përsëris të njëjtën komplot me versionin e 2-të të korpusit, angleze CCD.
4. Së fundi, të përsëris të njëjtën komplot me versionin 2, English fiction CCD.
5. Përshkruani dallimet dhe ngjashmëritë midis këtyre katër komplote. A jeni dakord me Michel et al. 'S interpretimit origjinal të trendit vërejtur? (Hint: c), dhe d) duhet të jetë i njëjtë me Figurën 16 në Pechenick et al).
6. Tani që ju keni përsëritur këtë një konstatim duke përdorur të ndryshme të Google Books corpora, zgjidhni një tjetër ndryshim gjuhësor apo fenomeneve kulturore paraqitur në Michel et al. 'S letër origjinale. A jeni dakord me interpretimin e tyre në dritën e kufizimeve të paraqitura në Pechenick et al.? Për të bërë argumenti juaj e fortë, provoni të përsëris të njëjtin grafik duke përdorur versione të ndryshme të të dhënave të përcaktuara si më sipër.
[ , , , ] Penney (2016) shqyrton nëse publiciteti i përhapur në lidhje me NSA mbikqyrjes / PRISM (dmth, shpalljet Snowden) në qershor të vitit 2013 është shoqëruar me një rënie të mprehtë dhe të papritur në trafik të artikujve në Wikipedia mbi tema që ngrenë shqetësime privacy. Nëse është kështu, ky ndryshim në sjellje do të jenë në përputhje me një efekt trishtues që rezulton nga mbikqyrjes në masë. Qasja e Penney (2016) është quajtur nganjëherë një dizajn ndërprerë seri koha dhe është e lidhur me qasjet në kapitullin rreth përafrimit eksperimente nga të dhëna vrojtuese (Seksioni 2.4.3).

Për të zgjedhur fjalë kyçe temë, Penney referuar listës së përdorur nga Departamenti Amerikan i Sigurisë Kombëtare për ndjekjen dhe monitorimin e mediave sociale. Lista DHS kategorizon disa terma kërkimi në një sërë çështjesh, dmth "shqetësim për shëndetin", "Sigurisë Infrastruktura" dhe "Terrorizmit." Për grupin e studimit, Penney përdorur dyzet e tetë fjalë kyçe në lidhje me "terrorizmin" (shih Tabelën 8 Shtojca). Ai pastaj grumbulluara Wikipedia pamje artikull akuza në baza mujore për përkatëse dyzet e tetë Wikipedia artikujve për një periudhë tridhjetë e dy muaj, që nga fillimi i janarit të vitit 2012 deri në fund të gushtit të vitit 2014. Për të forcuar argumentin e tij, ai gjithashtu krijoi disa krahasim grupet nga ndjekja pikëpamjet artikull mbi tema të tjera.

Tani, ju do të replikuar dhe zgjeruar Penney (2016) . Të gjitha të dhënat e papërpunuara që ju do të duhet për këtë aktivitet është në dispozicion nga Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Ose ju mund të merrni atë nga R paketë wikipediatrend (Meissner and Team 2016) . Kur ju shkruani-up përgjigjet tuaja, ju lutem vini re se cili burim i të dhënave që përdoren. (Shënim: Ky aktivitet i njëjtë duket edhe në Kapitullin 6)
1. Lexo Penney (2016) dhe të replikuar Figurën 2 e cila tregon shikime faqe për "terrorizëm" faqet -related para dhe pas shpalljes Snowden. Interpretuar gjetjet.
2. Tjetra, përsëris Fig 4A, i cili krahason grupin e studimit ( "terrorizëm" artikuj -related) me një grup krahasuese duke përdorur fjalë kyçe të kategorizohen nën "DHS & tjera Agjencitë" nga lista e DHS (shih Shtojcën Tabela 10). Interpretuar gjetjet.
3. Në pjesën b) që në krahasim me grupin studimore në një grup krahasuese. Penney edhe në krahasim me dy grupet e tjera krahasuese: "Sigurimit Infrastructure" nene -related (Shtojca Tabela 11) dhe në faqet popullore Wikipedia (Shtojca Tabela 12). Ejani me një grup alternativ krahasuese, dhe provë në qoftë se rezultatet nga pjesa b) është e ndjeshme për zgjedhjen tuaj të grupit krahasuese. Të cilat zgjedhja e grupit krahasuese më shumë kuptim? Pse?
4. Autori ka deklaruar se fjalë kyçe në lidhje me "terrorizmin" janë përdorur për të zgjedhur artikujt Wikipedia, sepse qeveria amerikane citoi terrorizmin si një justifikim kyç për praktikat e tij në internet mbikqyrjes. Si një kontroll të këtyre 48 "terrorizëm" fjalë kyçe -related, Penney (2016) gjithashtu kryer një studim mbi MTurk kërkuar anketuarve të Vlerësoni secilën nga fjalë kyçe sa i përket Trouble Qeverisë, Privacy-ndjeshme, dhe shmangien (Tabela Shtojca 7 dhe 8). Replikuar studim mbi MTurk dhe krahasoni rezultatet tuaja.
5. Bazuar në rezultatet në pjesën D) dhe leximin tuaj të shkrimit, a jeni dakord me zgjedhjen e autorit të fjalë kyçe tematike në grupin e studimit? Pse ose pse jo? Nëse jo, çfarë do të sugjeronit në vend?
[ ] Efrati (2016) raporte, në bazë të informacionit konfidencial, se "ndarja total" në Facebook kanë rënë me rreth 5.5% vit mbi vit, ndërsa "sharing origjinale transmetuar" ishte poshtë 21% vit mbi vit. Kjo rënie ka qenë veçanërisht i mprehtë me të përdoruesve të Facebook nën 30 vjeç. Raporti atribuoi rënien dy faktorë. Njëra është rritja e numrit të "miqve" njerëzit kemi në Facebook. Tjetër është që disa aktiviteti ndarja është zhvendosur në mesazheve dhe për konkurrentët si Snapchat. Raporti zbuloi gjithashtu disa taktika Facebook kishte provuar për të rritur ndarjen, duke përfshirë edhe News Feed tweaks algorithm që e bëjnë mesazhet origjinale më të shquar, si dhe përkujtesa periodike e përdoruesve Mesazhe origjinale "Në këtë ditë" disa vjet më parë. Çfarë implikime, nëse ka, ka këto gjetje kanë për studiuesit që duan të përdorin Facebook si një burim i të dhënave?
[ ] Tumasjan et al. (2010) kanë raportuar se përqindja e tweets përmendur një parti politike përputhet me përqindjen e votave që partia e marrë në zgjedhjet parlamentare gjermane në vitin 2009 (Figura 2.9). Me fjalë të tjera, u duk se ju mund të përdorni Twitter për të parashikuar zgjedhjet. Në kohën kur ky studim është publikuar është konsideruar shumë emocionuese, sepse ajo duket të sugjerojnë një përdorim të vlefshme për një burim të përbashkët të të dhënave të mëdha.

Duke pasur parasysh karakteristikat e këqija e të dhënave të mëdha, megjithatë, ju duhet menjëherë të jetë skeptik për këtë rezultat. Gjermanët në Twitter në vitin 2009 kanë qenë mjaft një grup jo-përfaqësues dhe mbështetës të një partie mund të cicëroj në lidhje me politikën më shpesh. Kështu, duket e çuditshme që të gjitha paragjykimeve të mundshme që ju mund të imagjinohet një farë mënyre do të anuluar. Në fakt, rezultatet në Tumasjan et al. (2010) doli të jetë shumë e mirë për të qenë e vërtetë. Në letër e tyre, Tumasjan et al. (2010) konsiderohet gjashtë partive politike: Christian Demokratët (CDU), Christian Social Demokratët (CSU), SPD, liberalët (FDP), të majtë (Die Linke), dhe Partia e Gjelbër (Grüne). Megjithatë, më të përmendur partia gjermane politike në Twitter në atë kohë ishte Partia Pirate (Piraten), një parti që lufton rregullimin e qeverisë e internetit. Kur Partia Pirate është përfshirë në analizë, Twitter përmend bëhet një parashikues i tmerrshëm e rezultateve të zgjedhjeve (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Figura 2.9: Twitter përmend duket për të parashikuar rezultatet e zgjedhjeve gjermane e vitit 2009 (Tumasjan et al. 2010) , Por ky rezultat rezulton të varet nga disa zgjedhje arbitrare dhe të pajustifikuara (Jungherr, Jürgens, and Schoen 2012) .

Më pas, studiues të tjerë në mbarë botën kanë përdorur metoda-të tilla njohës si duke përdorur analizat ndjenjën për të dalluar mes pozitive dhe negative përmend nga palët-për të përmirësuar aftësinë e të dhënave të Twitter për të parashikuar një shumëllojshmëri të llojeve të ndryshme të zgjedhjeve (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Ja se si Huberty (2015) përmbledhur rezultatet e këtyre përpjekjeve për të parashikojnë zgjedhje:

"Të gjitha metodat e njohura parashikimit të bazuar në mediat sociale kanë dështuar, kur objekt i kërkesave të vërtetë largpamëse parashikimi elektoral. Këto dështime duket të jetë për shkak të pronave themelore të mediave sociale, në vend se të vështirësive metodologjike ose algorithmic. Me pak fjalë, media sociale nuk e bëjnë, dhe ndoshta kurrë nuk do të, ofrojnë një, të paanshëm, foto të qëndrueshme përfaqësues të elektoratit; dhe komoditet mostrat e mediave sociale nuk kanë të dhëna të mjaftueshme për të rregulluar këto probleme të postoni hoc ".

Lexoni disa nga hulumtimi që çojnë Huberty (2015) në këtë përfundim, dhe shkruani një memo një faqe të një kandidati politik përshkruar nëse dhe se si Twitter duhet të përdoret për të parashikuar zgjedhje.
[ ] Çfarë është dallimi në mes një sociolog dhe historian? Sipas Goldthorpe (1991) , dallimi kryesor në mes të një sociolog dhe historian është kontrolli mbi mbledhjen e të dhënave. Historianët janë të detyruar të përdorin relike, ndërsa sociologët mund të qepur mbledhjen e tyre të dhënave për qëllime të veçanta. Lexo Goldthorpe (1991) . Si është dallimi në mes sociologjisë dhe historisë në lidhje me idenë e Custommades dhe materiale të gatshme?
[ ] Duke u bazuar në pyetjen e mëparshme, Goldthorpe (1991) tërhoqi një numër të përgjigjeve kritike, duke përfshirë një nga Nicky Hart (1994) që sfidoi përkushtimin Goldthorpe për të qepur të dhënat e bëra. Për të sqaruar kufizimet e mundshme të të dhënave të qepur me porosi, Hart e përshkroi projektin e pasura Worker, një studim i madh për të matur marrëdhëniet në mes të klasës sociale dhe votimin që u zhvillua nga Goldthorpe dhe kolegët në mes të viteve 1960. Si mund të presim nga një dijetar i cili favorizuar projektuar të dhënat mbi të dhënat e gjetura, Project pasura Worker mbledhur të dhëna që u përshtatura për të trajtuar një teori e propozuar kohët e fundit për të ardhmen e klasës shoqërore në një epokë të rritjes së standardeve të jetesës. Por, Goldthorpe dhe kolegët disi "harruar" për të mbledhur informacion në lidhje me sjelljen e votimit të grave. Ja se si Nicky Hart (1994) përmbledh të gjithë episod:

". . . kjo [është] e vështirë të shmanget përfundimi se gratë janë lënë jashtë për shkak se ky "qepur" dataset ishte mbyllur nga një logjikë paradigmatik i cili përjashtuar përvojë femra. I shtyrë nga një vizion teorik të vetëdijes klasës dhe veprimit si preokupimeve meshkuj. . . , Goldthorpe dhe kolegët e tij ndërtoi një sërë provave empirike të cilat ushqyer dhe ushqehen supozimet e tyre teorike në vend të ekspozuar ata në një provë të vlefshme të përshtatshmërisë. "

Hart vazhdoi:

"Gjetjet empirike të Projektit Punëtorëve të pasur na thoni më shumë për vlerat mashkullore që e sociologjisë mesit të shekullit se sa të informuar proceset e shtresimit, politikës dhe jetës materiale."

A mund të mendoni për shembuj të tjerë ku mbledhja qepur me porosi të dhënave ka paragjykimet e kolektorit të dhënave ndërtuar në të? Si krahasohet kjo me ngatërruar algorithmic? Çfarë implikime mund të ketë kjo për kur hulumtuesit duhet të përdorin materiale të gatshme dhe kur ata duhet të përdorin Custommades?
[ ] Në këtë kapitull, unë kontrast të dhënat e mbledhura nga hulumtuesit për hulumtuesit me të dhënat administrative të krijuara nga kompanitë dhe qeveritë. Disa njerëz e quajnë këto të dhëna administrative "gjenden të dhëna", të cilat ata kontrast me "të dhëna të hartuara." Është e vërtetë se të dhënat administrative janë gjetur nga studiuesit, por ato janë gjithashtu të dizajnuara të lartë. Për shembull, kompanitë moderne të teknologjisë së shpenzuar shuma të mëdha të kohës dhe burimeve për të mbledhur dhe kurosh të dhënat e tyre. Kështu, këto të dhënat administrative janë të dyja të gjenden dhe të projektuar, vetëm ajo varet nga perspektiva juaj (Figura 2.10).

Figura 2.10: Tabloja është edhe një rosë dhe një lepuri; ajo që ju shihni varet nga perspektiva juaj. Qeverisë dhe të biznesit të dhënat administrative janë të dyja të gjenden dhe të projektuar; ajo që ju shihni varet nga perspektiva juaj. Për shembull, të dhënat e thirrjes e të dhënave të mbledhura nga kompania e telefonit celular janë gjetur të dhëna nga perspektiva e një studiues. Por, këto të dhëna të sakta të njëjta janë të dizajnuara të dhënave perspektivën e dikujt që punon në departamentin e faturimit të kompanisë telefonike. Burimi: Wikimedia Commons

Japin një shembull të burimit të të dhënave, ku duke e parë atë edhe si gjeti dhe i projektuar është e dobishme kur duke përdorur këtë burim të të dhënave për hulumtim.
[ ] Në një ese i zhytur në mendime, Christian Sandvig dhe Eszter Hargittai (2015) përshkruajnë dy lloje të hulumtimit dixhitale, ku sistemi dixhital është "instrument" ose "objekt i studimit." Një shembull i llojit të parë të studimit është se ku Bengtsson dhe kolegët (2011) e përdorur të dhënat e telefonit celular për të ndjekur migrimin pas tërmetit në Haiti në vitin 2010. Një shembull i llojit të dytë është ajo ku Jensen (2007) studime se si futja e telefonave celularë në të gjithë Kerala, India ndikuar në funksionimin e tregut për peshk. Unë të gjeni këtë të dobishme për shkak se ajo sqaron se studimet që përdorin burimet e të dhënave digjitale mund të kenë qëllime krejt të ndryshme, edhe në qoftë se ata janë duke përdorur të njëjtin lloj të burimit të të dhënave. Për të sqaruar më tej këtë dallim, përshkruani katër studime që e keni parë: dy që përdorin një sistem dixhital si një instrument dhe dy që përdorin një sistem dixhital si një objekt i studimit. Ju mund të përdorni shembuj nga ky kapitull, nëse ju dëshironi.