Celes:
[ , ] Ngatërruar algorithmic ishte një problem me Google gripit Trendet. Lexoni gazeta me Lazer et al. (2014) , dhe shkruani një email të shkurtër, të qartë për një inxhinier në Google shpjeguar problemin dhe ofron një ide se si për të zgjidhur problemin.
[ ] Bollen, Mao, and Zeng (2011) pohon se të dhënat nga Twitter mund të përdoret për të parashikuar në tregun e aksioneve. Ky zbulim çoi në krijimin e një fond-DERWENT gardh Capital Markets-për të investuar në tregun e aksioneve bazuar në të dhënat e mbledhura nga Twitter (Jordan 2010) . Çfarë provash do të dëshironi të shihni para se të vënë paratë tuaja në këtë fond?
[ ] Ndërsa disa avokatë e shëndetit publik breshër e-cigare si një ndihmë efektive për ndërprerjen e duhanit, të tjerë paralajmërojnë për rreziqet e mundshme, të tilla si të lartë-nivelet e nikotinës. Imagjinoni që një studiues vendos për të studiuar opinionin publik drejt e-cigaret duke mbledhur postimet e-cigare-lidhur Twitter dhe kryerjen e analizave ndjenjave.
[ ] Në nëntor të vitit 2009, Twitter ka ndryshuar pyetjen në kutinë cicërimë nga "Çfarë po bën?" Për të "Çfarë po ndodh?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) ka analizuar 41.7 milionë profilet e përdoruesve, 1.47 miliardë marrëdhëniet shoqërore, 4262 tema trending, dhe 106 milionë tweets në mes të 6 qershor dhe 31 qershor, 2009. Në bazë të kësaj analize kanë arritur në përfundimin se Twitter e shërben më shumë si një medium të ri të shkëmbimit të informacionit se një rrjet social.
[ ] "Retweets" shpesh përdoren për të matur ndikimin dhe përhapjen e ndikimit në Twitter. Fillimisht, përdoruesit duhej të kopjoni dhe ngjisni cicërimë që ata i pëlqente, tag autori origjinal me dorezë të tij / saj, dhe me dorë tipit "RT" para cicërimë për të treguar se kjo është një retweet. Më pas, në vitin 2009 Twitter ka shtuar një buton "retweet". Në qershor të vitit 2016, Twitter ka bërë të mundur për përdoruesit për të retweet tweets e tyre (https://twitter.com/twitter/status/742749353689780224). A mendoni se këto ndryshime duhet të ndikojnë se si ju përdorni "retweets" në kërkimin tënd? Pse ose pse jo?
[ , , ] Michel et al. (2011) ndërtuar një korpus del nga përpjekjet e Google për të digjitalizuar libra. Duke përdorur versionin e parë të korpusit, i cili u botua në vitin 2009 dhe që përmban më shumë se 5 milionë libra të digjitalizuar, autorët analizuar përdorimin fjalën frekuencë të hetuar ndryshimet gjuhësore dhe trendet kulturore. Së shpejti Books Google Corpus u bë një burim popullor të dhënave për hulumtuesit, dhe një version 2 të dhënave u lirua në vitin 2012.
Megjithatë, Pechenick, Danforth, and Dodds (2015) paralajmëroi se studiuesit duhet të karakterizojë plotësisht procesin e marrjes së mostrave të korpusit para se të përdorni atë për nxjerrjen e konkluzioneve të gjerë. Çështja kryesore është se corpus është biblioteka-si, që përmban një nga çdo libër. Si rezultat, një individ, autor pjellor është në gjendje të ndjeshëm futur fraza të reja në leksik Google Books. Për më tepër, tekste shkencore përbëjnë një pjesë gjithnjë e më thelbësor të korpusit të gjithë të viteve 1900. Përveç kësaj, duke krahasuar dy versione të dhënash fantastiko-anglisht, Pechenick et al. gjeti prova se filtrimi i pamjaftueshëm është përdorur në prodhimin versionin e parë. Të gjitha të dhënat e nevojshme për aktivitet është në dispozicion këtu: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) shqyrton nëse publiciteti i përhapur në lidhje me NSA mbikqyrjes / PRISM (dmth, shpalljet Snowden) në qershor të vitit 2013 është shoqëruar me një rënie të mprehtë dhe të papritur në trafik të artikujve në Wikipedia mbi tema që ngrenë shqetësime privacy. Nëse është kështu, ky ndryshim në sjellje do të jenë në përputhje me një efekt trishtues që rezulton nga mbikqyrjes në masë. Qasja e Penney (2016) është quajtur nganjëherë një dizajn ndërprerë seri koha dhe është e lidhur me qasjet në kapitullin rreth përafrimit eksperimente nga të dhëna vrojtuese (Seksioni 2.4.3).
Për të zgjedhur fjalë kyçe temë, Penney referuar listës së përdorur nga Departamenti Amerikan i Sigurisë Kombëtare për ndjekjen dhe monitorimin e mediave sociale. Lista DHS kategorizon disa terma kërkimi në një sërë çështjesh, dmth "shqetësim për shëndetin", "Sigurisë Infrastruktura" dhe "Terrorizmit." Për grupin e studimit, Penney përdorur dyzet e tetë fjalë kyçe në lidhje me "terrorizmin" (shih Tabelën 8 Shtojca). Ai pastaj grumbulluara Wikipedia pamje artikull akuza në baza mujore për përkatëse dyzet e tetë Wikipedia artikujve për një periudhë tridhjetë e dy muaj, që nga fillimi i janarit të vitit 2012 deri në fund të gushtit të vitit 2014. Për të forcuar argumentin e tij, ai gjithashtu krijoi disa krahasim grupet nga ndjekja pikëpamjet artikull mbi tema të tjera.
Tani, ju do të replikuar dhe zgjeruar Penney (2016) . Të gjitha të dhënat e papërpunuara që ju do të duhet për këtë aktivitet është në dispozicion nga Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Ose ju mund të merrni atë nga R paketë wikipediatrend (Meissner and Team 2016) . Kur ju shkruani-up përgjigjet tuaja, ju lutem vini re se cili burim i të dhënave që përdoren. (Shënim: Ky aktivitet i njëjtë duket edhe në Kapitullin 6)
[ ] Efrati (2016) raporte, në bazë të informacionit konfidencial, se "ndarja total" në Facebook kanë rënë me rreth 5.5% vit mbi vit, ndërsa "sharing origjinale transmetuar" ishte poshtë 21% vit mbi vit. Kjo rënie ka qenë veçanërisht i mprehtë me të përdoruesve të Facebook nën 30 vjeç. Raporti atribuoi rënien dy faktorë. Njëra është rritja e numrit të "miqve" njerëzit kemi në Facebook. Tjetër është që disa aktiviteti ndarja është zhvendosur në mesazheve dhe për konkurrentët si Snapchat. Raporti zbuloi gjithashtu disa taktika Facebook kishte provuar për të rritur ndarjen, duke përfshirë edhe News Feed tweaks algorithm që e bëjnë mesazhet origjinale më të shquar, si dhe përkujtesa periodike e përdoruesve Mesazhe origjinale "Në këtë ditë" disa vjet më parë. Çfarë implikime, nëse ka, ka këto gjetje kanë për studiuesit që duan të përdorin Facebook si një burim i të dhënave?
[ ] Tumasjan et al. (2010) kanë raportuar se përqindja e tweets përmendur një parti politike përputhet me përqindjen e votave që partia e marrë në zgjedhjet parlamentare gjermane në vitin 2009 (Figura 2.9). Me fjalë të tjera, u duk se ju mund të përdorni Twitter për të parashikuar zgjedhjet. Në kohën kur ky studim është publikuar është konsideruar shumë emocionuese, sepse ajo duket të sugjerojnë një përdorim të vlefshme për një burim të përbashkët të të dhënave të mëdha.
Duke pasur parasysh karakteristikat e këqija e të dhënave të mëdha, megjithatë, ju duhet menjëherë të jetë skeptik për këtë rezultat. Gjermanët në Twitter në vitin 2009 kanë qenë mjaft një grup jo-përfaqësues dhe mbështetës të një partie mund të cicëroj në lidhje me politikën më shpesh. Kështu, duket e çuditshme që të gjitha paragjykimeve të mundshme që ju mund të imagjinohet një farë mënyre do të anuluar. Në fakt, rezultatet në Tumasjan et al. (2010) doli të jetë shumë e mirë për të qenë e vërtetë. Në letër e tyre, Tumasjan et al. (2010) konsiderohet gjashtë partive politike: Christian Demokratët (CDU), Christian Social Demokratët (CSU), SPD, liberalët (FDP), të majtë (Die Linke), dhe Partia e Gjelbër (Grüne). Megjithatë, më të përmendur partia gjermane politike në Twitter në atë kohë ishte Partia Pirate (Piraten), një parti që lufton rregullimin e qeverisë e internetit. Kur Partia Pirate është përfshirë në analizë, Twitter përmend bëhet një parashikues i tmerrshëm e rezultateve të zgjedhjeve (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Më pas, studiues të tjerë në mbarë botën kanë përdorur metoda-të tilla njohës si duke përdorur analizat ndjenjën për të dalluar mes pozitive dhe negative përmend nga palët-për të përmirësuar aftësinë e të dhënave të Twitter për të parashikuar një shumëllojshmëri të llojeve të ndryshme të zgjedhjeve (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Ja se si Huberty (2015) përmbledhur rezultatet e këtyre përpjekjeve për të parashikojnë zgjedhje:
"Të gjitha metodat e njohura parashikimit të bazuar në mediat sociale kanë dështuar, kur objekt i kërkesave të vërtetë largpamëse parashikimi elektoral. Këto dështime duket të jetë për shkak të pronave themelore të mediave sociale, në vend se të vështirësive metodologjike ose algorithmic. Me pak fjalë, media sociale nuk e bëjnë, dhe ndoshta kurrë nuk do të, ofrojnë një, të paanshëm, foto të qëndrueshme përfaqësues të elektoratit; dhe komoditet mostrat e mediave sociale nuk kanë të dhëna të mjaftueshme për të rregulluar këto probleme të postoni hoc ".
Lexoni disa nga hulumtimi që çojnë Huberty (2015) në këtë përfundim, dhe shkruani një memo një faqe të një kandidati politik përshkruar nëse dhe se si Twitter duhet të përdoret për të parashikuar zgjedhje.
[ ] Çfarë është dallimi në mes një sociolog dhe historian? Sipas Goldthorpe (1991) , dallimi kryesor në mes të një sociolog dhe historian është kontrolli mbi mbledhjen e të dhënave. Historianët janë të detyruar të përdorin relike, ndërsa sociologët mund të qepur mbledhjen e tyre të dhënave për qëllime të veçanta. Lexo Goldthorpe (1991) . Si është dallimi në mes sociologjisë dhe historisë në lidhje me idenë e Custommades dhe materiale të gatshme?
[ ] Duke u bazuar në pyetjen e mëparshme, Goldthorpe (1991) tërhoqi një numër të përgjigjeve kritike, duke përfshirë një nga Nicky Hart (1994) që sfidoi përkushtimin Goldthorpe për të qepur të dhënat e bëra. Për të sqaruar kufizimet e mundshme të të dhënave të qepur me porosi, Hart e përshkroi projektin e pasura Worker, një studim i madh për të matur marrëdhëniet në mes të klasës sociale dhe votimin që u zhvillua nga Goldthorpe dhe kolegët në mes të viteve 1960. Si mund të presim nga një dijetar i cili favorizuar projektuar të dhënat mbi të dhënat e gjetura, Project pasura Worker mbledhur të dhëna që u përshtatura për të trajtuar një teori e propozuar kohët e fundit për të ardhmen e klasës shoqërore në një epokë të rritjes së standardeve të jetesës. Por, Goldthorpe dhe kolegët disi "harruar" për të mbledhur informacion në lidhje me sjelljen e votimit të grave. Ja se si Nicky Hart (1994) përmbledh të gjithë episod:
". . . kjo [është] e vështirë të shmanget përfundimi se gratë janë lënë jashtë për shkak se ky "qepur" dataset ishte mbyllur nga një logjikë paradigmatik i cili përjashtuar përvojë femra. I shtyrë nga një vizion teorik të vetëdijes klasës dhe veprimit si preokupimeve meshkuj. . . , Goldthorpe dhe kolegët e tij ndërtoi një sërë provave empirike të cilat ushqyer dhe ushqehen supozimet e tyre teorike në vend të ekspozuar ata në një provë të vlefshme të përshtatshmërisë. "
Hart vazhdoi:
"Gjetjet empirike të Projektit Punëtorëve të pasur na thoni më shumë për vlerat mashkullore që e sociologjisë mesit të shekullit se sa të informuar proceset e shtresimit, politikës dhe jetës materiale."
A mund të mendoni për shembuj të tjerë ku mbledhja qepur me porosi të dhënave ka paragjykimet e kolektorit të dhënave ndërtuar në të? Si krahasohet kjo me ngatërruar algorithmic? Çfarë implikime mund të ketë kjo për kur hulumtuesit duhet të përdorin materiale të gatshme dhe kur ata duhet të përdorin Custommades?
[ ] Në këtë kapitull, unë kontrast të dhënat e mbledhura nga hulumtuesit për hulumtuesit me të dhënat administrative të krijuara nga kompanitë dhe qeveritë. Disa njerëz e quajnë këto të dhëna administrative "gjenden të dhëna", të cilat ata kontrast me "të dhëna të hartuara." Është e vërtetë se të dhënat administrative janë gjetur nga studiuesit, por ato janë gjithashtu të dizajnuara të lartë. Për shembull, kompanitë moderne të teknologjisë së shpenzuar shuma të mëdha të kohës dhe burimeve për të mbledhur dhe kurosh të dhënat e tyre. Kështu, këto të dhënat administrative janë të dyja të gjenden dhe të projektuar, vetëm ajo varet nga perspektiva juaj (Figura 2.10).
Japin një shembull të burimit të të dhënave, ku duke e parë atë edhe si gjeti dhe i projektuar është e dobishme kur duke përdorur këtë burim të të dhënave për hulumtim.
[ ] Në një ese i zhytur në mendime, Christian Sandvig dhe Eszter Hargittai (2015) përshkruajnë dy lloje të hulumtimit dixhitale, ku sistemi dixhital është "instrument" ose "objekt i studimit." Një shembull i llojit të parë të studimit është se ku Bengtsson dhe kolegët (2011) e përdorur të dhënat e telefonit celular për të ndjekur migrimin pas tërmetit në Haiti në vitin 2010. Një shembull i llojit të dytë është ajo ku Jensen (2007) studime se si futja e telefonave celularë në të gjithë Kerala, India ndikuar në funksionimin e tregut për peshk. Unë të gjeni këtë të dobishme për shkak se ajo sqaron se studimet që përdorin burimet e të dhënave digjitale mund të kenë qëllime krejt të ndryshme, edhe në qoftë se ata janë duke përdorur të njëjtin lloj të burimit të të dhënave. Për të sqaruar më tej këtë dallim, përshkruani katër studime që e keni parë: dy që përdorin një sistem dixhital si një instrument dhe dy që përdorin një sistem dixhital si një objekt i studimit. Ju mund të përdorni shembuj nga ky kapitull, nëse ju dëshironi.