[ , ] Përmbysja algoritmike ishte një problem me Google Trendet e gripit. Lexoni letrën nga Lazer et al. (2014) dhe shkruani një email të shkurtër dhe të qartë tek një inxhinier në Google duke shpjeguar problemin dhe duke ofruar një ide se si ta rregullohet.
[ ] Bollen, Mao, and Zeng (2011) pohojnë se të dhënat nga Twitter mund të përdoren për të parashikuar tregun e aksioneve. Kjo gjetje çoi në krijimin e një fondi gardh - Derwent Capital Markets - për të investuar në tregun e aksioneve bazuar në të dhënat e mbledhura nga Twitter (Jordan 2010) . Çfarë provash dëshironi të shihni para se të vendosni paratë tuaja në atë fond?
[ Ndërsa disa avokatë të shëndetit publik e konsiderojnë cigare elektronike një ndihmë efektive për ndërprerjen e pirjes së duhanit, të tjerët paralajmërojnë për rreziqet potenciale, siç janë nivelet e larta të nikotinës. Paramendoni se një studiues vendos të studiojë opinionin publik ndaj cigareve elektronike duke mbledhur postimet në Twitter të lidhura me e-cigaret dhe duke kryer analiza sentimentale.
[ ] Në nëntor të vitit 2009, Twitter ndryshoi pyetjen në kutinë e cicërimeve nga "Çfarë po bën?" Në "Çfarë po ndodh?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" shpesh përdoren për të matur ndikimin dhe përhapjen e ndikimit në Twitter. Fillimisht, përdoruesit duhej të kopjonin dhe ngjisnin cicërimat që u pëlqenin, tag autorin origjinal me dorezën e tij / saj dhe shtypni manualisht "RT" para cicëroj për të treguar se ishte retweet. Pastaj, në vitin 2009, Twitter shtoi një buton "retweet". Në qershor 2016, Twitter bëri të mundur që përdoruesit të retweet tweet e tyre (https://twitter.com/twitter/status/742749353689780224). A mendoni se këto ndryshime duhet të ndikojnë në mënyrën se si përdorni "retweets" në hulumtimin tuaj? Pse ose pse jo?
[ , , , ] Në një letër të diskutuar gjerësisht, Michel dhe kolegët (2011) analizuan përmbajtjen e më shumë se pesë milionë librave të digjitalizuar në një përpjekje për të identifikuar tendencat kulturore afatgjata. Të dhënat që përdorën tani janë lëshuar si skedari i të dhënave të Google NGrams dhe kështu mund t'i përdorim të dhënat për të përsëritur dhe për të zgjeruar disa prej punës së tyre.
Në një nga rezultatet e shumta në letër, Michel dhe kolegët e tyre argumentuan se po harrojmë më shpejt dhe më shpejt. Për një vit të caktuar, thuaj "1883", ata llogaritën përqindjen e 1 gram të botuar në çdo vit ndërmjet 1875 dhe 1975 që ishin "1883". Ata arsyetuan se ky proporcion është një masë e interesit për ngjarjet që ndodhën në atë vit. Në figurën e tyre 3a, ata përshkruan trajektoret e përdorimit për tre vjet: 1883, 1910 dhe 1950. Këto tre vjet ndajnë një model të përbashkët: përdorim pak para atij viti, pastaj një thua, pastaj kalbje. Më pas, për të përcaktuar shkallën e prishjes për çdo vit, Michel dhe kolegët llogarisnin "gjysmën e jetës" të çdo viti për të gjitha vitet ndërmjet viteve 1875 dhe 1975. Në figurën 3a (inset), ata treguan se gjysmën e jetës së secilit viti po zvogëlohet, dhe ata argumentuan se kjo do të thotë që po e harrojmë të kaluarën më shpejt dhe më shpejt. Ata përdorën versionin 1 të korpusit të gjuhës angleze, por më pas Google ka lëshuar një version të dytë të korpusit. Ju lutemi lexoni të gjitha pjesët e pyetjes para se të filloni kodimin.
Ky aktivitet do t'ju japë praktikë të shkruani kodin riusabilitues, interpretimin e rezultateve dhe grindjet e të dhënave (si puna me skedarët e çuditshëm dhe trajtimi i të dhënave që mungojnë). Ky aktivitet do t'ju ndihmojë të merrni dhe të vraponi me një grup të dhënash të pasur dhe interesant.
Merrni të dhënat e papërpunuara nga faqja e Google NGram Viewer. Në veçanti, ju duhet të përdorni versionin 2 të korpusit të gjuhës angleze, i cili u lirua më 1 korrik, 2012. Pakomplikuar, ky skedar është 1.4GB.
Rilindja e pjesës kryesore të figurës 3a të Michel et al. (2011) . Për të rikrijuar këtë shifër, ju do të duhet dy skedarë: ajo që keni shkarkuar pjesërisht (a) dhe skedari "total counts", të cilat mund t'i përdorni për të konvertuar llogaritë e papërpunuara në përmasa. Vini re se skeda e totalit të akuzave ka një strukturë që mund ta bëjë atë paksa të vështirë për t'u lexuar. A ka versionin 2 të të dhënave të NGram-it rezultate të ngjashme me ato të paraqitura në Michel et al. (2011) , të cilat bazohen në të dhënat e versionit 1?
Tani kontrolloni grafikun tuaj kundër grafikës së krijuar nga NGram Viewer.
Rivendosni figurën 3a (figura kryesore), por ndryshoni \(y\) -axis të jetë numërimi i parave të përmendura (jo norma e përmendjeve).
A dallon dallimi midis (b) dhe (d) që të rivlerësoni ndonjë nga rezultatet e Michel et al. (2011). Pse ose pse jo?
Tani, duke përdorur përqindjen e përmendur, përsërisni pjesën e figurës 3a. Kjo është, për çdo vit midis 1875 dhe 1975, llogaritni gjysmën e jetës së atij viti. Gjysma e jetës është përcaktuar të jetë numri i viteve që kalojnë përpara se proporcioni i përmendjeve të arrijë gjysmën e vlerës së tij maksimale. Vini re se Michel et al. (2011) bëjnë diçka më të komplikuar për të vlerësuar gjysmën e jetës - shih seksionin III.6 të Informacionit mbështetës online - por ata pretendojnë se të dy qasjet prodhojnë rezultate të ngjashme. A version 2 i të dhënave NGram prodhojnë rezultate të ngjashme me ato të paraqitura në Michel et al. (2011) , të cilat bazohen në të dhënat e versionit 1? (Hint: Mos u habitni nëse nuk ka.)
A ka pasur ndonjë vit që ishte më i madh se vitet që u harruan veçanërisht shpejt ose veçanërisht ngadalë? Shprehni shkurtimisht arsyet e mundshme për këtë model dhe shpjegoni se si i keni identifikuar ata që outliers.
Tani riprodhoni këtë rezultat për versionin 2 të të dhënave të NGrams në kinezisht, frëngjisht, gjermanisht, hebraisht, italisht, rusisht dhe spanjisht.
Krahasimi në të gjitha gjuhët, a ka pasur ndonjë vit që ishte më i madh, të tilla si vitet që u harruan veçanërisht shpejt ose veçanërisht ngadalë? Shprehni shkurtimisht arsyet e mundshme për këtë model.
[ , , , ] Penney (2016) hulumtoi nëse publiciteti i gjerë rreth survejimit të NSA / PRISM (dmth. Zbulimet e Snowden) në qershor 2013 ishte shoqëruar me një rënie të mprehtë dhe të papritur të trafikut të artikujve të Wikipedia-s mbi temat që ngrenë shqetësimet e privatësisë. Nëse është kështu, ky ndryshim në sjellje do të ishte në përputhje me një efekt ngricues që rezultoi nga mbikëqyrja masive. Qasja e Penney (2016) nganjëherë quhet një ndërprerje e dizajnit të serive kohore dhe lidhet me qasjet e përshkruara në seksionin 2.4.3.
Për të zgjedhur fjalët e temave, Penney iu referua listës së përdorur nga Departamenti Amerikan i Sigurisë Kombëtare për ndjekjen dhe monitorimin e mediave sociale. Lista e DHS-së kategorizon disa terma kërkimi në një sërë çështjesh, p.sh. "Shqetësimet Shëndetësore", "Siguria e Infrastrukturës" dhe "Terrorizmi". Për grupin e studimit Penney ka përdorur 48 fjalë kyçe që lidhen me "Terrorizmin" (shih shtojcën 8 ). Më pas, ai përmblodhi numërimet mujore të artikujve të Wikipedianit për 48 artikujt përkatës të Wikipedia-s gjatë një periudhe 32-mujore, që nga fillimi i janarit 2012 deri në fund të gushtit 2014. Për të forcuar argumentin e tij, ai gjithashtu krijoi disa grupe krahasuese duke ndjekur pikëpamjet e artikullit mbi tema të tjera.
Tani, ju do të përsërisni dhe zgjasni Penney (2016) . Të gjitha të dhënat e papërpunuara që ju nevojiten për këtë aktivitet janë në dispozicion nga Wikipedia. Ose mund ta merrni nga paketa R-wikipediatrend (Meissner and R Core Team 2016) . Kur shkruani përgjigjet tuaja, ju lutemi shënoni cili burim i të dhënave keni përdorur. (Vini re se ky veprim i njëjtë shfaqet edhe në kapitullin 6.) Ky aktivitet do t'ju japë praktikë në grindjet e të dhënave dhe të menduarit rreth eksperimenteve natyrore në burimet e mëdha të të dhënave. Ajo gjithashtu do të merrni ju dhe drejtimin me një burim potencialisht interesant të të dhënave për projektet e ardhshme.
[ ] Efrati (2016) raportoi, bazuar në informacionin konfidencial, se "ndarja totale" në Facebook kishte rënë me rreth 5.5% në vit, ndërsa "ndarja fillestare e transmetimit" ishte poshtë 21% në vit. Kjo rënie ishte veçanërisht e mprehtë me përdoruesit e Facebook nën 30 vjeç. Raporti ia atribuoi rënien dy faktorëve. Njëra është rritja e numrit të njerëzve "miq" që kanë në Facebook. E dyta është se disa aktivitete të përbashkëta kanë kaluar tek mesazhet dhe tek konkurrentët si Snapchat. Raporti gjithashtu zbuloi disa taktika që Facebook kishte përpjekur të rriste ndarjen, duke përfshirë tweaks të algoritmit të News Feed që i bëjnë postimet origjinale më të shquara, si dhe përkujtuesit periodikë të postimeve origjinale me tiparin "On This Day". Cilat implikime, nëse ka, a kanë këto gjetje për studiuesit që duan të përdorin Facebook si burim të të dhënave?
[ ] Cili është dallimi midis një sociologu dhe një historiani? Sipas Goldthorpe (1991) , dallimi kryesor është kontrolli mbi grumbullimin e të dhënave. Historianët janë të detyruar të përdorin relike, ndërsa sociologët mund të përshtasin mbledhjen e tyre të të dhënave për qëllime specifike. Lexoni Goldthorpe (1991) . Si është dallimi midis sociologjisë dhe historisë që lidhet me idenë e kujdestarëve dhe lexuesve?
[ ] Kjo ndërton mbi quesiton mëparshëm. Goldthorpe (1991) tërhoqi një numër përgjigjesh kritike, duke përfshirë një nga Nicky Hart (1994) që sfidoi përkushtimin e Goldthorpe për të bërë të dhëna të përshtatura. Për të sqaruar kufizimet e mundshme të të dhënave të përshtatura, Hart përshkroi Projekti i Punëtorëve të pasur, një studim i madh për të matur marrëdhëniet midis klasës sociale dhe votimit që u zhvillua nga Goldthorpe dhe kolegët e tij në mes të viteve 1960. Siç mund të pritet nga një dijetar i cili favorizoi të dhënat e dizajnuara mbi të dhënat e gjetura, Projekti i Punëtorëve të pasur grumbulloi të dhëna të përshtatura për të adresuar një teori të propozuar kohët e fundit për të ardhmen e klasës sociale në një epokë të rritjes së standardeve të jetesës. Por, Goldthorpe dhe kolegët disi "harruan" për të mbledhur informacion rreth sjelljes së votimit të grave. Ja se si Nicky Hart (1994) përmblodhi gjithë episodin:
"... është e vështirë për të shmangur përfundimin se gratë janë lënë pas dore, sepse ky grup i" rrobaqepësisë "ishte i kufizuar nga një logjikë paradigmë e cila përjashtoi përvojën e femrës. Të nxitur nga një vizion teorik i ndërgjegjësimit dhe veprimit të klasës si preokupime mashkullore ..., Goldthorpe dhe kolegët e tij ndërtuan një sërë provash empirike të cilat ushqyen dhe ushqyen supozimet e tyre teorike në vend që t'i ekspozonin ato në një provë të vlefshme të mjaftueshmërisë ".
Hart vazhdoi:
"Gjetjet empirike të Projektit të Punëtorëve të Pasurisë na tregojnë më shumë rreth vlerave mashkullore të sociologjisë së shekullit të mesëm se ato të informojnë proceset e shtresimit, politikës dhe jetës materiale".
A mund të mendoni për shembuj të tjerë ku grumbullimi i të dhënave sipas dëshirës ka paragjykimet e koleksionit të të dhënave të ndërtuara në të? Si e krahason kjo me konfuzionin algoritmike? Cilat implikime mund të kenë kjo për kur hulumtuesit duhet të përdorin readymades dhe kur ata duhet të përdorin custommades?
[ ] Në këtë kapitull kam kontrastuar të dhënat e mbledhura nga kërkuesit për hulumtuesit me të dhënat administrative të krijuara nga kompanitë dhe qeveritë. Disa njerëz i quajnë këto të dhëna administrative "të gjetura të dhëna", të cilat ato dallojnë me "të dhënat e dizajnuara". Është e vërtetë se të dhënat administrative gjenden nga hulumtuesit, por ato gjithashtu janë shumë të dizajnuara. Për shembull, kompanitë moderne të teknologjisë punojnë shumë vështirë për të mbledhur dhe përpunuar të dhënat e tyre. Kështu, këto të dhëna administrative gjenden dhe dizajnohen, varet vetëm nga perspektiva juaj (figura 2.12).
Jepni një shembull të burimit të të dhënave kur ta shohësh atë si të gjetur dhe të dizajnuar, është e dobishme kur përdorni atë burim të të dhënave për kërkime.
[ ] Në një ese të zhytur në mendime, Christian Sandvig dhe Eszter Hargittai (2015) ndanë kërkimet digjitale në dy kategori të mëdha në varësi të faktit nëse sistemi dixhital është një "instrument" ose "objekt i studimit". Një shembull i llojit të parë - ku sistemi është një instrument - është hulumtimi nga Bengtsson dhe kolegët (2011) mbi përdorimin e të dhënave të telefonisë mobile për të ndjekur migrimin pas tërmetit në Haiti në vitin 2010. Një shembull i llojit të dytë - ku sistemi është një objekt studimi - është hulumtimi nga Jensen (2007) mbi mënyrën se si futja e telefonave celularë në të gjithë Kerala, Indi ndikoi në funksionimin e tregut të peshkut. E gjej këtë dallim të dobishëm sepse sqaron se studimet që përdorin burimet dixhitale të të dhënave mund të kenë qëllime mjaft të ndryshme edhe nëse ato përdorin të njëjtin burim të të dhënave. Për të sqaruar më tej këtë dallim, përshkruani katër studime që keni parë: dy që përdorin një sistem dixhital si një instrument dhe dy që përdorin një sistem dixhital si një objekt studimi. Ju mund të përdorni shembuj nga ky kapitull nëse dëshironi.