aktivitetet

  • shkalla e vështirësisë: e lehtë i lehtë , të mesme medium , e vështirë i vështirë , shume e veshtire shume e veshtire
  • kërkon matematikë ( kërkon matematikë )
  • kërkon kodim ( kërkon kodim )
  • Mbledhja e të dhënave ( Mbledhja e të dhënave )
  • te Preferuarat e mia ( my favorite )
  1. [ medium , my favorite ] Përmbysja algoritmike ishte një problem me Google Trendet e gripit. Lexoni letrën nga Lazer et al. (2014) dhe shkruani një email të shkurtër dhe të qartë tek një inxhinier në Google duke shpjeguar problemin dhe duke ofruar një ide se si ta rregullohet.

  2. [ medium ] Bollen, Mao, and Zeng (2011) pohojnë se të dhënat nga Twitter mund të përdoren për të parashikuar tregun e aksioneve. Kjo gjetje çoi në krijimin e një fondi gardh - Derwent Capital Markets - për të investuar në tregun e aksioneve bazuar në të dhënat e mbledhura nga Twitter (Jordan 2010) . Çfarë provash dëshironi të shihni para se të vendosni paratë tuaja në atë fond?

  3. [ i lehtë Ndërsa disa avokatë të shëndetit publik e konsiderojnë cigare elektronike një ndihmë efektive për ndërprerjen e pirjes së duhanit, të tjerët paralajmërojnë për rreziqet potenciale, siç janë nivelet e larta të nikotinës. Paramendoni se një studiues vendos të studiojë opinionin publik ndaj cigareve elektronike duke mbledhur postimet në Twitter të lidhura me e-cigaret dhe duke kryer analiza sentimentale.

    1. Cilat janë tri paragjykimet e mundshme për të cilat jeni më i shqetësuar në këtë studim?
    2. Clark et al. (2016) vrapoi vetëm një studim i tillë. Së pari, ata grumbulluan 850,000 tweets që përdorën fjalë kyçe të lidhur me cigaret nga janari 2012 deri në dhjetor 2014. Pas inspektimit më të afërt, ata kuptuan se shumë prej këtyre twejeve ishin të automatizuara (dmth. Nuk prodhoheshin nga njerëzit) dhe shumë nga këto tweete të automatizuara ishin në thelb reklama. Ata zhvilluan një algoritëm zbulimi njerëzor për të ndarë tweets automatizuar nga tweets organike. Duke përdorur këtë algoritëm të zbulimit të njeriut ata gjetën se 80% e tweets ishin të automatizuar. A e ndryshon kjo gjetje përgjigjen tuaj në pjesën (a)?
    3. Kur ata e krahasuan ndjenjën në tweets organike dhe të automatizuar, ata zbuluan se tweetat e automatizuar ishin më pozitive se tweetat organikë (6.17 kundrejt 5.84). A e ndryshon kjo gjetje përgjigjen tuaj në (b)?
  4. [ i lehtë ] Në nëntor të vitit 2009, Twitter ndryshoi pyetjen në kutinë e cicërimeve nga "Çfarë po bën?" Në "Çfarë po ndodh?" (Https://blog.twitter.com/2009/whats-happening).

    1. Si mendoni se ndryshimi i kërkesave do të ndikojë në cilët tweets dhe / ose atë që tweet?
    2. Emëroni një projekt kërkimor për të cilin ju do të preferonit "Çfarë po bëni?" Shpjegoni pse.
    3. Emëroni një projekt kërkimor për të cilin ju do të preferonit "Çfarë po ndodh?" Shpjegoni pse.
  5. [ i lehtë ] "Retweets" shpesh përdoren për të matur ndikimin dhe përhapjen e ndikimit në Twitter. Fillimisht, përdoruesit duhej të kopjonin dhe ngjisnin cicërimat që u pëlqenin, tag autorin origjinal me dorezën e tij / saj dhe shtypni manualisht "RT" para cicëroj për të treguar se ishte retweet. Pastaj, në vitin 2009, Twitter shtoi një buton "retweet". Në qershor 2016, Twitter bëri të mundur që përdoruesit të retweet tweet e tyre (https://twitter.com/twitter/status/742749353689780224). A mendoni se këto ndryshime duhet të ndikojnë në mënyrën se si përdorni "retweets" në hulumtimin tuaj? Pse ose pse jo?

  6. [ shume e veshtire , Mbledhja e të dhënave , kërkon kodim , my favorite ] Në një letër të diskutuar gjerësisht, Michel dhe kolegët (2011) analizuan përmbajtjen e më shumë se pesë milionë librave të digjitalizuar në një përpjekje për të identifikuar tendencat kulturore afatgjata. Të dhënat që përdorën tani janë lëshuar si skedari i të dhënave të Google NGrams dhe kështu mund t'i përdorim të dhënat për të përsëritur dhe për të zgjeruar disa prej punës së tyre.

    Në një nga rezultatet e shumta në letër, Michel dhe kolegët e tyre argumentuan se po harrojmë më shpejt dhe më shpejt. Për një vit të caktuar, thuaj "1883", ata llogaritën përqindjen e 1 gram të botuar në çdo vit ndërmjet 1875 dhe 1975 që ishin "1883". Ata arsyetuan se ky proporcion është një masë e interesit për ngjarjet që ndodhën në atë vit. Në figurën e tyre 3a, ata përshkruan trajektoret e përdorimit për tre vjet: 1883, 1910 dhe 1950. Këto tre vjet ndajnë një model të përbashkët: përdorim pak para atij viti, pastaj një thua, pastaj kalbje. Më pas, për të përcaktuar shkallën e prishjes për çdo vit, Michel dhe kolegët llogarisnin "gjysmën e jetës" të çdo viti për të gjitha vitet ndërmjet viteve 1875 dhe 1975. Në figurën 3a (inset), ata treguan se gjysmën e jetës së secilit viti po zvogëlohet, dhe ata argumentuan se kjo do të thotë që po e harrojmë të kaluarën më shpejt dhe më shpejt. Ata përdorën versionin 1 të korpusit të gjuhës angleze, por më pas Google ka lëshuar një version të dytë të korpusit. Ju lutemi lexoni të gjitha pjesët e pyetjes para se të filloni kodimin.

    Ky aktivitet do t'ju japë praktikë të shkruani kodin riusabilitues, interpretimin e rezultateve dhe grindjet e të dhënave (si puna me skedarët e çuditshëm dhe trajtimi i të dhënave që mungojnë). Ky aktivitet do t'ju ndihmojë të merrni dhe të vraponi me një grup të dhënash të pasur dhe interesant.

    1. Merrni të dhënat e papërpunuara nga faqja e Google NGram Viewer. Në veçanti, ju duhet të përdorni versionin 2 të korpusit të gjuhës angleze, i cili u lirua më 1 korrik, 2012. Pakomplikuar, ky skedar është 1.4GB.

    2. Rilindja e pjesës kryesore të figurës 3a të Michel et al. (2011) . Për të rikrijuar këtë shifër, ju do të duhet dy skedarë: ajo që keni shkarkuar pjesërisht (a) dhe skedari "total counts", të cilat mund t'i përdorni për të konvertuar llogaritë e papërpunuara në përmasa. Vini re se skeda e totalit të akuzave ka një strukturë që mund ta bëjë atë paksa të vështirë për t'u lexuar. A ka versionin 2 të të dhënave të NGram-it rezultate të ngjashme me ato të paraqitura në Michel et al. (2011) , të cilat bazohen në të dhënat e versionit 1?

    3. Tani kontrolloni grafikun tuaj kundër grafikës së krijuar nga NGram Viewer.

    4. Rivendosni figurën 3a (figura kryesore), por ndryshoni \(y\) -axis të jetë numërimi i parave të përmendura (jo norma e përmendjeve).

    5. A dallon dallimi midis (b) dhe (d) që të rivlerësoni ndonjë nga rezultatet e Michel et al. (2011). Pse ose pse jo?

    6. Tani, duke përdorur përqindjen e përmendur, përsërisni pjesën e figurës 3a. Kjo është, për çdo vit midis 1875 dhe 1975, llogaritni gjysmën e jetës së atij viti. Gjysma e jetës është përcaktuar të jetë numri i viteve që kalojnë përpara se proporcioni i përmendjeve të arrijë gjysmën e vlerës së tij maksimale. Vini re se Michel et al. (2011) bëjnë diçka më të komplikuar për të vlerësuar gjysmën e jetës - shih seksionin III.6 të Informacionit mbështetës online - por ata pretendojnë se të dy qasjet prodhojnë rezultate të ngjashme. A version 2 i të dhënave NGram prodhojnë rezultate të ngjashme me ato të paraqitura në Michel et al. (2011) , të cilat bazohen në të dhënat e versionit 1? (Hint: Mos u habitni nëse nuk ka.)

    7. A ka pasur ndonjë vit që ishte më i madh se vitet që u harruan veçanërisht shpejt ose veçanërisht ngadalë? Shprehni shkurtimisht arsyet e mundshme për këtë model dhe shpjegoni se si i keni identifikuar ata që outliers.

    8. Tani riprodhoni këtë rezultat për versionin 2 të të dhënave të NGrams në kinezisht, frëngjisht, gjermanisht, hebraisht, italisht, rusisht dhe spanjisht.

    9. Krahasimi në të gjitha gjuhët, a ka pasur ndonjë vit që ishte më i madh, të tilla si vitet që u harruan veçanërisht shpejt ose veçanërisht ngadalë? Shprehni shkurtimisht arsyet e mundshme për këtë model.

  7. [ shume e veshtire , Mbledhja e të dhënave , kërkon kodim , my favorite ] Penney (2016) hulumtoi nëse publiciteti i gjerë rreth survejimit të NSA / PRISM (dmth. Zbulimet e Snowden) në qershor 2013 ishte shoqëruar me një rënie të mprehtë dhe të papritur të trafikut të artikujve të Wikipedia-s mbi temat që ngrenë shqetësimet e privatësisë. Nëse është kështu, ky ndryshim në sjellje do të ishte në përputhje me një efekt ngricues që rezultoi nga mbikëqyrja masive. Qasja e Penney (2016) nganjëherë quhet një ndërprerje e dizajnit të serive kohore dhe lidhet me qasjet e përshkruara në seksionin 2.4.3.

    Për të zgjedhur fjalët e temave, Penney iu referua listës së përdorur nga Departamenti Amerikan i Sigurisë Kombëtare për ndjekjen dhe monitorimin e mediave sociale. Lista e DHS-së kategorizon disa terma kërkimi në një sërë çështjesh, p.sh. "Shqetësimet Shëndetësore", "Siguria e Infrastrukturës" dhe "Terrorizmi". Për grupin e studimit Penney ka përdorur 48 fjalë kyçe që lidhen me "Terrorizmin" (shih shtojcën 8 ). Më pas, ai përmblodhi numërimet mujore të artikujve të Wikipedianit për 48 artikujt përkatës të Wikipedia-s gjatë një periudhe 32-mujore, që nga fillimi i janarit 2012 deri në fund të gushtit 2014. Për të forcuar argumentin e tij, ai gjithashtu krijoi disa grupe krahasuese duke ndjekur pikëpamjet e artikullit mbi tema të tjera.

    Tani, ju do të përsërisni dhe zgjasni Penney (2016) . Të gjitha të dhënat e papërpunuara që ju nevojiten për këtë aktivitet janë në dispozicion nga Wikipedia. Ose mund ta merrni nga paketa R-wikipediatrend (Meissner and R Core Team 2016) . Kur shkruani përgjigjet tuaja, ju lutemi shënoni cili burim i të dhënave keni përdorur. (Vini re se ky veprim i njëjtë shfaqet edhe në kapitullin 6.) Ky aktivitet do t'ju japë praktikë në grindjet e të dhënave dhe të menduarit rreth eksperimenteve natyrore në burimet e mëdha të të dhënave. Ajo gjithashtu do të merrni ju dhe drejtimin me një burim potencialisht interesant të të dhënave për projektet e ardhshme.

    1. Lexoni Penney (2016) dhe përsërisni figurën e tij 2 e cila tregon pamjet e faqes për faqet e lidhura me "Terrorizmin" para dhe pas zbulesave të Snowden. Interpretimet e gjetjeve.
    2. Më pas, kopjoni figurën 4A, e cila krahason grupin e studimit (artikujt që lidhen me terrorizmin) me një grup krahasues duke përdorur fjalë kyçe të kategorizuara nën "DHS & Agjencitë e tjera" nga lista DHS (shih shtojcën 10 dhe shënimin 139). Interpretimet e gjetjeve.
    3. Në pjesën (b) ju e krahasuat grupin e studimit me një grup krahasues. Penney gjithashtu krahasohet me dy grupe të tjera krahasuese: artikujt që lidhen me "Infrastrukturën e Sigurisë" (shtojca në tabelën 11) dhe faqet e njohura të Wikipedia-s (shtojca e tabelës 12). Ejani me një grup tjetër krahasues dhe provoni nëse gjetjet nga pjesa (b) janë të ndjeshme ndaj zgjedhjes suaj të grupit krahasues. Cila zgjedhje e bën më kuptim? Pse?
    4. Penney deklaroi se fjalë kyçe që kishin të bënin me "Terrorizmin" u përdorën për të zgjedhur artikujt e Wikipedia, sepse qeveria amerikane përmendi terrorizmin si një justifikim kyç për praktikat e mbikëqyrjes online. Si një kontroll i këtyre 48 fjalëve të lidhura me "terrorizmin", Penney (2016) gjithashtu bëri një studim mbi MTurk, duke i kërkuar të anketuarve që të vlerësojnë secilën prej fjalëve të ht në aspektin e Trouble Qeverisë, Privacy-Sensitive dhe Shmangie (shtojca tabelave 7 dhe 8 ). Përsërisni studimin në MTurk dhe krahasoni rezultatet tuaja.
    5. Bazuar në rezultatet e pjesës (d) dhe në leximin tuaj të artikullit, a jeni dakord me zgjedhjen e Penney-it të fjalëve të temave në grupin e studimit? Pse ose pse jo? Nëse jo, çfarë do të sugjeronit në vend të kësaj?
  8. [ i lehtë ] Efrati (2016) raportoi, bazuar në informacionin konfidencial, se "ndarja totale" në Facebook kishte rënë me rreth 5.5% në vit, ndërsa "ndarja fillestare e transmetimit" ishte poshtë 21% në vit. Kjo rënie ishte veçanërisht e mprehtë me përdoruesit e Facebook nën 30 vjeç. Raporti ia atribuoi rënien dy faktorëve. Njëra është rritja e numrit të njerëzve "miq" që kanë në Facebook. E dyta është se disa aktivitete të përbashkëta kanë kaluar tek mesazhet dhe tek konkurrentët si Snapchat. Raporti gjithashtu zbuloi disa taktika që Facebook kishte përpjekur të rriste ndarjen, duke përfshirë tweaks të algoritmit të News Feed që i bëjnë postimet origjinale më të shquara, si dhe përkujtuesit periodikë të postimeve origjinale me tiparin "On This Day". Cilat implikime, nëse ka, a kanë këto gjetje për studiuesit që duan të përdorin Facebook si burim të të dhënave?

  9. [ medium ] Cili është dallimi midis një sociologu dhe një historiani? Sipas Goldthorpe (1991) , dallimi kryesor është kontrolli mbi grumbullimin e të dhënave. Historianët janë të detyruar të përdorin relike, ndërsa sociologët mund të përshtasin mbledhjen e tyre të të dhënave për qëllime specifike. Lexoni Goldthorpe (1991) . Si është dallimi midis sociologjisë dhe historisë që lidhet me idenë e kujdestarëve dhe lexuesve?

  10. [ i vështirë ] Kjo ndërton mbi quesiton mëparshëm. Goldthorpe (1991) tërhoqi një numër përgjigjesh kritike, duke përfshirë një nga Nicky Hart (1994) që sfidoi përkushtimin e Goldthorpe për të bërë të dhëna të përshtatura. Për të sqaruar kufizimet e mundshme të të dhënave të përshtatura, Hart përshkroi Projekti i Punëtorëve të pasur, një studim i madh për të matur marrëdhëniet midis klasës sociale dhe votimit që u zhvillua nga Goldthorpe dhe kolegët e tij në mes të viteve 1960. Siç mund të pritet nga një dijetar i cili favorizoi të dhënat e dizajnuara mbi të dhënat e gjetura, Projekti i Punëtorëve të pasur grumbulloi të dhëna të përshtatura për të adresuar një teori të propozuar kohët e fundit për të ardhmen e klasës sociale në një epokë të rritjes së standardeve të jetesës. Por, Goldthorpe dhe kolegët disi "harruan" për të mbledhur informacion rreth sjelljes së votimit të grave. Ja se si Nicky Hart (1994) përmblodhi gjithë episodin:

    "... është e vështirë për të shmangur përfundimin se gratë janë lënë pas dore, sepse ky grup i" rrobaqepësisë "ishte i kufizuar nga një logjikë paradigmë e cila përjashtoi përvojën e femrës. Të nxitur nga një vizion teorik i ndërgjegjësimit dhe veprimit të klasës si preokupime mashkullore ..., Goldthorpe dhe kolegët e tij ndërtuan një sërë provash empirike të cilat ushqyen dhe ushqyen supozimet e tyre teorike në vend që t'i ekspozonin ato në një provë të vlefshme të mjaftueshmërisë ".

    Hart vazhdoi:

    "Gjetjet empirike të Projektit të Punëtorëve të Pasurisë na tregojnë më shumë rreth vlerave mashkullore të sociologjisë së shekullit të mesëm se ato të informojnë proceset e shtresimit, politikës dhe jetës materiale".

    A mund të mendoni për shembuj të tjerë ku grumbullimi i të dhënave sipas dëshirës ka paragjykimet e koleksionit të të dhënave të ndërtuara në të? Si e krahason kjo me konfuzionin algoritmike? Cilat implikime mund të kenë kjo për kur hulumtuesit duhet të përdorin readymades dhe kur ata duhet të përdorin custommades?

  11. [ medium ] Në këtë kapitull kam kontrastuar të dhënat e mbledhura nga kërkuesit për hulumtuesit me të dhënat administrative të krijuara nga kompanitë dhe qeveritë. Disa njerëz i quajnë këto të dhëna administrative "të gjetura të dhëna", të cilat ato dallojnë me "të dhënat e dizajnuara". Është e vërtetë se të dhënat administrative gjenden nga hulumtuesit, por ato gjithashtu janë shumë të dizajnuara. Për shembull, kompanitë moderne të teknologjisë punojnë shumë vështirë për të mbledhur dhe përpunuar të dhënat e tyre. Kështu, këto të dhëna administrative gjenden dhe dizajnohen, varet vetëm nga perspektiva juaj (figura 2.12).

    Figura 2.12: Fotografia është si një rosë dhe një lepur; ajo që shihni e varet nga perspektiva juaj. Janë gjetur dhe dizenjuar burime të mëdha të të dhënave; përsëri, ajo që shihni e varet nga perspektiva juaj. Për shembull, të dhënat e thirrjeve të mbledhura nga një kompani e telefonisë celulare gjenden të dhëna nga këndvështrimi i një kërkuesi. Por, këto të dhëna të njëjta janë të dizajnuara nga perspektiva e një personi që punon në departamentin e faturimit të kompanisë telefonike. Burimi: Shkenca popullore mujore (1899) / Wikimedia Commons.

    Figura 2.12: Fotografia është si një rosë dhe një lepur; ajo që shihni e varet nga perspektiva juaj. Janë gjetur dhe dizenjuar burime të mëdha të të dhënave; përsëri, ajo që shihni e varet nga perspektiva juaj. Për shembull, të dhënat e thirrjeve të mbledhura nga një kompani e telefonisë celulare gjenden të dhëna nga këndvështrimi i një kërkuesi. Por, këto të dhëna të njëjta janë të dizajnuara nga perspektiva e një personi që punon në departamentin e faturimit të kompanisë telefonike. Burimi: Shkenca popullore mujore (1899) / Wikimedia Commons .

    Jepni një shembull të burimit të të dhënave kur ta shohësh atë si të gjetur dhe të dizajnuar, është e dobishme kur përdorni atë burim të të dhënave për kërkime.

  12. [ i lehtë ] Në një ese të zhytur në mendime, Christian Sandvig dhe Eszter Hargittai (2015) ndanë kërkimet digjitale në dy kategori të mëdha në varësi të faktit nëse sistemi dixhital është një "instrument" ose "objekt i studimit". Një shembull i llojit të parë - ku sistemi është një instrument - është hulumtimi nga Bengtsson dhe kolegët (2011) mbi përdorimin e të dhënave të telefonisë mobile për të ndjekur migrimin pas tërmetit në Haiti në vitin 2010. Një shembull i llojit të dytë - ku sistemi është një objekt studimi - është hulumtimi nga Jensen (2007) mbi mënyrën se si futja e telefonave celularë në të gjithë Kerala, Indi ndikoi në funksionimin e tregut të peshkut. E gjej këtë dallim të dobishëm sepse sqaron se studimet që përdorin burimet dixhitale të të dhënave mund të kenë qëllime mjaft të ndryshme edhe nëse ato përdorin të njëjtin burim të të dhënave. Për të sqaruar më tej këtë dallim, përshkruani katër studime që keni parë: dy që përdorin një sistem dixhital si një instrument dhe dy që përdorin një sistem dixhital si një objekt studimi. Ju mund të përdorni shembuj nga ky kapitull nëse dëshironi.