Tegevused

Võti:

  • raskusaste: kerge lihtne , keskmise keskmine kõva raske , väga raske väga raske
  • nõuab matemaatika ( nõuab matemaatika )
  • nõuab kodeerimine ( nõuab kodeerimine )
  • andmete kogumine ( andmete kogumine )
  • minu lemmikud ( minu lemmik )
  1. [ keskmine , minu lemmik ] Algoritmiline segavate oli probleem Google Flu Trends. Loe paberit Lazer et al. (2014) , ja kirjutada lühikest ja selget e insenerina Google selgitab probleemi ja pakub idee, kuidas probleemi lahendada.

  2. [ keskmine ] Bollen, Mao, and Zeng (2011) väidab, et andmeid Twitter saab ennustada aktsiaturu. See leid loomine riskifondide-Derwent Capital Markets-investeerida aktsiaturg põhineb kogutud Twitter (Jordan 2010) . Milliseid tõendeid soovite näha enne pannes oma raha, et fond?

  3. [ lihtne ] Kuigi mõned rahvatervise toetajad rahe e-sigaretid on tõhus suitsetamisest loobumise abivahendina, teised hoiatavad võimalike ohtude, näiteks kõrget nikotiini. Kujutage ette, et uurija otsustab õppida avaliku arvamuse poole e-sigaretid, kogudes e-sigaretid seotud Twitter postitused ja läbiviimisel sentiment analüüs.

    1. Millised on kolm võimalikku peensusi, et olete kõige mures selle uuringu?
    2. Clark et al. (2016) jooksis lihtsalt selline uuring. Esiteks, nad kogutud 850,000 tweets, et kasutada e-sigaret seotud märksõnad alates jaanuar 2012 kuni detsembrini 2014. lähemal vaatlusel, nad mõistsid, et paljud neist tweets olid automatiseeritud (st mitte inimeste toodetud) ja paljud neist automatiseeritud tweets olid sisuliselt kaubaautod. Nad töötasid välja Human Detection algoritm eraldi automatiseeritud tweets orgaanilistest tweets. Kasutades seda Human avastada algoritmi leidsid nad, et 80% tweets olid automatiseeritud. Kas see leid muuta oma vastus osa (a)?
    3. Kui nad võrdlesid sentiment orgaanilise ja automatiseeritud tweets leidsid nad, et automatiseeritud tweets on rohkem positiivseid kui orgaaniline tweets (6,17 versus 5,84). Kas see leid muuta oma vastus (b)?
  4. [ lihtne ] 2009. aasta novembris, Twitter muutunud küsimust piiksuma kasti "Mida sa teed?", Et "Mis toimub?" (Https://blog.twitter.com/2009/whats-happening).

    1. Kuidas te arvate, muutus küsib mõjutavad kes piiksuma ja / või mida nad piiksuma?
    2. Nimeta üks uurimisprojekti, mille soovid kiiret "Mida sa teed?" Selgitage, miks.
    3. Nimeta üks uurimisprojekti, mille soovid kiiret "Mis toimub?" Selgitage, miks.
  5. [ keskmine ] Kwak et al. (2010) analüüsisid 41700000 kasutajaprofiilid, 1470000000 sotsiaalsed suhted, 4262 trendid teemasid ja 106 miljonit tweets juunist kuni 6. ja 31. juuni 2009. Selle analüüsi põhjal järeldasid nad, et Twitter teenindab enam kui uus meedium teabe jagamist kui sotsiaalvõrgustik.

    1. Arvestades Kwak jt järeldus, millist tüüpi teadusuuringute sa teeksid Twitter andmed? Mis tüüpi teadusele sa ei tee Twitter andmed? Miks?
    2. Aastal 2010, Twitter lisanud Kes Jälgi teenus muutes kohandatud soovitus kasutajad. Kolm soovitused on toodud korraga pealehel. Soovitused on sageli tõmmatud üks "sõbrad-of-sõbrad" ja vastastikuste kontaktide kuvatakse ka soovitust. Kasutajad saavad värskendada näha uued soovitused või külastada lehekülge pikema nimekirja soovitusi. Kas sa arvad, et see uus funktsioon muudaks oma vastus osa a)? Miks või miks mitte?
    3. Su, Sharma, and Goel (2016) hindas mõju Kes Jälgi teenust ning leidis, et kuigi kasutajatele kogu populaarsust spektri kasu soovitusi, kõige populaarsem kasutajate kasu oluliselt suurem kui keskmine. Kas see leid muuta oma vastus osa b)? Miks või miks mitte?
  6. [ lihtne ] "Retweets" kasutatakse sageli mõõta mõju ja leviku mõju Twitter. Esialgu kasutajad pidid kopeeri ja kleebi lehte neile meeldis, tag algne autor tema / tema käepide ja käsitsi kirjutada "RT" enne lehte näidata, et see on retweet. Siis, 2009. aastal Twitter lisanud "retweet" nuppu. Juunis 2016 Twitter võimaldas kasutajatel retweet oma tweets (https://twitter.com/twitter/status/742749353689780224). Kas sa arvad need muutused ei tohiks mõjutada, kuidas kasutada "Retweets" oma uurimistöö? Miks või miks mitte?

  7. [ keskmine , andmete kogumine , nõuab kodeerimine ] Michel et al. (2011) ehitatud corpus väljuvas Google'i jõupingutusi digiteerida raamatuid. Kasutades esimene versioon corpus, mis ilmus 2009. aastal ja sisaldas üle 5 miljoni digiteeritud raamatute autorid analüüsisid sõna kasutussagedus uurida keelelisi muudatusi ja kultuurilisi suundumusi. Varsti Google Books Corpus sai populaarseks andmeallika teadlaste ja 2. versioon andmebaas ilmus 2012. aastal.

    Kuid Pechenick, Danforth, and Dodds (2015) hoiatas, et teadlased peavad täielikult iseloomustada valimivõtmisele corpus enne kasutamist joonistamiseks laiaulatuslikke järeldusi. Peamine probleem on see, et korpus on raamatukogu moodi, mis sisaldavad üht iga raamatu. Selle tulemusena individuaalne, viljakas autor on võimalik märgatavalt lisada uusi fraasid Google Books leksikon. Lisaks teaduslikele tekstid kujutavad endast üha sisulise osa corpus kogu 1900. Lisaks võrreldakse kaks versiooni Inglisekirjandus andmekogusid, Pechenick jt. leitud tõendeid, et ebapiisav filtreerimine kasutati tootma esimest versiooni. Kõik vajalikud andmed tegevuse leiab siit: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Michel et al. Esialgset paberit (2011) kasutasid nad 1. versioon inglise andmekogum, joonistatakse kasutamissagedusel aastate "1880", "1912" ja "1973", ning leidis, et "me oleme unustades mineviku kiiremini iga aastaga "(Joon. 3A, Michel et al.). Paralleelsed sama krundi kasutamise 1) 1. versioon corpus, inglise andmekogumi (sama joon. 3A, Michel et al.)
    2. Nüüd imiteerida sama krundi 1. versioon, inglise ilukirjandus andmebaasil.
    3. Nüüd imiteerida sama krundi 2. versioon corpus, inglise andmebaasil.
    4. Lõpuks imiteerida sama krundi 2. versioon, inglise ilukirjandus andmebaasil.
    5. Kirjeldage erinevusi ja sarnasusi nende nelja krundid. Kas olete nõus Michel et al. Esialgse tõlgenduse täheldatud trend? (Vihje: c) ja d) peaks olema sama mis joonisel 16 Pechenick et al.)
    6. Nüüd, kui olete kopeeris selle ühe järelduse, kasutades erinevaid Google Books korpusi, vali teine ​​keeleline muudatus või kultuurinähtuste esitatud Michel et al. Esialgset paberit. Kas olete nõus oma tõlgenduse valguses piiranguid esitatud Pechenick jt.? Et oma väidet tugevam, proovida imiteerida sama graafik, kasutades erinevaid versioone andmekogumi eespool.
  8. [ väga raske , andmete kogumine , nõuab kodeerimine , minu lemmik ] Penney (2016) uurib, kas levinud avalikustamise NSA / PRISM järelevalve (st Snowden paljastusi) 2013. aasta juunis seostatakse järsk ja ootamatu vähenemine liiklust Wikipedia artikleid teemadel, et tõsta eraelu puutumatusega seotud probleemidele. Kui jah, siis see muutus käitumine oleks kooskõlas pidurdada tulenevad massilise jälgimise. Lähenemisviisi Penney (2016) on mõnikord katkenud aegrida disaini ja on seotud lähenemisviise peatükki ühtlustada katsete vaatlusandmete (punkt 2.4.3).

    Et valida teema märksõnadega, Penney nimetatud nimekirja kasutavad USA Sisejulgeolekuministeeriumi jälgimise ja järelevalve sotsiaalse meedia. DHS nimekirja kategoriseerib teatud otsingusõnad erinevaid küsimusi, st "terviseprobleem," "Infrastruktuur Turvalisus" ja "Terrorism." Sest uurimisrühma Penney kasutanud neljakümne kaheksa märksõnu, mis on seotud "Terrorism" (vt tabel 8 Lisa). Seejärel summeeritakse Wikipedia article vaatamisnumbrid igakuiselt vastava neljakümne kaheksa Wikipedia artikleid üle kolmekümne kahe kuu jooksul, alates jaanuari algusest 2012 kuni augusti lõpuni 2014. Selleks, et tugevdada oma väidet, et ta loonud ka mitmeid võrreldes rühmade jälgides artikli arvamusi muud teemad.

    Nüüd sa lähed imiteerida ja laiendada Penney (2016) . Kõik algandmed, et pead selle meetme jaoks on saadaval Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Või saad seda alates R pakett wikipediatrend (Meissner and Team 2016) . Kui kirjutada-up teie vastuseid, palun, mis andmeallika sa kasutada. (Märkus: See sama tegevust esineb ka peatükk 6)

    1. Loe Penney (2016) ja korrata joonis 2, mis näitab lehe vaateid "Terrorism" -iga seotud lehti enne ja pärast Snowden ilmutus. Leidude tõlgendamiseks.
    2. Edasi imiteerida joonis 4A, mis võrdleb uurimisrühm ( "Terrorism" -iga seotud artiklid) võrdlusravimiga grupp kasutades märksõnu liigitada "DHS ja teiste ametkondade" alates DHS nimekirja (vt lisa tabel 10). Leidude tõlgendamiseks.
    3. B osa), mida võrdles uurimisrühm, et üks Võrdlusrühmas. Penney ka võrreldes kahe teise võrdlusgruppides: "Infrastruktuur Security" -iga seotud esemed (lisa tabel 11) ja populaarne Wikipedia lehekülge (lisa tabel 12). Tulla alternatiivi Võrdlusrühmas ja testida, kui leiud osa b) on tundlik oma valiku Võrdlusrühmas. Milline valik Võrdlusrühmas kõige mõistlikum? Miks?
    4. Autor märkis, et märksõnad, mis on seotud "Terrorism" kasutati valida Wikipedia artikleid, sest USA valitsuse viidatud terrorismi kui peamine põhjendus selle elektroonilisest järelvalve. Kuna kontroll nende 48 "Terrorism" -iga seotud märksõnad Penney (2016) ka läbi uuringu MTurk kus vastajatel paluti hinnata iga märksõnu nii valitsuse Trouble, Privacy-Sensitive ja vältimine (lisa tabel 7 ja 8). Paralleelsed uuring MTurk ja võrrelda oma tulemusi.
    5. Tulemuste põhjal osaliselt d) ja oma lugemisel artikkel, sa nõus autori teemavalik märksõnu uurimisrühma? Miks või miks mitte? Kui ei, siis mida soovitate asemel?
  9. [ lihtne ] Efrati (2016) aruanded, mis põhinevad konfidentsiaalset informatsiooni, et "kogu" jagamist Facebookis langenud umbes 5,5% võrra, samal ajal kui "originaal saade" jagamist langes 21% võrreldes eelmise aastaga. See langus oli eriti terav Facebook kasutajad alla 30-aastased. Aruanne omistatud langus kaks tegurit. Üks on kasv arvu "sõbrad" inimesed on Facebook. Teine on see, et mõned jagamine aktiivsus on nihkunud sõnumside ja konkurentidele näiteks Snapchat. Aruanne näitas ka mitu taktika Facebook püüdis suurendada jagamine, sealhulgas News Feed algoritm lisasid, mis muudavad algse postitusi silmatorkavam, samuti perioodilisi meeldetuletusi originaal postitusi kasutajad "Sellel päeval" mitu aastat tagasi. Mis mõju, kui üldse, ei need leiud on teadlaste jaoks, kes soovivad kasutada Facebook andmeallika?

  10. [ keskmine ] Tumasjan et al. (2010) teatas, et osa tweets märkimist erakonna sobinud osakaal häälel, et partei sai Saksa parlamendivalimistel 2009. aastal (joonis 2.9). Teisisõnu, tundus, et sa võiksid kasutada Twitter ennustada valimisi. Ajal seda Uurimus avaldati peeti väga põnev, sest see näib vihjavat väärtuslik kasutada ühisest allikast suur andmed.

    Arvestades halb funktsioonid big andmed, aga siis tuleb kohe olla skeptiline selle tulemuse. Sakslased puperdama 2009. aastal olid üsna mitteesinduslikuks grupp ja toetajad üks pool võib piiksuma umbes poliitikas sagedamini. Seega tundub üllatav, et kõik võimalikud peensusi, mida võiks ette kujutada kuidagi olematuks. Tegelikult põhjustab Tumasjan et al. (2010) osutus liiga hea, et olla tõsi. Oma raamatus, Tumasjan et al. (2010) leidis, kuus erakonnad: kristlike demokraatide (CDU), Christian sotsiaaldemokraadid (CSU), SPD, liberaalid (FDP), vasak (Die Linke) ja roheliste (Grüne). Kuid kõige sagedamini mainitud Saksa erakond puperdama tol ajal oli Pirate Partei (Piraten), pool, mis võitleb valitsuse määrus Internetti. Kui Piraadiparteist kaasati analüüsi, Twitter mainib muutub kohutav ennustaja valimistulemused (joonis 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Joonis 2.9: Twitter mainib ilmuvad ennustada tulemusi 2009. aasta Saksa valimised (Tumasjan et al. 2010), aga see tulemus osutub sõltuvad mõned meelevaldne ja põhjendamatu valikuid (Jungherr, Jürgens ja Schoen 2012).

    Joonis 2.9: Twitter mainib ilmuvad ennustada tulemusi 2009. aasta Saksa valimised (Tumasjan et al. 2010) , aga see tulemus osutub sõltuvad mõned meelevaldne ja põhjendamatu valikuid (Jungherr, Jürgens, and Schoen 2012) .

    Seejärel teised uurijad üle maailma on kasutatud vingemaga meetodid-nagu lehe sentiment analüüs eristada positiivseid ja negatiivseid mainib poolte-parandamiseks võime Twitter et ennustada erinevaid liiki valimised (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Siin on, kuidas Huberty (2015) tulemusi, võttis kokku need katsed ennustada valimiste:

    "Kõik tuntud võtetest, mis põhineb sotsiaalse meedia on ebaõnnestunud, kui neile nõudmistele tõsi tulevikku suunatud valimiste prognoosimine. Need ebaõnnestumised tunduvad olevat tingitud põhilisi omadusi sotsiaalse meedia asemel metoodiliste ja algoritmilise raskusi. Lühidalt, sotsiaalse meedia ei ole, ja ilmselt kunagi, pakkuda stabiilset, erapooletu, esinduslikku pilti valijad; ja mugavuse proovid sotsiaalmeedia puuduvad piisavad andmed, et kindlaks määrata need probleemid post hoc. "

    Loe mõned uuringuid, mis viib Huberty (2015) , et seda järeldust, ja kirjutada ühele lehele memo poliitiline kandidaat kirjeldab kas ja kuidas Twitter tuleks kasutada prognoosida valimised.

  11. [ keskmine ] Mis vahe on sotsioloog ja ajaloolane? Vastavalt Goldthorpe (1991) , peamine erinevus sotsioloog ja ajaloolane on kontroll selle üle, andmete kogumine. Ajaloolased on sunnitud kasutama säilmed samas sotsioloogid saab kohandada andmete kogumise konkreetsete eesmärkidega. Loe Goldthorpe (1991) . Kuidas on vahe sotsioloogia ja ajalugu on seotud idee Custommades ja Readymades?

  12. [ raske ] Tuginedes eelnevale küsimusele, Goldthorpe (1991) juhtis mitmeid kriitilisi reaktsioone, sealhulgas üks Nicky Hart (1994) , et vaidlustada Goldthorpe pühendumusele sobivat andmeid. Et selgitada võimalikke piiranguid kohandatud andmed, Hart kirjeldatud jõukad Töötaja Project, suur uuring mõõta seos sotsiaalse klassi ja hääletamisel, mis oli läbi Goldthorpe ja kolleegidega 1960. aastate keskpaigast. Nagu arvata alates õpetlane, kes pooldasid mõeldud andmete üle leitud andmeid, jõukad Töötaja Project kogutud andmeid, mis olid kohandatud pöörduda hiljuti ettepaneku teooria tuleviku sotsiaalse klassi ajastu kasvavat elatustaset. Aga Goldthorpe ja tema kolleegid kuidagi "unustas", et koguda informatsiooni hääletamise naised. Siin on, kuidas Nicky Hart (1994) kokkuvõtted kogu episood:

    ". . . see [on] raske vältida järeldust, et naised olid jäetud, sest see "sobivat" andmekogumi piirdus poolt paradigmaatiline loogika, mis välistatud naissoost kogemus. Ajendatuna teoreetiline nägemus klassi teadvuse ja tegevuse kui mees muredega. . . , Goldthorpe ja tema kolleegid konstrueerisid empiirilistes tõendid, mis toidab ja rikastab oma teoreetilisi eeldusi asemel kogeda kehtiv testi adekvaatsuse. "

    Hart jätkas:

    "Empiiriline järeldused Jõukas Töötaja Project ütle meile rohkem masculinist väärtused sajandi keskpaigaks sotsioloogia kui nad teatavad protsessid kihistumine, poliitika ja materiaalne elu."

    Kas te arvate teisi näiteid, kus kohandatud andmete kogumine on peensusi andmekoguja ehitatud on? Kuidas see võrrelda algoritmilise segavate? Mis mõju võib see olla sest kui teadlased peaksid kasutama Readymades ja kui nad peaksid kasutama Custommades?

  13. [ keskmine ] Selles peatükis ma vastandada kogutud andmeid teadlased teadlane haldusandmetest loodud ettevõtted ja valitsused. Mõned inimesed kutsuvad neid haldusandmetest "leitud andmeid," mida nad vastanduvad "mõeldud andmeid." On tõsi, et haldusandmetest leidub teadlased, kuid nad on ka väga mõeldud. Näiteks kaasaegne tech ettevõtted kulutavad väga palju aega ja ressursse koguda ja kureerida oma andmed. Seega, need haldusandmetest on nii leidnud ja mõeldud, see lihtsalt sõltub vaatenurgast (joonis 2.10).

    Joonis 2.10: Pildil on nii parte ja jänes; mida sa näed sõltub vaatenurgast. Valitsuse ja äri haldus arvestust nii leitud ja kavandatud; mida sa näed sõltub vaatenurgast. Näiteks kõne andmete arvestust kogutud mobiili firma on leitud andmeid vaatenurgast teadlane. Aga need täpselt sama kirjed on mõeldud andmete vaatenurgast keegi töötab arvete osakonna telefoni firma. Allikas: Wikimedia Commons

    Joonis 2.10: Pildil on nii parte ja jänes; mida sa näed sõltub vaatenurgast. Valitsuse ja äri haldus arvestust nii leitud ja kavandatud; mida sa näed sõltub vaatenurgast. Näiteks kõne andmete arvestust kogutud mobiili firma on leitud andmeid vaatenurgast teadlane. Aga need täpselt sama kirjed on mõeldud andmete vaatenurgast keegi töötab arvete osakonna telefoni firma. Allikas: Wikimedia Commons

    Anda näiteks andmete allikas, kus nähes seda nii leitud ja loodud on kasulik, kui neid andmeid kasutades allikat teadus.

  14. [ lihtne ] Aastal mõtlik essee, Christian Sandvigi ja Eszter Hargittai (2015) kirjeldavad kahte liiki digitaalse teadus, kus digitaalne süsteem on "vahend" või "uurimisobjekt." Näiteks esimese selline uurimus on, kus Bengtsson ja tema kolleegid (2011) kasutatud mobiiltelefoni andmeid jälgida migratsiooni pärast maavärinat Haitil 2010. näiteks teine ​​selline on, kus Jensen (2007) uuringud, kuidas kasutusele mobiiltelefonid kogu Kerala, India mõjutanud toimimist kala. Minu arvates on see kasulik, sest see selgitab, et uuringud, mis kasutavad digitaalsete andmete allikad võivad olla üsna erinevad eesmärgid, isegi kui nad kasutavad sama liiki andmete allikas. Selleks, et täpsemalt selgitada seda vahet, kirjeldada neljas uuringus, et olete näinud: kaks, et kasutada digitaalset süsteemi kui vahendit ja kaks, et kasutada digitaalset süsteemi kui uurimisobjekt. Te võite kasutada näiteid selle peatüki, kui soovite.