darbības

Key:

  • sarežģītības pakāpi: viegli viegli , vidēja vidējs , cietais grūti , ļoti grūti ļoti grūti
  • prasa matemātiku ( prasa matemātiku )
  • prasa kodēšana ( prasa kodēšana )
  • datu vākšana ( datu vākšana )
  • mani mīļākie ( Mans mīļākais )
  1. [ vidējs , Mans mīļākais ] Algoritmiskā sajaukšanas bija problēma ar Google gripas izplatība. Lasīt papīru, Lazer et al. (2014) , un uzrakstīt īsu, skaidru e-pastu inženieri Google paskaidrojot problēmu un piedāvā priekšstatu par to, kā noteikt šo problēmu.

  2. [ vidējs ] Bollen, Mao, and Zeng (2011) apgalvo, ka dati no čivināt var izmantot, lai prognozētu akciju tirgus. Šis atklājums noveda pie izveidi riska ierobežošanas līdzekļu Derwent Capital Markets-ieguldīt akciju tirgū, pamatojoties uz savāktajiem no čivināt datiem (Jordan 2010) . Kādi pierādījumi jūs vēlaties redzēt, pirms liekot savu naudu šajā fondā?

  3. [ viegli ] Lai gan daži sabiedrības veselības aizstāvji krusa e-cigaretes par efektīvu palīdzību smēķēšanas atmešanai, citi brīdina par iespējamiem riskiem, piemēram, augsto līmeni nikotīna. Iedomājieties, ka pētnieks nolemj studēt sabiedrības viedokli pret e-cigaretes, vācot e-cigaretes saistītos Twitter amatu un veicot noskaņojumu analīzi.

    1. Kādi ir trīs iespējamie aizspriedumi, ka jums ir visvairāk uztrauc šajā pētījumā?
    2. Clark et al. (2016) bija tieši šādu pētījumu. Pirmkārt, tie savākti 850,000 tweets ka izmanto e-cigarešu saistītus atslēgvārdus no 2012. gada janvāra līdz 2014. gada decembrim pēc tuvākas inspekcijas, viņi saprata, ka daudzi no šiem tweets tika automatizēts (ti, nav ražots cilvēki), un daudzi no šiem automatizēto tweets bija būtībā reklāmām. Viņi izstrādāja cilvēka noteikšanas algoritmu, lai atdalītu automatizētas tweets no organiskiem tweets. Izmantojot šo Human Atklāt algoritmu viņi konstatēja, ka 80% no tweets tika automatizēta. Vai šis secinājums mainīt savu atbildi uz daļu (a)?
    3. Kad viņi salīdzināja noskaņojumu bioloģiskās un automatizēto tweets viņi konstatēja, ka automatizēta tweets ir vairāk pozitīva nekā organisko tweets (6.17 pret 5.84). Vai šis secinājums mainīt savu atbildi uz (b)?
  4. [ viegli ] 2009. gada novembrī, Twitter mainīja jautājumu tweet kastē no "Ko jūs darāt?" Uz "Kas notiek?" (Https://blog.twitter.com/2009/whats-happening).

    1. Kā jūs domājat, maiņa liek ietekmēs kas čivināt un / vai to, ko viņi čivināt?
    2. Nosaukt vienu pētniecības projektu, par kuru jūs vēlētos uzvedni "Ko tu dari?" Paskaidrojiet, kāpēc.
    3. Nosaukt vienu pētniecības projektu, par kuru jūs vēlētos ātru "Kas notiek?" Paskaidrojiet, kāpēc.
  5. [ vidējs ] Kwak et al. (2010) analizēja 41,7 miljoni lietotāju profilus, 1,47 miljardi sociālās attiecības, 4262 trending tēmām, un 106 miljonus tweets starp jūnija 6. un 31. jūnijā, 2009. Pamatojoties uz šo analīzi, viņi secināja, ka Twitter apkalpo vairāk kā jaunu līdzekli informācijas apmaiņu nekā sociālais tīkls.

    1. Ņemot vērā, Kwak et al konstatējumu, kāda veida pētniecības tu darītu ar Twitter datiem? Kāda veida pētījumu jūs nevar darīt ar Twitter datiem? Kāpēc?
    2. 2010.gadā Twitter pievienotās Kurš sekot pakalpojumu padarot pielāgotus ierosinājumu lietotājiem. Trīs ieteikumi tiek parādīti laikā galvenajā lapā. Ieteikumi bieži ņemti no savām "draugiem-of-draugu", un savstarpējie kontakti tiek rādīti arī ieteikumu. Lietotāji var atsvaidzināt redzēt jaunu ieteikumu kopumu vai apmeklējiet lapu ar ilgāku sarakstu ieteikumiem. Vai jūs domājat, ka šī jaunā iezīme varētu mainīt savu atbildi uz A daļa)? Kāpēc Vai kāpēc nē?
    3. Su, Sharma, and Goel (2016) izvērtēja ietekmi Kurš sekot servisu un konstatēja, ka, lai gan lietotājiem visā popularitātes spektrā labumu no ieteikumiem, populārākie lietotājiem gūst ievērojami vairāk nekā vidēji. Vai šis secinājums mainīt savu atbildi uz nepilnu b)? Kāpēc Vai kāpēc nē?
  6. [ viegli ] "Retweets" bieži izmanto, lai mērītu ietekmi un izplatīt ietekmes uz čivināt. Sākotnēji, lietotājiem bija kopēt un ielīmēt čivināt viņi patika, tag oriģinālo autoru ar viņa / viņas rokturi, un manuāli ierakstiet "RT" pirms tweet, lai norādītu, ka tas ir retweet. Tad, 2009.gadā Twitter pievienoja pogu "retweet". In 2016 gada jūnijā, Twitter ļāva lietotājiem retweet savu tweets (https://twitter.com/twitter/status/742749353689780224). Vai jūs domājat, ka šīs pārmaiņas ietekmē to, kā jūs izmantojat "retweets" jūsu pētniecībā? Kāpēc Vai kāpēc nē?

  7. [ vidējs , datu vākšana , prasa kodēšana ] Michel et al. (2011) jākonstruē corpus jaunās no Google pūles digitalizēt grāmatas. Izmantojot pirmo versiju corpus, kas tika publicēts 2009. gadā un ietverta vairāk nekā 5 miljonus digitalizētu grāmatu, autori analizē vārdu lietošanas biežumu, lai izmeklētu valodas izmaiņas un kultūras tendences. Drīz Google Books Corpus kļuva populārs datu avots pētniekiem, un 2. versiju datu bāzes tika izlaists 2012. gadā.

    Tomēr Pechenick, Danforth, and Dodds (2015) brīdināja, ka pētnieki ir nepieciešams, lai pilnībā raksturotu paraugu ņemšanas procesu corpus, pirms to izmanto, lai izstrādātu plašu secinājumus. Galvenais jautājums ir, ka corpus ir bibliotēka līdzīgi, kas satur vienu no katras grāmatas. Tā rezultātā, indivīds, ražīgs autors spēj ievērojami ievietot jaunas frāzes Google grāmatu leksikons. Turklāt zinātniskie teksti veido arvien būtisku daļu no corpus visā 1900. ir. Turklāt, salīdzinot divas versijas angļu Fiction datu kopām, Pechenick et al. atrasti pierādījumi, ka nepietiekami filtrēšana tika izmantota ražošanā pirmo versiju. Visi dati, kas nepieciešami darbībai ir pieejama šeit: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. In Michel et al. Sākotnējā dokumentā (2011) , viņi izmantoja 1st versiju angļu datu kopuma, vilkta biežumu izmantošanas gadu "1880", "1912" un "1973", un secināja, ka "mēs esam aizmirstot mūsu pagātni ātrāk ar katru gadu "(att 3A., Michel et al.). Atkārtot to pašu zemes gabalu, izmantojot 1) 1st versiju corpus, angļu datu kopā (tāpat kā zīm. 3A, Michel et al.)
    2. Tagad atkārtot to pašu gabalu ar 1. versijai, angļu fikcija datu kopā.
    3. Tagad atkārtot to pašu gabalu ar 2. versiju corpus, angļu datu kopā.
    4. Visbeidzot, atkārtot to pašu gabalu ar 2. versiju, angļu fikcija datu kopā.
    5. Aprakstiet atšķirības un līdzības starp šiem četriem gabaliem. Vai jūs piekrītat Michel et al. Sākotnējo interpretāciju novērotā tendence? (Hint: c) un d), būtu tāds pats kā 16. zīmējumā Pechenick et al).
    6. Tagad, kad esat atkārtot šo vienu secinājumu, izmantojot citu Google grāmatas corpora, izvēlieties citu valodu izmaiņas vai kultūras parādības sniegta Michel et al. Sākotnējo papīra. Vai jūs piekrītat to interpretāciju, ņemot vērā uzrādītajos Pechenick et al ierobežojumiem.? Lai padarītu jūsu arguments spēcīgāku, mēģiniet atkārtot to pašu grafiku, izmantojot dažādas versijas, kas, kā iepriekš datiem.
  8. [ ļoti grūti , datu vākšana , prasa kodēšana , Mans mīļākais ] Penney (2016) pēta, vai plašu publicitāti par NSA / PRISM uzraudzību (ti, Snowden atklāsmes), kas 2013. gada jūnijā ir saistīta ar asu un pēkšņu samazināšanos satiksmē ar Wikipedia rakstus par tēmām, kas rada privātās dzīves problēmas. Ja tā, tad šīs izmaiņas uzvedībā būtu saskaņā ar atdzesēšanas efektu, kas izriet no masveida uzraudzību. Par pieeja Penney (2016) ir dažreiz sauc pārtraukta laika sērijas dizainu un ir saistīts ar pieejām nodaļā apmēram tuvinot eksperimentus no novērojumu datiem (2.4.3).

    Izvēlēties tēmu atslēgvārdus, Penney minētas sarakstā ASV Iekšzemes drošības departamentam, ko izmanto uzskaites un sociālo mediju monitoringa. DHS saraksts categorizes dažus meklēšanas nosacījumus par jautājumu loku, ti, "veselības problēmas", "Infrastruktūra Drošība" un "terorismu." Par izpētes grupā, Penney izmantoti četrdesmit astoņi atslēgvārdus, kas saistīti ar "terorismu" (skatīt 8. tabulu pielikums). Pēc tam viņš apkopotas Wikipedia raksts apskatīt skaitu katru mēnesi par attiecīgajiem četrdesmit astoņās Wikipedia rakstus vairāk nekā trīsdesmit divu mēnešu periodā, sākot no 2012. gada janvāra līdz beigām 2014. gada augusta Lai stiprinātu savu argumentu, viņš arī radīja vairākas salīdzinājumu grupas, izsekojot viedokli rakstu par citām tēmām.

    Tagad jūs gatavojas atkārtot un paplašināt Penney (2016) . Visi izejas dati, kas jums būs nepieciešams, lai šai darbībai ir pieejama no Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Vai arī jūs varat saņemt to no R iepakojuma wikipediatrend (Meissner and Team 2016) . Kad jūs rakstīt-up jūsu atbildes, lūdzu, ņemiet vērā, kādi dati avots tu izmanto. (Piezīme: Šī pati aktivitāte parādās arī 6. nodaļā)

    1. Lasīt Penney (2016) un atkārtot 2. attēlu, kas parāda lapu apmeklējumu par "terorisms" -related lapām pirms un pēc Snowden atklāsmi. Interpretēt iegūtos datus.
    2. Tālāk, atkārtot att 4A, kas salīdzina studiju grupu ( "terorisms" -related pants) ar salīdzinājuma grupu, izmantojot atslēgvārdus kategorijās zem "DHS un citu aģentūru" no IDD saraksta (sk pielikumu 10. tabulu). Interpretēt iegūtos datus.
    3. B daļā), jūs salīdzināja izpētes grupu uz vienu salīdzinājuma grupā. Penney, salīdzinot arī ar diviem citiem salīdzinājuma grupās: "Infrastruktūras drošība" -related rakstu (pielikums 11 tabula) un tautas Vikipēdijas lapām (pielikums 12. tabula). Nāciet klajā ar alternatīvu salīdzinājuma grupā, un pārbaudīt, ja secinājumi no B daļa) ir jutīgs pret savu izvēli salīdzinājuma grupā. Kura izvēle salīdzinājuma grupā padara visvairāk nozīmē? Kāpēc?
    4. Autore norādīja, ka atslēgvārdi, kas saistīti ar "terorismu", tika izmantoti, lai izvēlētos Wikipedia rakstus, jo ASV valdība minēja terorisms kā galveno pamatojumu savu tiešsaistes uzraudzības praksi. Kā pārbaude šiem 48 "terorisms" -related atslēgvārdiem, Penney (2016) arī veica aptauju par MTurk lūdzot respondentus novērtēt katru no atslēgvārdiem ziņā valdības Trouble, Privātums jutīga, un izvairīšanās (pielikums 7. tabulā un 8). Atkārtot aptauju par MTurk un salīdzināt savus rezultātus.
    5. Pamatojoties uz rezultātiem daļēji d) un jūsu lasījumā rakstu, jūs piekrītat autora izvēli tēmu atslēgvārdiem studiju grupā? Kāpēc Vai kāpēc nē? Ja nav, ko jūs ieteiktu vietā?
  9. [ viegli ] Efrati (2016) ziņojumi, kas balstīti uz konfidenciālu informāciju, ka "kopējais apmaiņa" Facebook bija samazinājies par aptuveni 5,5% gadā, vairāk nekā gadu, bet "oriģināls raidījums sadale" bija noteikti 21% gadu vairāk nekā gadu. Šī samazināšanās bija īpaši izteikta ar Facebook lietotājiem vecumā līdz 30 gadiem. Ziņojumā piešķīrusi samazinājumu uz diviem faktoriem. Viens no tiem ir pieaugums skaita "draugi" cilvēki ir par Facebook. Otrs ir tas, ka daži koplietošana aktivitāte ir pārvietoti uz ziņapmaiņu un konkurentiem, piemēram, Snapchat. Ziņojumā arī atklāja vairākas taktiku Facebook bija mēģinājuši, lai veicinātu apmaiņu, ieskaitot News Feed algoritmu tweaks, kas padara oriģinālie posts pamanāmāks, kā arī periodisku atgādinājumus par sākotnējiem ziņojumi lietotājiem "šajā dienā" pirms vairākiem gadiem. Ko sekas, ja tādi ir, vai šie konstatējumi ir pētniekiem, kas vēlas izmantot Facebook kā datu avotu?

  10. [ vidējs ] Tumasjan et al. (2010) ziņo, ka daļa tweets minot politisko partiju saskaņota īpatsvaru balsu ka puse saņemto Vācijas parlamenta vēlēšanām 2009. gadā (2.9 attēls). Citiem vārdiem sakot, šķita, ka jūs varētu izmantot čivināt, lai prognozētu vēlēšanas. Tajā laikā šis pētījums tika publicēts tas tika uzskatīts par ļoti aizraujoši, jo šķita ieteikt vērtīgu izmantošanu kopēja avota lielo datu.

    Ņemot vērā slikto iezīmes lielo datu, tomēr, jums vajadzētu uzreiz būt skeptiski par šo rezultātu. Vācieši par čivināt, kas 2009. gadā bija diezgan nav pārstāvi grupa, un atbalstītāji vienas puses varētu čivināt par politiku biežāk. Tādējādi, šķiet pārsteidzoši, ka visi iespējamie aizspriedumi, ka jūs varētu iedomāties varētu kaut kā atcelt out. Faktiski rezultāti Tumasjan et al. (2010) izrādījās pārāk labi, lai būtu patiesība. To papīra, Tumasjan et al. (2010) uzskatīja sešas politiskās partijas: kristīgie demokrāti (CDU), Kristiāns sociāldemokrātiem (CSU), VPD Liberāļu (FDP), pa kreisi (Die Linke) un Zaļo partiju (Grüne). Tomēr visvairāk pirmajā minētajā Vācijas politiskā partija Twitter tolaik bija Pirātu partija (Piraten), puse, kas cīnās valdības regulējumu internetā. Kad Pirātu partija tika iekļautas analīzē, Twitter piemin kļūst briesmīga prognozēt vēlēšanu rezultātu (2.9 attēls) (Jungherr, Jürgens, and Schoen 2012) .

    2.9 skaitlis: Twitter piemin šķiet prognozēt no 2009. gada Vācijas vēlēšanu rezultātus (2010 Tumasjan et al.), Taču šis rezultāts izrādās atkarīgs no dažiem patvaļīgi un nepamatoti izvēli (Jungherr, Jürgens un Schoen 2012).

    2.9 skaitlis: Twitter piemin šķiet prognozēt no 2009. gada Vācijas vēlēšanu rezultātus (Tumasjan et al. 2010) , Taču šis rezultāts izrādās atkarīgs no dažiem patvaļīgi un nepamatoti izvēli (Jungherr, Jürgens, and Schoen 2012) .

    Vēlāk citi pētnieki visā pasaulē ir izmantoti mīļotājs metodes-piemēram, izmantojot noskaņojumu analīzi, lai atšķirtu starp pozitīvo un negatīvo piemin pušu-, lai uzlabotu spēju čivināt datu prognozēt dažādas veida vēlēšanu (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Lūk, kā Huberty (2015) apkopoja šo mēģinājumiem prognozēt vēlēšanu rezultātus:

    "Visiem zināms prognozēšanas metodes, kuru pamatā sociālo mediju nav izdevies, ja pakļauti prasībām patiesas tālredzīgu vēlēšanu prognozēšanā. Šīs nepilnības, šķiet, ir saistīts ar fundamentālo īpašību sociālo mediju, nevis uz metodiskajiem vai algoritmiskās grūtībām. Īsāk sakot, sociālo mediju nav, un, iespējams, nekad, piedāvā stabilu, objektīvu, reprezentatīvu priekšstatu par vēlētāju; un ērtības paraugi sociālo mediju nav pietiekamu datu, lai noteikt šīs problēmas post hoc. "

    Lasīt daži no pētījuma, kas noved Huberty (2015) pie šāda secinājuma, un uzrakstīt vienu lapu piezīmi politisku kandidātu apraksta vai un kā Twitter jāizmanto prognozēt vēlēšanas.

  11. [ vidējs ] Kāda ir atšķirība starp sociologs un vēsturnieks? Saskaņā ar Goldthorpe (1991) , galvenā atšķirība starp sociologs un vēsturnieks, ir kontrole pār datu vākšanu. Vēsturnieki ir spiesti izmantot relikvijas bet sociologi var pielāgot savu datu vākšanu uz konkrētiem mērķiem. Lasīt Goldthorpe (1991) . Kā atšķirība starp socioloģiju un vēsturi saistīti ar ideju Custommades un Readymades?

  12. [ grūti ] Balstoties uz iepriekšējo jautājumu, Goldthorpe (1991) vērsa vairāki kritisko atbilžu, tai skaitā viens no Nicky Hart (1994) , ka apstrīdētās Goldthorpe nodošanās pielāgotu datus. Lai precizētu iespējamos ierobežojumus pielāgotus datiem, Hart aprakstīja pārtikušo Worker projektu, liela aptauju, lai novērtētu attiecības starp sociālās šķiras un balsošanas, kas tika veikts ar Goldthorpe un kolēģu vidū 1960. Kā noprotams no zinātnieks, kurš labvēlīgi izstrādātas datu pār atrasto datiem, pārtikušo Worker Project vāc datus, kas tika pielāgoti, lai risinātu nesen ierosināto teorija par nākotni sociālās šķiras laikmetā pieaug dzīves līmeni. Bet, Goldthorpe un kolēģi kaut kā "aizmirsa", lai savāktu informāciju par balsošanas uzvedības sievietēm. Lūk, kā Nicky Hart (1994) kopsavilkumi visu epizodi:

    ". . . tas [ir] grūti izvairīties no secinājuma, ka sievietes tika izlaists, jo tas "pielāgotu" datu kopu aprobežojās ar paradigmu loģika, kas izslēgtas sieviešu pieredzi. Virza teorētisko redzējumu klases apziņas un rīcības, kā vīriešu raizēm. . . , Goldthorpe un viņa kolēģi jākonstruē kopumu empīriskiem pierādījumiem, kas baro un kopt savus teorētiskos pieņēmumus, nevis pakļaujot tos derīgu testa pietiekamību. "

    Hart turpināja:

    "Empīriskie atklājumi pārtikušo Worker projekta pastāstīt mums vairāk par masculinist vērtībām gadsimta vidum socioloģijā, nekā viņi jāinformē procesus stratifikācijas, politikā un materiālās dzīves."

    Vai tu domā par citu piemēru, kur īpaši pielāgotus datu vākšana ir aizspriedumus par datu kolektora uzcelta tajā? Kā tas salīdzināt ar algoritmiskās sajauktiem? Kādas sekas tas varētu būt, kad pētniekiem vajadzētu izmantot Readymades un kad tie jāizmanto Custommades?

  13. [ vidējs ] Šajā nodaļā es kontrastēja datus pētnieki pētniekiem ar administratīvajiem reģistriem rada uzņēmumiem un valdībām savākti. Daži cilvēki to sauc šos administratīvos ierakstus "atrada datiem," kas tie kontrastē ar "paredzētas datiem." Tā ir taisnība, ka administratīvie ieraksti ir atrodami pētnieki, bet tie ir arī ļoti izstrādāta. Piemēram, mūsdienu tehnoloģiju uzņēmumi tērē milzīgas summas, laiku un resursus, lai savāktu un mācītāja palīgs savus datus. Tādējādi šie administratīvie ieraksti ir gan atrast un izstrādāta, tas tikai atkarīgs no jūsu viedokļa (2.10 attēls).

    2.10 attēls: Attēlā ir gan pīļu un trušu; ko jūs redzat ir atkarīgs no jūsu viedokļa. Valdības un biznesa administratīvie ieraksti ir gan atrastas un izstrādātas; ko jūs redzat ir atkarīgs no jūsu viedokļa. Piemēram, zvans datu ieraksti ar mobilo telefonu kompānija savākti ir atrodami dati no viedokļa pētnieka. Bet šie precīzs paši ieraksti ir paredzēti datu perspektīvu kāds strādā norēķinu departamenta tālruņa uzņēmums. Avots: Vikipēdija

    2.10 attēls: Attēlā ir gan pīļu un trušu; ko jūs redzat ir atkarīgs no jūsu viedokļa. Valdības un biznesa administratīvie ieraksti ir gan atrastas un izstrādātas; ko jūs redzat ir atkarīgs no jūsu viedokļa. Piemēram, zvans datu ieraksti ar mobilo telefonu kompānija savākti ir atrodami dati no viedokļa pētnieka. Bet šie precīzs paši ieraksti ir paredzēti datu perspektīvu kāds strādā norēķinu departamenta tālruņa uzņēmums. Avots: Vikipēdija

    Sniedz piemēru datu avotu, kur redzēt to gan kā atrasts un izstrādātas ir noderīgi, ja izmanto šo datu avotu pētniecībai.

  14. [ viegli ] Jo pārdomāto eseja, Christian Sandvig un Eszter Hargittai (2015) apraksta divu veidu digitālo pētniecības, kur ciparu sistēma ir "instruments" vai "objekts pētījumu." Piemērs no pirmā veida pētījuma kur Bengtsson un kolēģi (2011) izmanto mobilo telefonu datu izsekot migrācijas pēc zemestrīces Haiti 2010. gadā piemērs otrā veida ir, ja Jensen (2007) pētījumi, kā mobilo tālruņu ieviešana visā Kerala, Indija ietekmēja tirgus darbību attiecībā uz zivīm. Es uzskatu, ka tas noderīgi, jo tas precizē, ka pētījumi, izmantojot digitālo datu avotiem var būt diezgan atšķirīgi mērķi, pat ja tie ir, izmantojot to pašu veida datu avotu. Lai vēl vairāk precizētu šo atšķirību, aprakstīt četrus pētījumus, ka jūs esat redzējuši: divi, kas izmanto digitālo sistēmu kā instrumentu, un divas, kas izmanto digitālo sistēmu, kā objekts pētījumā. Jūs varat izmantot piemērus no šajā nodaļā, ja vēlaties.