Įmonės veiklos sritys

raktas:

  • sudėtingumo laipsnį: lengva lengvas , vidutinio vidutinis , sunku sunku , labai sunku labai sunku
  • reikia matematikos ( reikalauja matematikos )
  • reikalauja kodavimo ( reikalauja kodavimo )
  • duomenų rinkimas ( duomenų rinkimas )
  • Mano mėgstamiausi ( Mano mėgstamiausias )
  1. [ vidutinis , Mano mėgstamiausias ] Algoritminė kebli problema su "Google" gripo tendencijose. Skaityti popierine Lazer et al. (2014) , ir parašyti trumpą, aiškų paštu iki ne "Google" inžinierius paaiškinti problemą ir siūlo tai, kaip išspręsti problemą idėja.

  2. [ vidutinis ] Bollen, Mao, and Zeng (2011) teigia, kad duomenys iš Twitter gali būti naudojamas prognozuoti akcijų rinkoje. Ši išvada paskatino gyvatvorių fondas-Derwent Kapitalo rinkų-investuoti į akcijų rinkoje, remiantis surinktų iš Twitter duomenų kūrimo (Jordan 2010) . Kas įrodymai būtų norite pamatyti prieš išleisti savo pinigus į šį fondą?

  3. [ lengvas ] Nors kai kurie visuomenės sveikatos advokatai kruša e-cigaretes kaip veiksmingą pagalbą metant rūkyti, kiti įspėja apie galimus pavojus, pavyzdžiui, aukšto lygio nikotino. Įsivaizduokite, kad tyrėjas nusprendžia studijuoti visuomenės nuomonę link e-cigaretes renkant e-cigaretės susijusius Twitter žinutes ir atlikti vertinimų analizę.

    1. Kokie yra trys galimi subtilybėmis, kad jums yra labiausiai susirūpinę šiame tyrime?
    2. Clark et al. (2016) bėgo tik tokį tyrimą. Pirma, jie renkami 850000 tweets, kad naudojami e-cigarete susijusių raktažodžius nuo 2012 sausio iki 2014 gruodžio Po atidžiau, jie suprato, kad daugelis šių tweets buvo automatizuotas (ty, ne gaminamas žmogaus organizme) ir daugelis šių automatizuotų tweets iš esmės buvo reklamos. Jie sukūrė žmogaus aptikimo algoritmas atskirti automatines tweets iš organinių tweets. Naudojant šią žmogaus Aptikti algoritmą jie nustatė, kad 80% tweets buvo automatizuotas. Ar ši išvada pakeisti savo atsakymą į (a)?
    3. Kai jie palygino ekologiškais ir automatizuotose tweets nuotaikos jie nustatė, kad automatizuotos tweets yra labiau teigiamas nei organinių tweets (6.17 lyginant su 5.84). Ar ši išvada pakeisti savo atsakymą į (b)?
  4. [ lengvas ] 2009 lapkričio, "Twitter" pakeitė klausimas į Čivināšana dėžutę iš "Ką tu darai?" Iki "Kas vyksta?" (Https://blog.twitter.com/2009/whats-happening).

    1. Kaip manote raginimų kaita turės įtakos, kuris Čivināšana ir / arba tai, ką jie Čivināšana?
    2. Vardas vieną mokslinių tyrimų projektui, kurį norėtų, kad eilutė "Ką tu darai?" Paaiškinkite, kodėl.
    3. Vardas vieną mokslinių tyrimų projektui, kurį norėtų, kad greitai "Kas vyksta?" Paaiškinkite, kodėl.
  5. [ vidutinis ] Kwak et al. (2010) analizavo 41,7 mln vartotojų profilius, 1,47 mlrd socialinius santykius, 4262 populiariausias temas, ir 106 mln tweets nuo birželio 6 ir birželio 31, 2009. Remiantis šia analize jie padarė išvadą, kad "Twitter" aptarnauja daugiau kaip nauja terpė keistis informacija nei Socialinis tinklas.

    1. Atsižvelgiant Kwak et al išvada, kokios rūšies mokslinių tyrimų darytum su Twitter duomenimis? Kokio tipo moksliniams tyrimams tu negali padaryti su Twitter duomenimis? Kodėl?
    2. 2010, "Twitter" pridėjo Kas Sekite tarnyba priėmimo pritaikytą pasiūlymą vartotojams. Trys rekomendacijos rodomi vienu metu pagrindiniame puslapyje. Rekomendacijos dažnai sudarytas iš One "draugų-of-draugais", o Bendri kontaktai taip pat rodomi rekomendacijos. Vartotojai gali atnaujinti, kad matytumėte naują rekomendacijų rinkinį arba apsilankykite puslapyje ilgesnį sąrašą rekomendacijas. Ar manote, kad ši nauja funkcija būtų pakeisti savo atsakymą į A dalis)? Kodėl ar kodėl ne?
    3. Su, Sharma, and Goel (2016) įvertino Kas Sekite tarnyba poveikį ir nustatė, kad nors vartotojai visoje populiarumo spektro naudos iš rekomendacijų, populiariausi nariai pasipelnė iš esmės daugiau, negu vidutinis. Ar ši išvada pakeisti savo atsakymą į B dalis)? Kodėl ar kodėl ne?
  6. [ lengvas ] "Retweets" dažnai naudojamas siekiant įvertinti poveikį ir skleisti įtaką Twitter. Iš pradžių, vartotojai turėjo nukopijuokite ir įklijuokite Čivināšana jie patiko, pažymėti originalų autoriaus jo / jos rankena, ir rankiniu būdu įrašykite "RT" prieš Čivināšana nurodyti, kad tai retweet. Tada, 2009 m Twitter "pridėjo" retweet "mygtuką. 2016 birželio, "Twitter" leido vartotojams retweet savo tweets (https://twitter.com/twitter/status/742749353689780224). Ar manote, kad šie pokyčiai turėtų įtakos, kaip jūs naudojate "Retweets" savo tyrimus? Kodėl ar kodėl ne?

  7. [ vidutinis , duomenų rinkimas , reikalauja kodavimo ] Michel et al. (2011) sukonstravo corpus besiformuojančią iš Google pastangų skaitmeninti knygas. Naudojant pirmąją versiją tekstyno, kuris buvo paskelbtas 2009 m esančios virš 5 milijonų suskaitmenintų knygų, autoriai išanalizavo žodis naudojimo dažnumą ištirti kalbines pokyčius ir kultūrines tendencijas. Netrukus "Google Books" Corpus tapo populiarus duomenų šaltinis mokslininkams, ir 2. versija bazėje buvo išleistas 2012 m.

    Tačiau Pechenick, Danforth, and Dodds (2015) perspėjo, kad tyrėjai turi prieš naudojant jį piešimo plačias išvadas visiškai apibūdinti bandinių ėmimo procesą tekstyno. Pagrindinė problema yra tai, kad korpusas yra biblioteka-kaip, turintis vieną iš kiekvienos knygos. Kaip rezultatas, individo, produktyvus autorius galėtų pastebimai įterpti naujus žodžius į Google Books leksikos. Be to, moksliniai tekstai sudaro vis materialinę dalį tekstyno visoje 1900. Be to, lyginant dvi versijos anglų Grožinė literatūra rinkinių, Pechenick et al. rasta įrodymas, kad nepakanka filtravimo buvo naudojamas gaminant pirmąją versiją. Visi duomenys, kurių reikia veiklai galite rasti čia: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Be Michelio et al., Pradinio popieriaus (2011) , jie naudojami 1-oji versija anglų duomenų rinkinį, brėžiamas į naudojimo metus "1880" dažnį, "1912" ir "1973", ir padarė išvadą, kad "mes esame pamiršta savo praeitį greičiau su kiekvienu praėjusiais metais "(3A pav. Michel et al.,). Pakartotiniai tą patį sklypą naudojant 1) 1-oji versija corpus, anglų rinkinį (kaip pav. 3A, Michel et al.)
    2. Dabar atkartoti tą patį sklypą su 1 versija, anglų fantastikos rinkinį.
    3. Dabar atkartoti tą patį sklypą su 2-oji versija corpus, anglų rinkinį.
    4. Galiausiai, atkartoti tą patį sklypą su 2-oji versija, anglų fantastikos rinkinį.
    5. Apibūdinkite skirtumus ir panašumus tarp šių keturių sklypų. Ar sutinkate su Michel et al., Pradinio aiškinimo pastebėta tendencija? (Pastaba: c) ir d) turėtų būti toks pats, kaip 16 pav Pechenick et al).
    6. Dabar, kad jūs turite pakartoti šį vieną išvadą naudojant skirtingą Google Books corpora pasirinkti kitą kalbinę pakeisti arba kultūros reiškinius, pateiktą Michelio et al., Pradinio popieriaus. Ar sutinkate su jų aiškinimo, atsižvelgiant į pateiktus Pechenick kt apribojimų.? Norėdami, kad jūsų argumentas stipresnis, pabandykite pakartoti tą patį grafiką, naudojant skirtingų versijų rinkinys, kaip nurodyta pirmiau duomenis.
  8. [ labai sunku , duomenų rinkimas , reikalauja kodavimo , Mano mėgstamiausias ] Penney (2016) tyrinėja, ar viešumas apie NSA / PRISM priežiūros (ty SNOWDEN Revelations) 2013 birželio asocijuojasi su aštriu ir staigaus sumažėjimo eismo Vikipedijos straipsnių temomis, auginančias susirūpinimą dėl privatumo. Jei taip, tai elgesio pokytį būtų suderinamas su atšaldymo efektas atsiranda masinio sekimo. Iš požiūris Penney (2016) kartais vadinamas nepertraukiamas laiko eilučių dizainą ir yra susijusi su metodų skyriuje apie artėjimą eksperimentus iš stebėjimo duomenų (2.4.3 skirsnis).

    Norėdami pasirinkti temą raktažodžius, Penney nurodytų į sąrašą naudojama JAV Vidaus saugumo departamentui stebėjimo ir socialinės žiniasklaidos priežiūrą. DHS sąrašas skirsto tam tikrus paieškos žodžius į klausimus, ty "sveikatos problema", "Infrastruktūros saugumas" ir "terorizmas. Diapazoną" Dėl studijų grupės, Penney naudojami keturiasdešimt aštuoni raktažodžius, susijusius su "terorizmu" (8 lentelę priedas). Jis tada sudedami Vikipedijos straipsnis peržiūrų skaičius per mėnesį už atitinkamą keturiasdešimt aštuoni "Wikipedia" straipsnių virš trisdešimt du mėnesių laikotarpį nuo 2012 m sausio pradžios iki 2014 rugpjūčio pabaigos sustiprinti savo argumentus, jis taip pat sukūrė keletą palyginimą grupės pagal stebėjimo straipsnių nuomonę apie kitas temas.

    Dabar, jūs ketinate atkartoti ir išplėsti Penney (2016) . Visi neapdorotų duomenų, kad jums reikės šiai veiklai yra prieinama iš Vikipedijos (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Arba jūs galite gauti jį iš R paketo wikipediatrend (Meissner and Team 2016) . Rašydami-iki savo atsakymus, atkreipkite dėmesį, kurių duomenys šaltinis, kurį naudojote. (Pastaba: Ta pati veikla taip pat pasirodo 6 skyriuje)

    1. Skaityti Penney (2016) ir atkartoti 2 pav kuri parodo puslapio peržiūrų "terorizmas" AMŽIAUS puslapius prieš ir po SNOWDEN apreiškimo. Interpretuoti rezultatus.
    2. Be to, atkartoti pav 4A, kuri lygina tyrimo grupę ( "terorizmas" "susiję straipsniai) su lyginamosios grupės naudodami raktinius žodžius suskirstyti pagal" VSD ir kitų agentūrų "iš VSD sąrašą (žr priedą 10 lentelę). Interpretuoti rezultatus.
    3. Iš dalies b) Jūs palygino tyrimo grupę į vieną lyginamojoje grupėje. Penney pat, palyginti su kitų dviejų lyginamųjų grupių: "Infrastruktūros saugumas" AMŽIAUS straipsniai (priedas 11 lentelė) ir populiariausių Wikipedia puslapius (Priedas 12 lentelė). Sugalvoti alternatyvios lyginamojoje grupėje ir išbandyti, jei išvados B dalis) yra jautrus savo pasirinkimą lyginamojoje grupėje. Kuris pasirinkimas palyginamosios grupės daro didžiausią jausmą? Kodėl?
    4. Autorė teigė, kad raktiniai žodžiai susiję su "terorizmu" buvo naudojamas pasirinkti Vikipedijos straipsnius, nes JAV vyriausybė aktai terorizmu kaip pagrindinis pateisinimo savo interneto stebėjimo praktika. Dėl šių 48 "terorizmo" AMŽIAUS raktažodžius čekį, Penney (2016) taip pat atliko apklausą apie MTurk klausta, įvertinti kiekvieną iš žodžių prasme Vyriausybės bėdą, privataus pobūdžio, ir vengimas (7 priedėlis lentelėje ir 8). Pakartotiniai apklausą MTurk ir palyginti savo rezultatus.
    5. Remiantis D dalyje rezultatus) ir jūsų svarstymui straipsnį, ar sutinkate su autoriaus pasirinkimas temą raktažodžius tiriamojoje grupėje? Kodėl ar kodėl ne? Jei ne, ką patartumėte vietoj?
  9. [ lengvas ] Efrati (2016) ataskaitas, remiantis konfidencialia informacija, kad "bendra dalijimosi" Facebook skaičius sumažėjo maždaug 5,5% metų per metus, o "originalas transliacija dalijimasis", sumažėjo 21% metų per metus. Šis mažėjimas buvo ypač aktuali su Facebook vartotojams pagal 30 metų amžiaus. Ataskaitoje priskirtas nuosmukį dviejų veiksnių. Vienas iš jų yra į "draugų" Žmonės "Facebook gausėjimas. Kitas yra tai, kad kai dalijimasis veikla persikėlė į pranešimus ir konkurentų, tokių kaip "Snapchat. Ataskaita taip pat atskleidė keletą taktikos "Facebook" bandė padidinti dalijimąsi, įskaitant naujienų algoritmas tweaks, kad padaryti originalios pranešimų ryškesni, taip pat periodinių priminimus pirminių pranešimų vartotojams "šią dieną" prieš keletą metų. Kokių pasekmių, jei toks yra, ar šios išvados turėti mokslininkų, kurie nori naudoti "Facebook" kaip duomenų šaltinio?

  10. [ vidutinis ] Tumasjan et al. (2010) pranešė, kad tweets, kuriuose paminėtas politinę partiją dalis atitiko balsų, kad gautų šalis Vokietijos parlamento rinkimų 2009 metais (2,9 pav) dalį. Kitaip tariant, tai paaiškėjo, kad galėtumėte naudotis Twitter prognozuoti rinkimus. Tuo metu šis tyrimas buvo paskelbtas manyta labai įdomi, nes ji atrodė pasiūlyti vertingą naudoti bendrą šaltinį didelių duomenų.

    Atsižvelgiant į tai, blogi bruožai didelių duomenų, tačiau, reikia nedelsiant skeptiškai šio rezultato. Vokiečiai Twitter 2009 buvo gana ne atstovas grupę ir rėmėjai viena šalis gali Čivināšana apie politiką dažniau. Taigi, atrodo keista, kad visi galimi subtilybėmis, kad galėtumėte įsivaizduoti būtų kažkaip panaikintų. Tiesą sakant, į rezultatus Tumasjan et al. (2010) pasirodė esąs per daug gerai kad būtų tiesa. Jų popieriaus, Tumasjan et al. (2010) laikomi šeši politines partijas: Krikščionių demokratų (CDU), Christian socialdemokratai (CSU), BPD, liberalai (FDP), į kairę (Die Linke) ir Žaliųjų partijos (Grüne). Tačiau labiausiai pirmiau minėtus Vokietijos politinė partija Twitter tuo metu buvo Piratų partija (Piraten), šalis, kad kovoja vyriausybės reguliavimą internete. Kai Piratų partija buvo įtrauktas į analizę, "Twitter" pamini tampa baisi prognozuoti rinkimų rezultatus (2.9 paveikslas) (Jungherr, Jürgens, and Schoen 2012) .

    2.9 pav Twitter mini pasirodys prognozuoti 2009 Vokietijos rinkimų rezultatus (2010 Tumasjan ir kt.), Tačiau šis rezultatas paaiškėja, kad nuo kai kurių savavališkų ir nepagrįstų pasirinkimų (Jungherr, Jürgens ir šonų 2012).

    2.9 pav Twitter mini pasirodys prognozuoti 2009 Vokietijos rinkimų rezultatus (Tumasjan et al. 2010) , Tačiau šis rezultatas paaiškėja, kad nuo kai kurių savavališkų ir nepagrįstų pasirinkimų (Jungherr, Jürgens, and Schoen 2012) .

    Vėliau, kitų tyrėjų visame pasaulyje naudojami mėgėjas metodai-pavyzdžiui, naudojant nuotaikos analizę atskirti teigiamas ir neigiamas pamini iš šalių-siekiant pagerinti Twitter duomenimis gebėjimas prognozuoti įvairių tipų rinkimus įvairovė (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Štai kaip Huberty (2015) apibendrino šių bandymų prognozuoti rinkimų rezultatus:

    "Visi žinomi prognozavimo metodai, pagrįsti socialinės žiniasklaidos nepavyko, kai atliekamas tikrosios ateitį rinkimų prognozavimo poreikius. Šie gedimai atsirado dėl pagrindinių savybių socialinės žiniasklaidos, o ne metodologinių arba algoritminių sunkumų. Trumpai tariant, socialinė žiniasklaida nėra ir tikriausiai niekada nebus, siūlome stabilų nešališką, atstovaujamąjį vaizdą rinkėjams; ir patogumas pavyzdžiai socialinės žiniasklaidos trūksta pakankamai duomenų nustatyti šias problemas post hoc. "

    Skaityti kai kurių tyrimų, kad sukelti Huberty (2015) , kad šios išvados, ir parašyti vieno puslapio atmintinę prie politinio kandidato, aprašanti, ar ir kaip "Twitter" turėtų būti naudojamas prognozuoti rinkimus.

  11. [ vidutinis ] Koks skirtumas tarp sociologo ir istoriko skirtumas? Pasak Goldthorpe (1991) , pagrindinis skirtumas tarp sociologas ir istorikas yra kontroliuoti duomenų rinkimo. Istorikai yra priversti naudoti relikvijas o sociologai gali pritaikyti savo duomenų rinkimą konkretiems tikslams. Skaityti Goldthorpe (1991) . Kaip tarp sociologijos ir istorijos skirtumas susijęs su Custommades ir Readymades idėja?

  12. [ sunku ] Remiantis ankstesniame klausime, Goldthorpe (1991) atkreipė kritinių atsakymų skaičių, įskaitant vieną iš Nicky Hart (1994) , kad ginčijama Goldthorpe atsidavimas siūtais duomenis. Norėdami išsiaiškinti galimus apribojimus tailor-made duomenimis, Hart aprašyta patvankos Worker projektas, didelis apklausą matuoti tarp socialinės klasės ir balsavimo santykius, kurie atliko Goldthorpe ir kolegomis 1960-ųjų viduryje. Kaip ir galima tikėtis iš mokslininkas, kuris palankumo sukurta duomenis per rastais duomenimis, patvankos Darbuotojų Projektų surinkti duomenis, kurie buvo pritaikytos tenkinti neseniai pasiūlytą teoriją apie socialinės klasės ateityje darant didėja gyvenimo standartus erą. Bet Goldthorpe ir kolegos kažkaip "pamiršo" rinkti informaciją apie balsavimo elgesiu moterims. Štai kaip Nicky Hart (1994) apibendrina visą epizodą:

    ". , , jis [yra] sunku išvengti išvados, kad moterys buvo praleista, nes tai "specialiai parengti" rinkinys buvo tik pagal paradigminės logika, kuri nepatenka moterų patirtį. Skatinami teoriniu vizijos klasės sąmonės ir veiksmų, kaip vyrų susirūpinimo. , , , Goldthorpe ir jo kolegos sukonstravo empirinių įrodymų, kurie šeriami ir puoselėtas savo teorines prielaidas, o ne kišti į galiojantį bandymo tinkamumo rinkinį. "

    Hart tęsė:

    "Empiriniai faktai patvankos Darbuotojų projekto papasakoti daugiau apie masculinist vertybių vidurio amžiaus sociologijos, nei jie apie tai informuoja stratifikacijos, politikos ir materialaus gyvenimo procesus."

    Ar manote, kad kitų pavyzdžių, kai specialiai pritaikytų duomenų rinkimas turi galimybę duomenų kaupiklis pastatytas į jį subtilybėmis? Kaip tai palyginti su algoritminės komplikuota? Kokių pasekmių tai gali turėti kai mokslininkai turėtų naudoti Readymades ir kai jie turėtų naudoti Custommades?

  13. [ vidutinis ] Šiame skyriuje aš kontrastas mokslininkų mokslininkams su administraciniais dokumentais, sukurtų bendrovių ir vyriausybių surinktus duomenis. Kai kurie žmonės vadina šių administracinių įrašų "rasti duomenis", kurioje jie kontrastuoja su "suprojektuoti duomenis." Tiesa, kad administraciniai įrašai rado mokslininkai, tačiau jie taip pat labai skirta. Pavyzdžiui, modernūs technologijų bendrovės milžiniškas sumas laiko ir išteklių, kad galėtų rinkti ir kuruoti savo duomenis. Taigi, šie administraciniai įrašai randami tiek ir suprojektuoti, tai tiesiog priklauso nuo jūsų perspektyvos (2.10 pav.)

    2.10 pav Paveikslėlyje yra ir antis ir triušiai; tai, ką matote, priklauso nuo jūsų perspektyvos. Vyriausybės ir verslo administravimo įrašai rasti ir skirta tiek; tai, ką matote, priklauso nuo jūsų perspektyvos. Pavyzdžiui, skambutis duomenų įrašus pagal mobiliųjų telefonų kompanija surinkti nustatoma, kad duomenys iš tyrėjo perspektyvos. Tačiau, šie lygiai toks pats žiniaraštis yra skirtos duomenų perspektyvą kažkas dirbančiai atsiskaitymo departamento telefonų kompanija. Šaltinis: Vikipedija

    2.10 pav Paveikslėlyje yra ir antis ir triušiai; tai, ką matote, priklauso nuo jūsų perspektyvos. Vyriausybės ir verslo administravimo įrašai rasti ir skirta tiek; tai, ką matote, priklauso nuo jūsų perspektyvos. Pavyzdžiui, skambutis duomenų įrašus pagal mobiliųjų telefonų kompanija surinkti nustatoma, kad duomenys iš tyrėjo perspektyvos. Tačiau, šie lygiai toks pats žiniaraštis yra skirtos duomenų perspektyvą kažkas dirbančiai atsiskaitymo departamento telefonų kompanija. Šaltinis: Vikipedija

    Pateikite duomenų šaltinio pavyzdį, kur matome, kad tiek rasti ir skirta yra naudinga, kai naudojant tą duomenų šaltinis tyrimus.

  14. [ lengvas ] Be mąstantis esė, Krikščionis Sandvig ir Ester Hargittai (2015) apibūdina dviejų rūšių skaitmeninių tyrimų, kur skaitmeninis sistema yra "priemonė" arba "tyrimo objektas". Iš pirmosios rūšies tyrimo pavyzdys yra kur Bengtsson ir kolegos (2011) naudojamas mobiliųjų telefonų duomenis po žemės drebėjimo Haityje 2010 metais sekti migraciją antros rūšies pavyzdys yra, kai Jensenas (2007) tyrimai, kaip mobiliųjų telefonų įvedimas visoje Kerala, Indija turėjo įtakos žuvų rinkos veikimą. Manau, kad tai naudinga, nes ji paaiškina, kad tyrimai, naudojant skaitmenines duomenų šaltinius gali turėti gana skirtingus tikslus, net jei jie naudoja tos pačios rūšies duomenų šaltinį. Siekiant dar labiau paaiškinti šį skirtumą, apibūdinti keturis tyrimus, kad jūs kartą matytas: dvi, kurios naudoja skaitmeninį sistema kaip priemone ir du, kurie naudoja skaitmeninę sistemą kaip tyrimo objektas. Jūs galite naudoti pavyzdžių iš šiame skyriuje, jei norite.