fəaliyyət

Key:

  • Çətinlik dərəcəsi: asan asan orta mühit , çətin çətin , çox çətin çox çətin
  • (Riyaziyyat tələb riyaziyyat tələb )
  • (Kodlaşdırma tələb kodlaşdırma tələb )
  • məlumatların toplanması ( məlumatların toplanması )
  • Seçdiklərimə ( mənim sevimlim )
  1. [ mühit , mənim sevimlim ] Alqoritmik confounding Google Flu Trends ilə bir problem idi. Tərəfindən kağız oxuyun Lazer et al. (2014) , və Google mühəndis problemi izah və bu problemi həll etmək üçün necə bir fikir təklif qısa, aydın e-poçt yazın.

  2. [ mühit ] Bollen, Mao, and Zeng (2011) Twitter data fond bazarının proqnozlaşdırmaq üçün istifadə edilə bilər ki, iddia edir. Bu nəticə hedcinq fondu-Derwent Capital Twitter toplanmış məlumatlar əsasında fond bazarında investisiya Markets-bir yaradılmasına gətirib çıxardı (Jordan 2010) . Nə sübut ki, fonda pul qoyulması əvvəl görmək istəyirsiniz?

  3. [ asan bəzi ictimai səhiyyə vəkillər smoking dayandırılması üçün effektiv yardım kimi e-siqaret dolu olsa], digər bu cür nikotin yüksək səviyyəsi potensial riskləri haqqında xəbərdarlıq. tədqiqatçı e-siqaret bağlı Twitter mesajları toplanması və əhval-ruhiyyəni təhlil aparılması e-siqaret qarşı ictimai rəyin öyrənilməsi üçün qərar düşünün.

    1. Bu işdə ən çox narahat üç mümkün biases hansılardır?
    2. Clark et al. (2016) belə bir iş qaçdı. Birincisi, onlar yaxın yoxlama sonra dekabr 2014-cü il yanvar 2012 e-siqaret bağlı açar sözlər, istifadə 850.000 tweets toplanır, bu tweets çox (yəni, insanlar tərəfindən istehsal) avtomatlaşdırılmış ki, həyata keçirilir və bu avtomatlaşdırılmış tweets çox əhəmiyyətli idi reklam. Onlar üzvi tweets avtomatik tweets ayırmaq üçün İnsan aşkar alqoritm inkişaf etmişdir. bu Human onlar tweets 80% avtomatlaşdırılmış idi ki, tapılmadı alqoritmi aşkar istifadə. Bu tapıntı hissəsi (a) cavab dəyişdirmək varmı?
    3. Onlar üzvi və avtomatlaşdırılmış tweets əhval-ruhiyyəni müqayisədə onlar avtomatik tweets üzvi tweets (5.84 qarşı 6.17) daha müsbət olduğunu gördük. Bu tapıntı (b) cavab dəyişdirmək varmı?
  4. [ asan ] Noyabr 2009-cu ildə, Twitter "Nə edirsən?" Dən tweet qutusuna sual dəyişdi "Nə olub?" (Https://blog.twitter.com/2009/whats-happening).

    1. Necə baxın dəyişiklik edən tweet və / və ya onlar tweet nə təsir edəcək düşünürsünüz?
    2. Siz tez tercih olan bir tədqiqat layihəsi adı "Nə edirsən?" niyə izah.
    3. Siz tez tercih olan bir tədqiqat layihəsi adı "baş nədir?" niyə izah.
  5. [ mühit ] Kwak et al. (2010) onlar Twitter bir çox mübadiləsi informasiya yeni orta kimi daha xidmət edir bağlanmış bu təhlili əsasında 41.7 milyon istifadəçi profilleri, 1,47 milyard ictimai münasibətləri, 4262 yamaclarda mövzular iyun 6 İyun 31 arasında 106 milyon tweets, 2009-cu il təhlil sosial şəbəkə.

    1. Kwak et Al tapmaq nəzərə alaraq, siz Twitter data ilə tədqiqat hansı növ edərdiniz? Siz Twitter data ilə tədqiqat hansı deyil ki? Niyə?
    2. 2010-cu ildə, Twitter əlavə istifadəçilər üçün xüsusi təklif edilməsi xidməti riayət edən bir. Three tövsiyələr əsas səhifə bir zamanda göstərilir. Tövsiyələr tez-tez ", dostlar-of-dost" bir tərtib olunur və qarşılıqlı əlaqələr də tövsiyə göstərilir. İstifadəçilər tövsiyələr yeni bir sıra və ya tövsiyələrin uzun siyahısı ilə bir səhifəsini ziyarət üçün yenileyin bilər. siz) bu yeni xüsusiyyət hissəsi A cavab dəyişiklik olacaq düşünürsünüz? Niyə və ya nə deyil?
    3. Su, Sharma, and Goel (2016) xidmət riayət edən təsiri qiymətləndirilir və populyarlıq spektri üzrə users tövsiyələr faydalanmışdır isə, ən məşhur istifadəçilər orta nisbətən əhəmiyyətli dərəcədə daha fayda ki, tapılmadı. Bu tapıntı) part b cavab dəyişdirmək varmı? Niyə və ya nə deyil?
  6. [ asan ] "Retweets" tez-tez təsir ölçmək üçün istifadə və Twitter təsiri yayılmışdır. Əvvəlcə, istifadəçilər surəti və onlar xoşuma gəldi tweet yapışdırıb, onun / onun dəstəyi ilə orijinal müəllif tag, və əl bir retweet ki, göstərir tweet əvvəl "RT" yazın idi. Daha sonra 2009-ci ildə Twitter bir "retweet" düyməsinə əlavə edib. İyun 2016-ci ildə, Twitter mümkün users (https://twitter.com/twitter/status/742749353689780224) öz ​​tweets retweet üçün. bu dəyişikliklər sizin tədqiqat "retweets" istifadə necə təsir etməlidir düşünürsünüz? Niyə və ya nə deyil?

  7. [ mühit , məlumatların toplanması , kodlaşdırma tələb ] Michel et al. (2011) kitablarını rəqəmsal mühitə Google səy çıxan bir korpus inşa. 2009-ci ildə nəşr olunan və 5 milyon rəqəmsal kitab üzərində olan oldu corpus ilk versiyasını istifadə edərək, müəlliflər dil dəyişikliklər və mədəni istiqamətləri araşdırmaq üçün söz istifadə tezliyi təhlil. Tezliklə Google Books Corpus tədqiqatçılar üçün məşhur məlumat mənbəyi oldu və məlumat bazasının 2-ci versiyası 2012-ci ildə azad edilib.

    Lakin Pechenick, Danforth, and Dodds (2015) tədqiqatçılar tam geniş nəticələr rəsm üçün istifadə etməzdən əvvəl corpus seçmə prosesi xarakterizə etmək lazımdır ki, xəbərdarlıq. Əsas məsələ corpus hər bir kitab biri olan,-kitabxana kimi olmasıdır. Nəticədə, fərdi olaraq, prolific müəllifidir xeyli Google Books lexicon yeni ifadələr daxil edə bilər. Bundan başqa, elmi mətnləri 1900e ərzində corpus getdikcə maddi hissəsini təşkil edir. Bundan əlavə, İngilis Fiction Kümeleri, Pechenick et al iki versiyası müqayisə. qeyri-kafi filtreleme ilk versiyası istehsal istifadə edilmişdir ki, tapılmadı dəlil. fəaliyyəti üçün lazım olan məlumatların hamısı burada mövcuddur: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Michel et al. Orijinal yazıda (2011) , onlar ingilis data set 1-ci versiyası istifadə "1912" və "1973", "1880-ci" İllərdir istifadə tezliyi biçdi və biz ki, "bağlanmış hər keçən il daha sürətli keçmiş unutma "(Fig. 3A, Michel et al.). ) Corpus, Fig. 3A, Michel et al eyni English verilənlər bazasının (1-ci versiya 1 istifadə edərək, eyni süjet Replicate.)
    2. İndi 1-ci versiyası, ingilis bədii verilənlər bazasının eyni sahəsi kopya.
    3. İndi corpus, English verilənlər bazasının 2-ci versiyası ilə eyni sahəsi kopya.
    4. Nəhayət, 2-ci versiyası, ingilis bədii verilənlər bazasının eyni sahəsi kopya.
    5. bu dörd sahələri arasında fərqləri və oxşarlıqları təsvir edin. Siz müşahidə trend Michel et al. orijinal şərhi ilə razısınızmı? (Ip ucu: c) və d) Pechenick et al Şəkil 16 kimi eyni olmalıdır).
    6. İndi müxtəlif Google Books Korporasiyası istifadə edərək, bu bir tapıntı təkrar ki, Michel et al. Orijinal kağız təqdim bir dil dəyişiklik və ya mədəni hadisələrin seçin. Siz Pechenick et al təqdim məhdudiyyətlər işığında şərh razısınız. Sizin arqument güclü etmək üçün, yuxarıda müəyyən məlumatların müxtəlif versiyasını istifadə edərək eyni graph kopya cəhd edin.
  8. [ çox çətin , məlumatların toplanması , kodlaşdırma tələb , mənim sevimlim ] Penney (2016) İyun 2013 NSA / PRISM nəzarət (yəni, Snowden ayələrini) haqqında geniş təbliğat gizlilik narahatlıqlarını mövzularda Wikipedia məqalələr yol kəskin və qəfil azalması ilə bağlı olub araşdırır. Əgər belədirsə, davranış bu dəyişikliyi kütləvi nəzarət nəticəsində bir mənfi təsiri ilə uyğun olardı. Yanaşma Penney (2016) bəzən bir müdaxilə zaman seriyası dizayn adlanır və müşahidə məlumat (Bölmə 2.4.3) və təcrübələr yaxınlaşdırılması haqqında fəsildə yanaşmalar ilə bağlıdır.

    mövzu açar sözlər seçmək üçün, Penney izleme və sosial media monitorinqi üçün Milli Təhlükəsizlik Departamenti tərəfindən istifadə siyahısına edilir. DHS siyahısı məsələlər, yəni "Sağlamlıq Concern", "İnfrastruktur Təhlükəsizlik" və "Terrorizm. Bir sıra daxil müəyyən axtarış sözü kateqoriyalara Terrorla Mübarizə" (Cədvəl 8 görmək "Study Group üçün Penney qırx səkkiz açar sözlər ilə bağlı istifadə" Əlavə). O onun dəlil gücləndirilməsi Avqust 2014 sonuna Yanvar 2012 əvvəlindən bir otuz iki ay ərzində müvafiq qırx səkkiz Wikipedia məqalələr aylıq Wikipedia article view sayar məcmu, o da bir neçə müqayisə saxla digər mövzularda məqalə fikir izleme qrupları.

    İndi, kopya və genişləndirmək niyyətindəyik Penney (2016) . Siz bu fəaliyyəti üçün lazım olan bütün xammal data Vikipediya (https://dumps.wikimedia.org/other/pagecounts-raw/) mövcuddur. Yoxsa R paketi wikipediatrend onu əldə edə bilərsiniz (Meissner and Team 2016) . Yazmaq-up zaman cavab, siz istifadə edən məlumat mənbəyi unutmayın. (Qeyd: Bu eyni fəaliyyət də Fəsil 6 görünür)

    1. Ətraflı Penney (2016) əvvəl "Terrorizm" lı pages və Snowden nazil sonra səhifə views göstərir Şəkil 2 və kopya. nəticələri şərh.
    2. Next, DHS siyahıdan "DHS & Other Agencies" ABŞ onun açar sözlər, istifadə edərək, bir müqayisə qrup iş qrupu ( "Terror" lı məqalələr) müqayisə Fig 4A, kopya (Əlavə Cədvəl 10 bax). nəticələri şərh.
    3. ) B Hissəsində bir müqayisə qrup iş qrupu olub. "İnfrastruktur Security" lı məqalələr (Əlavə Cədvəl 11) və məşhur Wikipedia pages (Əlavə Cədvəl 12): Penney də iki müqayisə qrupları ilə müqayisədə. alternativ müqayisə qrupu ilə gəlmək, və bir hissəsi B tapıntılar) müqayisə qrupunun seçdiyiniz həssas əgər test. müqayisə qrupun hansı seçim ən anlamlı? Niyə?
    4. müəllif "Terrorizm" ilə bağlı açar sözlər ABŞ hökuməti online nəzarət təcrübələri üçün əsas səbəb olaraq terrorizm qeyd çünki Wikipedia məqalələr seçmək üçün istifadə ifadə etdi. Bu 48 "Terrorizm" lı söz çek kimi, Penney (2016) da Hökümət Trouble, gizlilik Həssas və aradan qaldırılması baxımından açar sözlər hər dizaynını respondent xahiş MTurk bir sorğu keçirib (Əlavə Cədvəl 7 və 8). MTurk haqqında sorğu kopya və nəticələri müqayisə.
    5. hissəsi d nəticə) və maddənin oxu əsasında, Study Group mövzu açar sözlər müəllif seçimi ilə razısınızmı? Niyə və ya nə deyil? Əgər əvəzinə nə təklif edərdiniz?
  9. [ asan ] Efrati (2016) "orijinal yayım paylaşma" aşağı il ərzində 21% il isə Facebook "ümumi paylaşma" il ərzində 5,5%, ilin azalıb ki, məxfi məlumat əsasında hesabat,. Bu eniş yaş 30 yaşadək Facebook istifadəçiləri ilə xüsusilə kəskin idi. Hesabatda iki amil imtina aid. One "dostları" insanlar Facebook var sayının artmasıdır. digər bəzi paylaşım fəaliyyəti mesajlaşma və SnapChat kimi rəqiblərinə sürüşdüyü edir. Hesabatda həmçinin News Feed alqoritm orijinal ismarıc çox görkəmli etmək tweaks, eləcə də bir neçə il əvvəl "Bu gün" orijinal ismarıc istifadəçilərinin dövri xatırlatmaları daxil olmaqla Facebook mübadiləsi artırmak üçün çalışıb bir neçə taktika aşkar. Bu tapıntılar məlumat mənbəyi kimi Facebook istifadə etmək istədiyiniz tədqiqatçılar üçün nə təsiri, əgər var?

  10. [ mühit ] Tumasjan et al. (2010) siyasi partiyanın qeyd tweets ki, nisbəti partiya 2009-ci ildə alman parlament seçkilərində səs aldı (Şəkil 2.9) nisbəti eşlemeli məlumat verib. Başqa sözlə, bu seçki proqnozlaşdırmaq üçün Twitter istifadə edə bilər ki, ortaya çıxdı. böyük məlumatların ümumi mənbəyi üçün bir dəyərli istifadə təklif görünürdü, çünki bu iş nəşr edilmişdir zamanda çox maraqlı hesab edilmişdir.

    böyük data pis xüsusiyyətləri nəzərə alaraq, lakin, siz dərhal bu nəticə şübhə olmalıdır. 2009-cu ildə Twitter Almanlar olduqca qeyri-nümayəndəsi qrup idi və bir partiyanın tərəfdarları daha tez-tez siyasət haqqında tweet bilər. Belə ki, siz təsəvvür edə bütün mümkün biases elə həyata ləğv ki, təəccüblü görünür. Əslində, nəticələr Tumasjan et al. (2010) doğru olmaq çox yaxşı olduğu ortaya çıxdı. Onların Yazıda, Tumasjan et al. (2010) Xristian Demokratlar (CDU), Xristian Sosial Demokratlar (CSU), SPD, liberallar (FDP), Sol (Die Linke) və Yaşıllar Partiyasının (Grüne): altı siyasi partiya hesab. Lakin o zaman Twitter ən qeyd German siyasi partiya Pirate Partiyası (Piraten) İnternet dövlət tənzimlənməsini döyüşlərdə tərəf oldu. Pirate Party təhlili daxil zaman, Twitter seçki nəticələrini (Şəkil 2.9) bir dəhşətli tahmin olur qeyd (Jungherr, Jürgens, and Schoen 2012) .

    2.9 Şəkil: Twitter (. Tumasjan et al 2010) 2009 Alman seçki nəticələrini proqnozlaşdırmaq görünür qeyd, lakin bu nəticə bir ixtiyari və əsassız seçim (Jungherr, Jurgens və Schoen 2012) asılı çıxır.

    2.9 Şəkil: Twitter 2009 Alman seçki nəticələrini proqnozlaşdırmaq üçün görünür qeyd (Tumasjan et al. 2010) , lakin bu nəticə bir ixtiyari və əsassız seçim asılı çıxır (Jungherr, Jürgens, and Schoen 2012) .

    Nəticədə, dünyanın digər tədqiqatçılar istifadə meraklısı üsulları-belə müsbət və mənfi ayırmaq üçün hiss təhlili istifadə seçkilərdə müxtəlif növ bir sıra proqnozlaşdırmaq Twitter məlumatların qabiliyyətini yaxşılaşdırmaq üçün tərəflərin-qeyd (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Burada necə Huberty (2015) seçkiləri proqnozlaşdırmaq bu cəhdlər yekun:

    doğru irəliyə dönük seçki proqnozlaşdırılması tələblərinə tabe zaman "sosial media əsasında Bütün məlum proqnozlaşdırma üsulları bilməyiblər. Bu uğursuzluqlar daha metodoloji və ya alqoritmik çətinliklər daha sosial media fundamental xüsusiyyətləri səbəbiylə görünür. Bir sözlə, sosial media deyil, və yəqin ki, seçicilərin sabit, qərəzsiz, nümayəndəsi şəkil təqdim edəcək heç vaxt və sosial media rahatlığı nümunələri bu problemlər hoc göndərmək düzeltmek üçün kifayət qədər məlumat yoxdur. "

    Səbəb tədqiqat bəzi oxuyun Huberty (2015) qənaətinə və Twitter seçkiləri proqnozlaşdırmaq üçün istifadə edilə təqdirdə necə izah siyasi namizədə bir səhifə memo yazmaq.

  11. [ mühit ] Bir sosioloq və tarixçi arasında fərq nədir? Goldthorpe görə (1991) , bir sosioloq və tarixçi arasında əsas fərq məlumatların toplanması üzərində nəzarət edir. Tarixçilər sosioloqlar xüsusi məqsədlər üçün onların məlumatların toplanması dərzi bilər, halbuki izləri istifadə etmək məcburiyyətində qalır. Read Goldthorpe (1991) . Necə sosiologiya və tarix arasındakı fərq Custommades və Readymades ideyası ilə bağlıdır?

  12. [ çətin ] Əvvəlki suala əsaslanaraq, Goldthorpe (1991) Nicky Hart olan, o cümlədən tənqidi cavab bir sıra çəkdi (1994) edilən məlumatların xüsusi Goldthorpe nin sədaqət etiraz. xüsusi hazırlanmış məlumatların potensial məhdudiyyətlər aydınlıq gətirmək üçün, Hart Affluent Worker Layihəsi, 1960-ci ildə Goldthorpe və həmkarları tərəfindən həyata keçirilmişdir sosial sinif və səs arasında əlaqələr ölçmək üçün geniş sorğu təsvir. bir aşkar data üzərində data nəzərdə bəxş alim gözləyə bilər kimi, zəngin işçi Project həyat səviyyəsinin artırılması bir dövrdə sosial sinif gələcəyi haqqında son təklif nəzəriyyəsi etmək üçün uyğun oldu data toplayıb. Lakin, Goldthorpe və həmkarları elə qadınların səsvermə davranışı haqqında məlumat toplamaq üçün "unudublar". Burada Nicky Hart necə (1994) bütün epizod ümumiləşdirilməsi:

    ". . . Bu verilənlər bazasının qadın təcrübə istisna bir paradiqmatik məntiqi ilə məhdudlaşmır edilmişdir xüsusi hazırlanmış 'səbəbiylə qadın əksini tapmayıbsa nəticəyə qarşısını almaq çətin [edir]. kişi qayğılar kimi sinif şüur ​​və fəaliyyət nəzəri görmə idarə. . . , Goldthorpe və onun həmkarları qidalanır və adekvatlığı etibarlı test onları ifşa əvəzinə öz nəzəri fərziyyələr dururdu empirik dəlillərlə bir sıra inşa. "

    Hart davam etdi:

    "Onlar təbəqələşmə, siyasət və material həyat prosesləri məlumat daha Affluent Worker Layihəsi empirik tapıntılar bizə əsrin ortalarında sosiologiya masculinist dəyərləri haqqında daha demək."

    Siz xüsusi hazırlanmış məlumatların toplanması onu inşa data kollektor meyli var ki, digər nümunələri hesab edə bilər? Bu alqoritmik confounding müqayisə edir? Onlar Custommades istifadə etməlidir, bu nə təsiri tədqiqatçılar Readymades istifadə etməlidir zaman və ola bilər?

  13. [ mühit ] Bu fəsildə mən şirkətlər və hökumətlər tərəfindən yaradılmış inzibati qeydləri ilə tədqiqatçılar üçün tədqiqatçılar tərəfindən toplanan məlumat ziddiyyət. Bəzi insanlar bu inzibati qeydlər tədqiqatçılar tərəfindən aşkar ki, doğru deyil ". Nəzərdə data" bu inzibati qeydlər onlar fərqli "data tapıldı" zəng, lakin onlar da yüksək nəzərdə tutulmuşdur. Məsələn, müasir texnologiya şirkətləri toplamaq və onların data papaz üçün böyük vaxt məbləğlər və resursları sərf edirlər. Belə ki, bu inzibati qeydlər həm aşkar və nəzərdə tutulmuşdur, bu, yalnız perspektiv (Şəkil 2.10) asılıdır.

    Şəkil 2.10: şəkil bir ördək və bir dovşan həm də; nə görmək perspektiv asılıdır. Hökumət və biznes inzibati qeydlər həm aşkar nəzərdə tutulmuşdur; nə görmək perspektiv asılıdır. Məsələn, bir mobil telefon şirkəti tərəfindən toplanan zəng data qeydlər araşdırmaçı baxımından data rast gəlinir. Lakin, bu eyni qeydlər telefon şirkətinin göndərmə şöbəsində çalışan kimsə data perspektiv nəzərdə tutulmuşdur. Mənbə: Wikimedia Commons

    Şəkil 2.10: şəkil bir ördək və bir dovşan həm də; nə görmək perspektiv asılıdır. Hökumət və biznes inzibati qeydlər həm aşkar nəzərdə tutulmuşdur; nə görmək perspektiv asılıdır. Məsələn, bir mobil telefon şirkəti tərəfindən toplanan zəng data qeydlər araşdırmaçı baxımından data rast gəlinir. Lakin, bu eyni qeydlər telefon şirkətinin göndərmə şöbəsində çalışan kimsə data perspektiv nəzərdə tutulmuşdur. Mənbə: Wikimedia Commons

    tədqiqat üçün məlumat mənbəyi istifadə edərkən aşkar və dizayn faydalıdır, həm də onu görən harada məlumat mənbəyi nümunə təmin.

  14. [ asan ] Düşüncəli esse-ci ildə, Christian Sandvig və Eszter Hargittai (2015) digital sistemi "alət" və ya digital tədqiqat, iki növ təsvir "tədqiqat obyekti." Işin ilk cür misal olduğu Bengtsson və həmkarları (2011) ikinci növ misal 2010-cu ildə Haitidə zəlzələdən sonra miqrasiya izlemek üçün mobil telefon məlumat istifadə etdiyi Jensen (2007) Kerala ərzində mobil telefonların tətbiqi, Hindistan balıq bazarında fəaliyyətini təsir necə işləri. Bu digital data mənbələrindən istifadə tədqiqatlar onlar məlumat mənbəyi eyni cür istifadə olunur, hətta tamamilə fərqli məqsədləri ola bilər ki, aydınlaşdırır, çünki bu faydalı tapa bilərsiniz. aləti kimi bir digital sistemi istifadə iki və təhsil obyekti kimi bir digital sistemi istifadə iki: daha bu fərq aydınlaşdırmaq üçün, siz gördüm dörd tədqiqatlar təsvir edir. Siz istəyirsinizsə, bu fəsildə nümunələr istifadə edə bilərsiniz.