fəaliyyət

  • çətinlik dərəcəsi: asan asan orta orta , çətin çətin , çox çətin çox çətin
  • riyaziyyat tələb edir riyaziyyat tələb edir )
  • kodlaşdırma tələb olunur ( kodlaşdırma tələb olunur )
  • məlumatların toplanması ( məlumatların toplanması )
  • Mənim sevimlilərim ( mənim sevimlim )
  1. [ orta , mənim sevimlim ] Alqoritmik qarışıqlıq Google Flu Trends ilə problem idi. Lazer et al. (2014) yazaraq, problemi izah edən Google-a mühəndisə qısa, dəqiq bir e-poçt yazın və onu necə düzəltmək barədə bir fikir təklif edin.

  2. [ orta ] Bollen, Mao, and Zeng (2011) Twitterdan məlumatların fond bazasını proqnozlaşdırmaq üçün istifadə edə biləcəyini iddia edir. Bu qənaət, Twitter-dan toplanan məlumatlara əsaslanaraq fond bazara investisiya qoymaq üçün bir hedcinq fond-Derwent Capital Markets-in yaradılmasına gətirib çıxardı (Jordan 2010) . Pulunuzu həmin fonda qoymadan əvvəl hansı dəlilləri görmək istəyirsiniz?

  3. [ asan Bəzi ictimai səhiyyə müdafiəçiləri e-siqaretin siqaretin dayandırılması üçün səmərəli yardımı düşünsələr də, başqaları nikotinin yüksək səviyyəsi kimi potensial risklər barədə xəbərdar edirlər. Təsəvvür edin ki, tədqiqatçı e-siqaretlə əlaqəli Twitter postlarını toplayaraq həssaslıq təhlili apararaq e-siqaretə dair ictimai rəy öyrənməyə qərar verir.

    1. Bu işdə ən çox narahat etdiyiniz üç mümkün yanaşma nədir?
    2. Clark et al. (2016) bu cür işi bitirdi. Birincisi, 2012-ci ilin yanvarından 2012-ci ilin dekabrına qədər e-sigara ilə əlaqəli açar sözlər istifadə edən 850.000 tweets topladılar. Daha yaxından yoxlanıldıqdan sonra, bu tweetsin bir çoxunun avtomatlaşdırılmış olduğunu (yəni insanlar tərəfindən istehsal olunmadığını) və bu avtomatlaşdırılmış tweetsdən bir çoxunun reklamlar. Onlar avtomatlaşdırılmış tweets üzvi tweets ayrı bir insan aşkar alqoritmi inkişaf. Bu insan algılama alqoritmindən istifadə edərək, tweetlərin 80% -i avtomatlaşdırılmışdır. Bu tapıntı cavabınızı (a) hissəsinə dəyişə bilərmi?
    3. Təbzi orqanik və avtomatlaşdırılmış tweets ilə müqayisə etdikdə, avtomatlaşdırılmış tweets üzvi tweets (6.17 qarşı 5.84) daha müsbət olduğunu tapdılar. Bu tapmaq sizin cavabınızı (b) dəyişə bilərmi?
  4. [ asan ] 2009-cu ilin noyabr ayında Twitter "Neler yapıyorsunuz?" Deki sual qutusunu "Neler oluyor?" Sorusunu değiştirmiştir (https://blog.twitter.com/2009/whats-happening).

    1. Xahişlərin dəyişdirilməsi tweets və / və ya tweet nə təsir edəcək düşünürsünüz?
    2. İstədiyiniz bir tədqiqat layihəsini adlandırın: "Nə edirsən?" Niyə açıqlayın?
    3. İstədiyiniz tədqiqat layihəsini adlandırın: "Neler olur?" Nedenini izah edin.
  5. [ asan ] "Retweets" tez-tez təsiri və təsir Twitter təsir yayılması üçün istifadə olunur. Başlanğıcda istifadəçilər istədikləri tweetləri kopyalayıp yapışdırdılar, orijinal müəllifi sapı ilə etiketlendirdilər və bir tweet olduğunu ifadə etmək üçün tweetdən əvvəl əl ilə "RT" yazın. Sonra, 2009-cu ildə Twitter "retweet" düyməsini əlavə etdi. 2016-cı ilin iyun ayında Twitter istifadəçiləri öz tweetsini (https://twitter.com/twitter/status/742749353689780224) retweet etmək imkanı əldə etmişdir. Bu dəyişikliklər tədqiqatınızdakı "retweets" -dən necə istifadə etməyinizə təsir etməyinizi düşünürsünüz? Niyə və ya niyə olmasın?

  6. [ çox çətin , məlumatların toplanması , kodlaşdırma tələb olunur , mənim sevimlim Geniş müzakirə olunan bir sənəddə, Michel və həmkarları (2011) uzunmüddətli mədəni tendensiyaları müəyyənləşdirmək cəhdi ilə beş milyondan artıq rəqəmsal kitabın məzmununu təhlil etdi. İstifadə etdiyimiz məlumatlar indi Google NGrams verilənlər bazası kimi buraxılmışdır və bu səbəbdən onların bəzi işlərini kopyalamaq və genişləndirmək üçün istifadə edə bilərik.

    Kağızdakı bir çox nəticədən birində, Mişel və yoldaşlarımız daha sürətli və daha tez unutduğumuzu müdafiə etdi. Müəyyən bir il üçün, "1883" deyin, 1875-1975-ci illər arasında "1883" olan hər il nəşr olunan 1 qramlıq nisbəti hesablamışlar. Onlar bu nisbət o il baş verən hadisələrə maraq göstərən bir ölçüsü olduğunu əsaslandırdılar. Onların sayı 3a-da, istifadə üçbucağını üç ildir: 1883, 1910 və 1950-ci illərdə hazırladılar. Bu üç il ümumi nümunəni paylaşırdı: o ildən az istifadə, daha sonra bir çırpma, sonra çürük. Hər il üçün çürümənin dərəcəsini təyin etmək üçün, Michel və həmkarları 1875-1975-ci illər arasında hər il üçün hər il yarım ömrünü hesablayırlar. 3a rəqəmlərində onlar hər birinin yarım ömrünü il azalır və bu, keçmişi daha sürətli və daha sürətli unutduğumuzu göstərir. İngilis dili korpusunun 1-ci versiyasını istifadə etdilər, lakin sonradan Google korpusun ikinci versiyasını buraxdı. Kodlama başlamazdan əvvəl sualın bütün hissələrini oxuyun.

    Bu fəaliyyət, yenidən istifadə kodunu yazmaq, nəticələrə dair məlumatların və məlumatların buraxılmasını (məsələn, qeyri-adi fayllarla işləmək və itkin məlumatları idarə etmək) tətbiq edəcəkdir. Bu fəaliyyət, zəngin və maraqlı bir verilənlər bazası ilə qalsın və işləməyə kömək edəcək.

    1. Google Books NGram Viewer veb saytından xam məlumatları əldə edin. Xüsusilə, 2012-ci il iyulun 1-də buraxılan İngilis dili korpusunun 2-ci versiyasını istifadə etməlisiniz. Sıkıştırılmamış, bu fayl 1.4 GB'dır.

    2. Michel et al. (2011) 3a rəqəminin əsas hissəsini yenidən çıxarın Michel et al. (2011) . Bu rəqəmi yenidən yaratmaq üçün iki faylya ehtiyacınız var: bir qismini (a) və xam sayımlarını nisbətlərə çevirmək üçün istifadə edə biləcəyiniz "ümumi sayar" faylını yükləmişsiniz. Qeyd edək ki, ümumi sayar faylının oxumağı bir az çətinləşdirə biləcək bir quruluşa malikdir. NGram məlumatlarının 2-ci versiyası Michel et al. (2011) , versiyası 1 məlumatlarına əsaslanan?

    3. Grafiğinizi NGram Viewer tərəfindən yaradılan grafiğe qarşı kontrol edin.

    4. Rəqəm 3a (əsas rəqəm) yenidən yaradın, lakin \(y\) -axis'i xammal qeyd sayını dəyişin \(y\) qeyd etdiyimiz dərəcə deyil).

    5. (B) və (d) arasındakı fərq, Michel et al. (2011). Niyə və ya niyə olmasın?

    6. İndi qeyd etdiyimiz nisbəti istifadə edərək, rəqəmin 3a əlavəsini təkrarlayın. Yəni, hər il 1875-1975-ci illər arasında yarım ömrünü hesablayırıq. Yarım ömrü, sözlərin nisbətindən əvvəl keçən illər sayının yarım pik dəyərinə çatması olaraq təyin olunur. Qeyd edək ki, Michel et al. (2011) yarım ömrünü qiymətləndirmək üçün daha mürəkkəb bir şey etməli, bax: Online İnformasiya Dəstəkinin III.6 hissəsi - lakin hər iki yanaşmanın oxşar nəticələr verdiyini iddia edirlər. NGram məlumatlarının 2-ci versiyası Michel et al. (2011) , versiyası 1 məlumatlarına əsaslanan? (İpucu: Əgər olmadıqda təəccüblənməyin.)

    7. Xüsusən tez və ya xüsusilə yavaş-yavaş unutulmuş olan illər kimi çıxdıqları illər varmı? Bu nümunənin mümkün səbəbləri barədə qısaca fərz et və açıqlamaların necə olduğunu açıqlayın.

    8. İndi bu nəticə NGrams məlumatlarının 2-ci versiyası üçün çin, fransız, alman, yəhudi, italyan, rus və ispan dilində çoğaldır.

    9. Bütün dillərdə müqayisədə, xüsusilə tez və ya xüsusilə yavaş-yavaş unudulmuş olan illər kimi ortaya çıxan bir neçə il var idi? Bu nümunənin mümkün səbəbləri barədə qısaca fərz et.

  7. [ çox çətin , məlumatların toplanması , kodlaşdırma tələb olunur , mənim sevimlim Penney (2016) 2013-ci ilin iyun ayında NSA / PRISM müşahidə (yəni Snowden ayələri) haqqında geniş yayılmış reklamın gizlilik narahatlığını artıran mövzularda Wikipedia məqalələrində kəskin və qəfil azalma ilə əlaqəli olub olmadığını araşdırdı. Əgər belədirsə, davranışdakı bu dəyişiklik kütləvi nəzarətdən yaranmış bir soyuq təsir ilə uyğun olacaq. Penney (2016) yanaşması bəzən kəsilən zaman seriyası dizaynı adlanır və bu, 2.4.3-cü bənddə təsvir olunan yanaşmalarla bağlıdır.

    Mövzu açar sözlərini seçmək üçün, Penney, ABŞ İctimai Təhlükəsizlik Departamentinin sosial media izləmə və izləmə üçün istifadə etdiyi siyahıya istinad etdi. DHS siyahısı müəyyən axtarış şərtlərini bir sıra məsələlərə, yəni "Sağlamlıq narahatlığı", "İnfrastrukturun təhlükəsizliyi" və "Terrorizm" kateqoriyasına təsnif edir. İşçi qrupu üçün Penney "Terrorizm" ilə bağlı 48 əsas sözdən istifadə etmişdir (bax: Əlavə 8 ). Daha sonra, Wikipedia məqaləsi baxımından yanvar ayının başından 2014-cü ilin avqustunun sonuna qədər 32 aylıq müddət ərzində müvafiq 48 Wikipedia məqaləsi aylıq olaraq hesablanıb. Ardıcıllığını gücləndirmək üçün o, həmçinin bir neçə müqayisəli qrupu izləyərək Digər mövzularda məqalə görünüşləri.

    İndi Penney (2016) uzatacağız. Bu fəaliyyət üçün lazım olan bütün xammal məlumatları Vikipediyadan əldə etmək mümkündür. Və ya R-paketi wikipediatrend (Meissner and R Core Team 2016) əldə edə bilərsiniz. Cavablarınızı yazdığınız zaman istifadə etdiyiniz məlumat qayğısına diqqət yetirin. (Qeyd edək ki, eyni fəaliyyətin fəsil 6-da verildiyi qeyd olunmalıdır). Bu fəaliyyət siz məlumatların buraxılmasında və böyük məlumat mənbələrində təbii təcrübələr barədə düşünməyə kömək edəcəkdir. Həm də gələcək layihələr üçün potensial olaraq maraqlı məlumat mənbəyi ilə işləyəcək və işləyəcək.

    1. Penney (2016) oxuyun Penney (2016) və Snowden ayələrindən əvvəl və sonra "Terrorizm" səhifəsi ilə bağlı olan səhifələri göstərən rəqəmini 2-də təkrarlayın. Tapıntıları şərh edin.
    2. Daha sonra DHS siyahısından DHS və digər agentliklər kateqoriyasında təsnif olunan açar sözlər istifadə edərək, işçi qrupunu ("Terrorizm" ilə bağlı məqalələri) bir müqayisə qrupu ilə müqayisə edən fəsil 4A-yı kopyalayın (Əlavə 10-dək və dipnot 139-a bax). Tapıntıları şərh edin.
    3. Partiyada (b) iş qrupunu bir müqayisə qrupu ilə müqayisə etdiniz. Penney həmçinin digər iki müqayisə qrupu ilə müqayisə: "İnfrastrukturun Təhlükəsizliyi" ilə bağlı məqalələr (Əlavə 11) və məşhur Vikipediya səhifələri (Əlavə 12). Alternativ bir müqayisə qrupu ilə gəlin və qismən (b) olan təsbitlər müqayisə qrupu seçiminizə həssas olub olmadığını yoxlayın. Hansı seçim ən mənalı edir? Niyə?
    4. Penney, "Terrorizm" ilə bağlı açar sözlər, Wikipedia məqalələrini seçmək üçün istifadə edildiyini ifadə etdi, çünki ABŞ hökuməti, terrorizmini online nəzarət tətbiqləri üçün əsas bir əsas kimi qiymətləndirdi. Bu 48 "Terrorizm" ilə əlaqəli açar sözləri yoxlamaq üçün Penney (2016) MTurk haqqında sorğu aparıb, respondentlərin Hökumət Trouble, Privacy-Həssas və Qaçınma baxımından hər birinin açar sözlərini qiymətləndirməsini xahiş etdi (Əlavə 7 və 8 ). MTurk üzrə sorğunun nüsxəsini çıxarın və nəticələrinizi müqayisə edin.
    5. Partiyanın (d) və məqalənin oxunmasının nəticələrinə əsasən, Penney-in iş qrupundakı mövzu açar sözlərindən seçilməsinə razısınızmı? Niyə və ya niyə olmasın? Əgər yoxsa, əvəzinə nə təklif edərdiniz?
  8. [ asan Efrati (2016) , məxfi məlumatlara əsaslanaraq, Facebookda "ümumi paylaşım" bir il ərzində təxminən 5,5% azaldığını, "orijinal yayım paylaşımı" isə il ərzində 21% azaldıldığını bildirdi. Bu azalma 30 yaşınadək Facebook istifadəçiləri ilə xüsusilə kəskinləşdi. Hesabatda iki faktorun azalması qeyd edildi. Biri Facebook-da olan "dostlar" sayının artmasıdır. Digər tərəfdən bəzi paylaşma fəaliyyəti mesajlaşma və Snapchat kimi rəqiblərə keçdi. Hesabatda həmçinin, "Bu gün" funksiyasına əsasən, orijinal məqalələri daha da məşhur edən xəbərlər feed-in alqoritmi tweaks, habelə orijinal postaların dövri xatırlatmaları da daxil olmaqla paylaşmağı artırmağa çalışdıqları bir sıra taktikalar ortaya çıxdı. Bu nəticələrin Facebook-un məlumat mənbəyi kimi istifadə etmək istəyən tədqiqatçılar üçün hansı nəticələri var?

  9. [ orta ] Sosioloq və tarixçi arasındakı fərq nədir? Goldthorpe (1991) məlumatlarına əsasən, əsas fərq məlumatların toplanmasına nəzarətdir. Sosioloqlar məlumatların toplanmasını xüsusi məqsədlər üçün uyğunlaşdırmaqla tarixçilərə mərasimlərdən istifadə etmək məcburiyyətində qalırlar. Goldthorpe (1991) oxuyun. Sosioloq və tarix arasındakı fərq, customades və readymades fikri ilə bağlıdır?

  10. [ çətin ] Bu əvvəlki suallara əsaslanır. Goldthorpe (1991) , Goldthorpe-nin xüsusi məlumatlara uyğunluğuna meydan oxuduğu Nicky Hart (1994) dan birinin də daxil olduğu bir sıra kritik reaksiyalar çəkmişdir. Xüsusi hazırlanmış məlumatların potensial məhdudiyyətlərini aydınlaşdırmaq üçün, Hart Affektli İşçi Layihəsini, 1960-cı illərin ortalarında Goldthorpe və iş yoldaşları tərəfindən həyata keçirilən sosial sinif və səsvermə arasındakı əlaqəni ölçmək üçün böyük bir anket təsvir etdi. Məlumatlı məlumatlar üzərində nəzərdə tutulmuş məlumatlara üstünlük verən bir alimdən gözləmək olar ki, Affluent İşçi Layihəsi, artan yaşayış standartlarının bir dövründə sosial sinif gələcəyinə dair yaxınlarda təklif olunan bir nəzəriyyə ilə əlaqələndirilmiş məlumatları topladı. Lakin, Goldthorpe və həmkarları bir şəkildə qadınların səsvermə davranışı haqqında məlumat toplamaq üçün "unutdular". Nicky Hart (1994) bütün epizodu necə yekunlaşdırdığını burada izah edir:

    "... bu" hazırlayıcı "veri qrupu, qadın təcrübəsini istisna edən bir paradiqmatik məntiqlə məhdudlaşdırıldığı üçün qadınların çəkilməməsi barədə nəticədən qaçınmaq çətin deyil. Sınıfın şüurunun və fəaliyyətinin kişi nəzarəti kimi nəzəri bir vizyonla idarə olunduğu ... Goldthorpe və onun həmkarları onları düzgün bir uyğunluq testinə məruz qoymaq yerinə öz nəzəri fərziyyələrini qidalandıran və yetişdirən bir sıra empirik sübutlar qurdular. "

    Hart davam etdi:

    "Affluent İşçi Layihəsinin empirik nəticələri tapıntı, siyasət və maddi həyat prosesləri barədə məlumat verməkdən daha çox orta əsr sosiologiyasının masculinist dəyərləri haqqında bizə məlumat verir".

    Təcrübəli məlumatların yığılmasına daxil olan məlumatların toplayıcısının biasları olduğu digər nümunələri də düşünə bilərsinizmi? Bu alqoritmik qarışıqlığı necə müqayisə edir? Araşdırmacılar hazırlıq işlərini istifadə edərkən və müştərilərin istifadə etdikləri zaman bunun hansı nəticələrə gətirib çıxara bilər?

  11. [ orta ] Bu fəsildə mən tədqiqatçılar tərəfindən şirkətlər və hökumətlər tərəfindən yaradılan inzibati qaydalar ilə tədqiqatçılar üçün toplanan məlumatlara ziddirəm. Bəzi insanlar bu "inzibati məlumatlar" adlandırırlar ki, onlar "nəzərdə tutulmuş məlumatlar" ilə fərqlənirlər. İdarəetmə uçotunun tədqiqatçılar tərəfindən tapıldığı doğrudur, lakin onlar da yüksək səviyyədə tərtib olunur. Məsələn, müasir texnologiya şirkətləri məlumatların toplanması və müalicəsi üçün çox çalışırlar. Beləliklə, bu inzibati qeydlər həm tapıla, həm də nəzərdə tutulmuşdur, bu sizin perspektivdən asılıdır (şəkil 2.12).

    Şəkil 2.12: Şəkil həm ördək, həm də bir quşdur; gördüyünüz şey perspektivdən asılıdır. Böyük məlumat mənbələri həm tapıla, həm də nəzərdə tutulmuşdur; Yenə də gördüyünüz şey sizin perspektivinizdən asılıdır. Məsələn, bir mobil telefon şirkəti tərəfindən toplanan zəng məlumatları bir araşdırmaçı perspektivindən tapılmışdır. Lakin, bu dəqiq qeydlər telefon şirkətinin göndərmə şöbəsində çalışan birinin perspektivindən məlumatlar təşkil edir. Mənbə: Popular Science Monthly (1899) / Wikimedia Commons.

    Şəkil 2.12: Şəkil həm ördək, həm də bir quşdur; gördüyünüz şey perspektivdən asılıdır. Böyük məlumat mənbələri həm tapıla, həm də nəzərdə tutulmuşdur; Yenə də gördüyünüz şey sizin perspektivinizdən asılıdır. Məsələn, bir mobil telefon şirkəti tərəfindən toplanan zəng məlumatları bir araşdırmaçı perspektivindən tapılmışdır. Lakin, bu dəqiq qeydlər telefon şirkətinin göndərmə şöbəsində çalışan birinin perspektivindən məlumatlar təşkil edir. Mənbə: Popular Science Monthly (1899) / Wikimedia Commons .

    Məlumat mənbəyinin nümunəsini həm tapıldı və həm də həmin məlumat mənbəyini tədqiq etmək üçün istifadə edərkən faydalı görsənir.

  12. [ asan Xəyanətli bir yazıda Xristian Sandviq və Eszter Harqittai (2015) rəqəmsal sistemin "alət" və ya "öyrənmə obyekti" olub-olmamasına bağlı olaraq iki geniş kateqoriyaya rəqəmsal tədqiqatları ayırdılar. bir alət - 2010-cu ildə Haiti'deki zəlzələdən sonra miqrasiyanın izlənilməsi üçün mobil telefon məlumatlarından istifadə etmək üçün Bengtsson və həmkarlarının (2011) araşdırmasıdır. Sistemin tədqiqat obyekti olan ikinci növün nümunəsi - Jensen (2007) Hindistanda Kerala boyunca mobil telefonların tətbiqi necə balıq bazarının fəaliyyətinə təsir göstərdi. Mən bu fərqin faydalı olduğunu görürəm, çünki rəqəmsal məlumat mənbələrindən istifadə edilən tədqiqatlar eyni cür məlumat mənbəyindən istifadə edirlərsə də, olduqca fərqli məqsədlərə malik ola bilər. Bu fərqin daha dəqiqləşdirilməsi üçün gördüyünüz dörd tədqiqatı təsvir edin: ikisi rəqəmli quruluşu bir alət kimi istifadə edir, ikisi isə rəqəmsal sistemi öyrənmə obyekti kimi istifadə edir. Istədiyiniz halda bu fəslin nümunələrini istifadə edə bilərsiniz.