Key:
[ , ] Alqoritmik confounding Google Flu Trends ilə bir problem idi. Tərəfindən kağız oxuyun Lazer et al. (2014) , və Google mühəndis problemi izah və bu problemi həll etmək üçün necə bir fikir təklif qısa, aydın e-poçt yazın.
[ ] Bollen, Mao, and Zeng (2011) Twitter data fond bazarının proqnozlaşdırmaq üçün istifadə edilə bilər ki, iddia edir. Bu nəticə hedcinq fondu-Derwent Capital Twitter toplanmış məlumatlar əsasında fond bazarında investisiya Markets-bir yaradılmasına gətirib çıxardı (Jordan 2010) . Nə sübut ki, fonda pul qoyulması əvvəl görmək istəyirsiniz?
[ bəzi ictimai səhiyyə vəkillər smoking dayandırılması üçün effektiv yardım kimi e-siqaret dolu olsa], digər bu cür nikotin yüksək səviyyəsi potensial riskləri haqqında xəbərdarlıq. tədqiqatçı e-siqaret bağlı Twitter mesajları toplanması və əhval-ruhiyyəni təhlil aparılması e-siqaret qarşı ictimai rəyin öyrənilməsi üçün qərar düşünün.
[ ] Noyabr 2009-cu ildə, Twitter "Nə edirsən?" Dən tweet qutusuna sual dəyişdi "Nə olub?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) onlar Twitter bir çox mübadiləsi informasiya yeni orta kimi daha xidmət edir bağlanmış bu təhlili əsasında 41.7 milyon istifadəçi profilleri, 1,47 milyard ictimai münasibətləri, 4262 yamaclarda mövzular iyun 6 İyun 31 arasında 106 milyon tweets, 2009-cu il təhlil sosial şəbəkə.
[ ] "Retweets" tez-tez təsir ölçmək üçün istifadə və Twitter təsiri yayılmışdır. Əvvəlcə, istifadəçilər surəti və onlar xoşuma gəldi tweet yapışdırıb, onun / onun dəstəyi ilə orijinal müəllif tag, və əl bir retweet ki, göstərir tweet əvvəl "RT" yazın idi. Daha sonra 2009-ci ildə Twitter bir "retweet" düyməsinə əlavə edib. İyun 2016-ci ildə, Twitter mümkün users (https://twitter.com/twitter/status/742749353689780224) öz tweets retweet üçün. bu dəyişikliklər sizin tədqiqat "retweets" istifadə necə təsir etməlidir düşünürsünüz? Niyə və ya nə deyil?
[ , , ] Michel et al. (2011) kitablarını rəqəmsal mühitə Google səy çıxan bir korpus inşa. 2009-ci ildə nəşr olunan və 5 milyon rəqəmsal kitab üzərində olan oldu corpus ilk versiyasını istifadə edərək, müəlliflər dil dəyişikliklər və mədəni istiqamətləri araşdırmaq üçün söz istifadə tezliyi təhlil. Tezliklə Google Books Corpus tədqiqatçılar üçün məşhur məlumat mənbəyi oldu və məlumat bazasının 2-ci versiyası 2012-ci ildə azad edilib.
Lakin Pechenick, Danforth, and Dodds (2015) tədqiqatçılar tam geniş nəticələr rəsm üçün istifadə etməzdən əvvəl corpus seçmə prosesi xarakterizə etmək lazımdır ki, xəbərdarlıq. Əsas məsələ corpus hər bir kitab biri olan,-kitabxana kimi olmasıdır. Nəticədə, fərdi olaraq, prolific müəllifidir xeyli Google Books lexicon yeni ifadələr daxil edə bilər. Bundan başqa, elmi mətnləri 1900e ərzində corpus getdikcə maddi hissəsini təşkil edir. Bundan əlavə, İngilis Fiction Kümeleri, Pechenick et al iki versiyası müqayisə. qeyri-kafi filtreleme ilk versiyası istehsal istifadə edilmişdir ki, tapılmadı dəlil. fəaliyyəti üçün lazım olan məlumatların hamısı burada mövcuddur: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) İyun 2013 NSA / PRISM nəzarət (yəni, Snowden ayələrini) haqqında geniş təbliğat gizlilik narahatlıqlarını mövzularda Wikipedia məqalələr yol kəskin və qəfil azalması ilə bağlı olub araşdırır. Əgər belədirsə, davranış bu dəyişikliyi kütləvi nəzarət nəticəsində bir mənfi təsiri ilə uyğun olardı. Yanaşma Penney (2016) bəzən bir müdaxilə zaman seriyası dizayn adlanır və müşahidə məlumat (Bölmə 2.4.3) və təcrübələr yaxınlaşdırılması haqqında fəsildə yanaşmalar ilə bağlıdır.
mövzu açar sözlər seçmək üçün, Penney izleme və sosial media monitorinqi üçün Milli Təhlükəsizlik Departamenti tərəfindən istifadə siyahısına edilir. DHS siyahısı məsələlər, yəni "Sağlamlıq Concern", "İnfrastruktur Təhlükəsizlik" və "Terrorizm. Bir sıra daxil müəyyən axtarış sözü kateqoriyalara Terrorla Mübarizə" (Cədvəl 8 görmək "Study Group üçün Penney qırx səkkiz açar sözlər ilə bağlı istifadə" Əlavə). O onun dəlil gücləndirilməsi Avqust 2014 sonuna Yanvar 2012 əvvəlindən bir otuz iki ay ərzində müvafiq qırx səkkiz Wikipedia məqalələr aylıq Wikipedia article view sayar məcmu, o da bir neçə müqayisə saxla digər mövzularda məqalə fikir izleme qrupları.
İndi, kopya və genişləndirmək niyyətindəyik Penney (2016) . Siz bu fəaliyyəti üçün lazım olan bütün xammal data Vikipediya (https://dumps.wikimedia.org/other/pagecounts-raw/) mövcuddur. Yoxsa R paketi wikipediatrend onu əldə edə bilərsiniz (Meissner and Team 2016) . Yazmaq-up zaman cavab, siz istifadə edən məlumat mənbəyi unutmayın. (Qeyd: Bu eyni fəaliyyət də Fəsil 6 görünür)
[ ] Efrati (2016) "orijinal yayım paylaşma" aşağı il ərzində 21% il isə Facebook "ümumi paylaşma" il ərzində 5,5%, ilin azalıb ki, məxfi məlumat əsasında hesabat,. Bu eniş yaş 30 yaşadək Facebook istifadəçiləri ilə xüsusilə kəskin idi. Hesabatda iki amil imtina aid. One "dostları" insanlar Facebook var sayının artmasıdır. digər bəzi paylaşım fəaliyyəti mesajlaşma və SnapChat kimi rəqiblərinə sürüşdüyü edir. Hesabatda həmçinin News Feed alqoritm orijinal ismarıc çox görkəmli etmək tweaks, eləcə də bir neçə il əvvəl "Bu gün" orijinal ismarıc istifadəçilərinin dövri xatırlatmaları daxil olmaqla Facebook mübadiləsi artırmak üçün çalışıb bir neçə taktika aşkar. Bu tapıntılar məlumat mənbəyi kimi Facebook istifadə etmək istədiyiniz tədqiqatçılar üçün nə təsiri, əgər var?
[ ] Tumasjan et al. (2010) siyasi partiyanın qeyd tweets ki, nisbəti partiya 2009-ci ildə alman parlament seçkilərində səs aldı (Şəkil 2.9) nisbəti eşlemeli məlumat verib. Başqa sözlə, bu seçki proqnozlaşdırmaq üçün Twitter istifadə edə bilər ki, ortaya çıxdı. böyük məlumatların ümumi mənbəyi üçün bir dəyərli istifadə təklif görünürdü, çünki bu iş nəşr edilmişdir zamanda çox maraqlı hesab edilmişdir.
böyük data pis xüsusiyyətləri nəzərə alaraq, lakin, siz dərhal bu nəticə şübhə olmalıdır. 2009-cu ildə Twitter Almanlar olduqca qeyri-nümayəndəsi qrup idi və bir partiyanın tərəfdarları daha tez-tez siyasət haqqında tweet bilər. Belə ki, siz təsəvvür edə bütün mümkün biases elə həyata ləğv ki, təəccüblü görünür. Əslində, nəticələr Tumasjan et al. (2010) doğru olmaq çox yaxşı olduğu ortaya çıxdı. Onların Yazıda, Tumasjan et al. (2010) Xristian Demokratlar (CDU), Xristian Sosial Demokratlar (CSU), SPD, liberallar (FDP), Sol (Die Linke) və Yaşıllar Partiyasının (Grüne): altı siyasi partiya hesab. Lakin o zaman Twitter ən qeyd German siyasi partiya Pirate Partiyası (Piraten) İnternet dövlət tənzimlənməsini döyüşlərdə tərəf oldu. Pirate Party təhlili daxil zaman, Twitter seçki nəticələrini (Şəkil 2.9) bir dəhşətli tahmin olur qeyd (Jungherr, Jürgens, and Schoen 2012) .
Nəticədə, dünyanın digər tədqiqatçılar istifadə meraklısı üsulları-belə müsbət və mənfi ayırmaq üçün hiss təhlili istifadə seçkilərdə müxtəlif növ bir sıra proqnozlaşdırmaq Twitter məlumatların qabiliyyətini yaxşılaşdırmaq üçün tərəflərin-qeyd (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Burada necə Huberty (2015) seçkiləri proqnozlaşdırmaq bu cəhdlər yekun:
doğru irəliyə dönük seçki proqnozlaşdırılması tələblərinə tabe zaman "sosial media əsasında Bütün məlum proqnozlaşdırma üsulları bilməyiblər. Bu uğursuzluqlar daha metodoloji və ya alqoritmik çətinliklər daha sosial media fundamental xüsusiyyətləri səbəbiylə görünür. Bir sözlə, sosial media deyil, və yəqin ki, seçicilərin sabit, qərəzsiz, nümayəndəsi şəkil təqdim edəcək heç vaxt və sosial media rahatlığı nümunələri bu problemlər hoc göndərmək düzeltmek üçün kifayət qədər məlumat yoxdur. "
Səbəb tədqiqat bəzi oxuyun Huberty (2015) qənaətinə və Twitter seçkiləri proqnozlaşdırmaq üçün istifadə edilə təqdirdə necə izah siyasi namizədə bir səhifə memo yazmaq.
[ ] Bir sosioloq və tarixçi arasında fərq nədir? Goldthorpe görə (1991) , bir sosioloq və tarixçi arasında əsas fərq məlumatların toplanması üzərində nəzarət edir. Tarixçilər sosioloqlar xüsusi məqsədlər üçün onların məlumatların toplanması dərzi bilər, halbuki izləri istifadə etmək məcburiyyətində qalır. Read Goldthorpe (1991) . Necə sosiologiya və tarix arasındakı fərq Custommades və Readymades ideyası ilə bağlıdır?
[ ] Əvvəlki suala əsaslanaraq, Goldthorpe (1991) Nicky Hart olan, o cümlədən tənqidi cavab bir sıra çəkdi (1994) edilən məlumatların xüsusi Goldthorpe nin sədaqət etiraz. xüsusi hazırlanmış məlumatların potensial məhdudiyyətlər aydınlıq gətirmək üçün, Hart Affluent Worker Layihəsi, 1960-ci ildə Goldthorpe və həmkarları tərəfindən həyata keçirilmişdir sosial sinif və səs arasında əlaqələr ölçmək üçün geniş sorğu təsvir. bir aşkar data üzərində data nəzərdə bəxş alim gözləyə bilər kimi, zəngin işçi Project həyat səviyyəsinin artırılması bir dövrdə sosial sinif gələcəyi haqqında son təklif nəzəriyyəsi etmək üçün uyğun oldu data toplayıb. Lakin, Goldthorpe və həmkarları elə qadınların səsvermə davranışı haqqında məlumat toplamaq üçün "unudublar". Burada Nicky Hart necə (1994) bütün epizod ümumiləşdirilməsi:
". . . Bu verilənlər bazasının qadın təcrübə istisna bir paradiqmatik məntiqi ilə məhdudlaşmır edilmişdir xüsusi hazırlanmış 'səbəbiylə qadın əksini tapmayıbsa nəticəyə qarşısını almaq çətin [edir]. kişi qayğılar kimi sinif şüur və fəaliyyət nəzəri görmə idarə. . . , Goldthorpe və onun həmkarları qidalanır və adekvatlığı etibarlı test onları ifşa əvəzinə öz nəzəri fərziyyələr dururdu empirik dəlillərlə bir sıra inşa. "
Hart davam etdi:
"Onlar təbəqələşmə, siyasət və material həyat prosesləri məlumat daha Affluent Worker Layihəsi empirik tapıntılar bizə əsrin ortalarında sosiologiya masculinist dəyərləri haqqında daha demək."
Siz xüsusi hazırlanmış məlumatların toplanması onu inşa data kollektor meyli var ki, digər nümunələri hesab edə bilər? Bu alqoritmik confounding müqayisə edir? Onlar Custommades istifadə etməlidir, bu nə təsiri tədqiqatçılar Readymades istifadə etməlidir zaman və ola bilər?
[ ] Bu fəsildə mən şirkətlər və hökumətlər tərəfindən yaradılmış inzibati qeydləri ilə tədqiqatçılar üçün tədqiqatçılar tərəfindən toplanan məlumat ziddiyyət. Bəzi insanlar bu inzibati qeydlər tədqiqatçılar tərəfindən aşkar ki, doğru deyil ". Nəzərdə data" bu inzibati qeydlər onlar fərqli "data tapıldı" zəng, lakin onlar da yüksək nəzərdə tutulmuşdur. Məsələn, müasir texnologiya şirkətləri toplamaq və onların data papaz üçün böyük vaxt məbləğlər və resursları sərf edirlər. Belə ki, bu inzibati qeydlər həm aşkar və nəzərdə tutulmuşdur, bu, yalnız perspektiv (Şəkil 2.10) asılıdır.
tədqiqat üçün məlumat mənbəyi istifadə edərkən aşkar və dizayn faydalıdır, həm də onu görən harada məlumat mənbəyi nümunə təmin.
[ ] Düşüncəli esse-ci ildə, Christian Sandvig və Eszter Hargittai (2015) digital sistemi "alət" və ya digital tədqiqat, iki növ təsvir "tədqiqat obyekti." Işin ilk cür misal olduğu Bengtsson və həmkarları (2011) ikinci növ misal 2010-cu ildə Haitidə zəlzələdən sonra miqrasiya izlemek üçün mobil telefon məlumat istifadə etdiyi Jensen (2007) Kerala ərzində mobil telefonların tətbiqi, Hindistan balıq bazarında fəaliyyətini təsir necə işləri. Bu digital data mənbələrindən istifadə tədqiqatlar onlar məlumat mənbəyi eyni cür istifadə olunur, hətta tamamilə fərqli məqsədləri ola bilər ki, aydınlaşdırır, çünki bu faydalı tapa bilərsiniz. aləti kimi bir digital sistemi istifadə iki və təhsil obyekti kimi bir digital sistemi istifadə iki: daha bu fərq aydınlaşdırmaq üçün, siz gördüm dörd tədqiqatlar təsvir edir. Siz istəyirsinizsə, bu fəsildə nümunələr istifadə edə bilərsiniz.