faaliyetler

anahtar:

  • Zorluk derecesi: kolay kolay orta orta , zor zor , çok zor çok zor
  • (Matematik gerektirir matematik gerektirir )
  • (Kodlama gerektirir kodlama gerektirir )
  • veri koleksiyonu ( veri koleksiyonu )
  • Favorilerim ( benim favorim )
  1. [ orta , benim favorim ] Algoritmik karıştırıcı Google Grip Trendleri ile ilgili bir sorun oldu. Tarafından kağıt okumak Lazer et al. (2014) , ve Google'da bir mühendis sorunu açıklayan ve sorunu çözmek için nasıl bir fikir sunan kısa ve net adresine tıklayınız.

  2. [ orta ] Bollen, Mao, and Zeng (2011) Twitter veri borsa tahmin etmek için kullanılabilir iddia ediyor. Bu bulgu hedge fon-Derwent Sermaye Twitter toplanan verilere dayalı borsa yatırım Pazarlar-bir yaratılmasına yol açmıştır (Jordan 2010) . Ne kanıt bu fonda para koymadan önce görmek istersiniz?

  3. [ kolay Bazı kamu sağlığı savunucuları, sigarayı bırakmada etkili bir yardım olarak, e-sigara dolu iken], diğerleri gibi nikotin yüksek düzeyleri gibi potansiyel riskleri hakkında uyarmak. Bir araştırmacı, e-sigara ile ilgili Twitter mesajları toplama ve duyguları analizi yaparak, e-sigara karşı kamuoyunu incelemek için karar düşünün.

    1. Bu çalışmada en çok endişe üç olası önyargıları nelerdir?
    2. Clark et al. (2016) böyle bir çalışma yürüttü. Birincisi, onlar yakından incelenmesi üzerine Aralık 2014 ile Ocak 2012 tarihinden itibaren e-sigara ile ilgili anahtar kelimeler kullanılan 850.000 tweets toplanan, onlar bu tweets birçok (yani, insanlar tarafından üretilen değil) otomatik olduğunu fark ve bu otomatik tweets birçok esasen vardı reklam. Bunlar organik tweets otomatik tweets ayırmak için insan algılama Algoritma geliştirdi. Bu İnsan onlar tweets% 80 otomatik edildi bulundu Algoritması Algılama kullanma. Bu bulgu kısmı (a) cevabınızı değiştirir?
    3. organik ve otomatik tweets duyguları karşılaştırıldığında onlar otomatik tweets organik tweets (5.84 karşı 6.17) göre daha olumlu olduğunu bulmuşlardır. Bu bulgu (b) için cevap değiştirir?
  4. [ kolay ] Kasım 2009'da, Heyecan "Ne yapıyorsun?" Için tweet kutusundaki soru değişti "Neler oluyor?" (Https://blog.twitter.com/2009/whats-happening).

    1. Nasıl istemleri değişikliği kimin tweet ve / veya tweet ne etkileyeceğini düşünüyorsunuz?
    2. Eğer istemini tercih yapacak olan bir araştırma projesi Adı "Ne yapıyorsun?" açıklayın.
    3. istemi tercih yapacak olan bir araştırma projesi Ad "Ne oluyor?" açıklayın.
  5. [ orta ] Kwak et al. (2010) onlar Twitter bir daha bilgi paylaşımı, yeni bir aracı olarak daha fazla hizmet ettiğini sonucuna bu analize dayanarak 41,7 milyon kullanıcı profilleri, 1,47 milyar toplumsal ilişkileri, 4262 gidişli konular ve 6 Haziran Haziran 31 arasındaki 106 milyon tweets, 2009'da analiz sosyal ağ.

    1. Kwak ve ark.nın bulgu göz önüne alındığında, sen Twitter verileri ile araştırma ne tür yapardınız? Eğer Twitter verileri ile araştırma ne tür yapmazdı? Niye ya?
    2. 2010 yılında, Twitter ekledi kullanıcılara uyarlanmış öneri yapma hizmeti takip etmek Kim. Üç önerileri ana sayfada bir anda gösterilir. Öneriler genellikle "arkadaş-of-arkadaşlar" Kişinin çekilir ve karşılıklı temaslar da tavsiye görüntülenir. Kullanıcılar önerileri yeni bir dizi bakın veya önerilerin daha uzun bir liste ile bir sayfasını ziyaret etmek için yenileyebilirsiniz. siz) bu yeni özellik bölüm a'ya cevabını değiştirmek istiyorsunuz düşünüyor musunuz? Neden veya neden değil?
    3. Su, Sharma, and Goel (2016) hizmetini takip etmek kim etkisi değerlendirildi ve popülerlik yelpazesinde kullanıcıların önerileri yararlanmıştır iken, en popüler kullanıcılar ortalama önemli ölçüde daha fazla kâr bulundu. Bu bulgu) bölüm b cevabını değiştirir? Neden veya neden değil?
  6. [ kolay ] "Retweets" sık sık etkisini ölçmek için kullanılır ve Twitter üzerinde etkisi yayılır. Başlangıçta, kullanıcıların kopyalamak ve onlar sevdim tweet yapıştırın onun / onun saplı orijinal yazar etiketlemek ve elle bir retweet olduğunu belirtmek için tweet önce "RT" yazmanız gerekiyordu. Ardından, 2009 yılında Twitter, bir "retweet" butonuna ekledi. Haziran 2016 yılında, Twitter mümkün kullanıcılar (https://twitter.com/twitter/status/742749353689780224) kendi tweets retweet yaptı. Eğer bu değişiklikler sizin araştırma "retweets" nasıl kullandığını etkileyecek gerektiğini düşünüyor musunuz? Neden veya neden değil?

  7. [ orta , veri koleksiyonu , kodlama gerektirir ] Michel et al. (2011) kitapları dijital ortama aktarmak için Google'ın çaba çıkan bir külliyat inşa. 2009 yılında yayınlanan ve 5 milyon sayısallaştırılmış kitaplar üzerinde bulunan edildi korpus, ilk sürümünü kullanarak, yazarlar dilsel değişiklikler ve kültürel eğilimleri araştırmak için kelime kullanım sıklığını analiz. Yakında Google Kitaplar Corpus araştırmacılar için popüler bir veri kaynağı haline geldi ve bir veritabanı 2 versiyonu 2012 yılında piyasaya sürüldü.

    Ancak, Pechenick, Danforth, and Dodds (2015) araştırmacılar tam olarak geniş sonuç çıkarma için kullanmadan önce korpus örnekleme sürecini karakterize etmek gerektiğini uyardı. Ana sorun, korpus her kitabın birini içeren, kütüphane gibi olmasıdır. Sonuç olarak, bir birey olarak, üretken bir yazar belirgin Google Kitaplar sözlüğü yeni ifadeler eklemek mümkün değildir. Ayrıca, bilimsel metinler 1900'lerde boyunca korpus giderek maddi kısmını oluşturmaktadır. Buna ek olarak, İngilizce Kurgu veri setleri, Pechenick ark iki sürümü karşılaştıran. yetersiz filtreleme ilk sürümü üretiminde kullanıldığı anlaşılmıştır kanıtlar. etkinlik için gerekli olan tüm verileri buradan ulaşabilirsiniz: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Michel ve ark. Orijinal yazıda (2011) , onlar, İngiliz veri setinin 1 sürümü kullanılan "1912" ve "1973", "1880" yıl kullanım sıklığı çizilen ve biz "sonucuna varmıştır her geçen yıl daha hızlı geçmişimizi unutmadan "(Şek. 3A, Michel ve ark.). ) Korpus, Şek. 3A, Michel ve ark aynı İngiliz veri kümesi (1. versiyon 1 kullanarak aynı arsa çoğaltırlar.)
    2. Şimdi 1 sürümü, İngilizce kurgu veri kümesi ile aynı arsa çoğaltırlar.
    3. Şimdi corpus, İngiliz veri kümesi 2. sürümü ile aynı arsa çoğaltırlar.
    4. Son olarak, 2 sürümü, İngilizce kurgu veri kümesi ile aynı arsa çoğaltırlar.
    5. Bu dört parsel arasındaki benzerlik ve farklılıkları tanımlar. Eğer gözlenen eğilimin Michel ve ark. orijinal yorumuyla katılıyor musunuz? (Ipucu: c) ve d) 'Pechenick ve arkadaşları, Şekil 16 ile aynı olması gerekir).
    6. Şimdi farklı Google Kitaplar Derlem kullanarak bu bir bulguyu çoğaltıldığını, Michel ve ark., Orijinal kağıt sunulan bir başka dil değişikliği veya kültürel olguları seçin. Eğer Pechenick ark sunulan sınırlamalar ışığında yorumlanması ile katılıyorum.? senin argüman güçlü yapmak için, yukarıdaki gibi veri seti farklı versiyonlarını kullanarak aynı grafiği çoğaltmak deneyin.
  8. [ çok zor , veri koleksiyonu , kodlama gerektirir , benim favorim ] Penney (2016) Haziran 2013 NSA / PRISM gözetim (yani, Snowden âyetlerini) hakkında yaygın tanıtım gizlilik endişeleri yükseltmek konularda Wikipedia makaleleri trafik keskin ve ani azalma ile ilişkili olup olmadığını araştırıyor. Eğer öyleyse, bu davranış değişikliği kitle gözetim kaynaklanan ürpertici bir etki ile tutarlı olacaktır. Yaklaşımı Penney (2016) , bazen bir kesintiye zaman serisi tasarımı denir ve gözlemsel veriler (Bölüm 2.4.3) den deneyler yaklaşan hakkında bölümde yaklaşımları ile ilgilidir.

    Konu anahtar kelimeleri seçmek için, Penney izleme ve sosyal medya izleme ABD İç Güvenlik Bakanlığı tarafından kullanılan listeye anılacaktır. DHS liste sorunları, yani "Sağlık endişe", "Altyapı Güvenliği" ve "Terörizm. Bir dizi içine belirli arama terimleri sınıflandırır Terörizm" (Tablo 8'e bakınız "Çalışma grubu için, Penney kırk sekiz anahtar kelime ile ilgili kullanılan" Ek). Daha sonra onun argüman güçlendirmek Ağustos 2014 sonuna kadar Ocak 2012 başından itibaren, bir otuz iki aylık bir süre içinde gelen kırk sekiz Wikipedia makaleleri için aylık bazda Wikipedia makalesi görüntüleme sayılarını toplanan, o da birkaç karşılaştırma yarattı diğer konularla ilgili makale görüşlerini takip ederek grupları.

    Şimdi, çoğaltmak ve uzatmak için gidiyoruz Penney (2016) . Bu etkinlik için gereken tüm ham veri Vikipedi (https://dumps.wikimedia.org/other/pagecounts-raw/) edinilebilir. Yoksa R paketi wikipediatrend adresinden elde edebilirsiniz (Meissner and Team 2016) . Yazdığınız-up zaman yanıtları, kullandığınız hangi veri kaynağı unutmayın. (Not: Bu aynı faaliyet, aynı zamanda Bölüm 6 görünür)

    1. Oku Penney (2016) önce "Terörizm" lı sayfaları için ve Snowden vahiy sonra sayfa görüntülerini gösteren Şekil 2 ve çoğaltmak. bulguları yorumlamak.
    2. Sonraki DHS listeden "DHS ve Diğer Ajansları" adı altında kategorize anahtar kelimeler kullanarak bir karşılaştırma grubu ile çalışma grubunu ( "Terörizm" lı haberler) karşılaştırır Şekil 4A, çoğaltmak (Ek Tablo 10). bulguları yorumlamak.
    3. ) Bölüm b tek karşılaştırma grubuna çalışma grubunu karşılaştırdı. "Altyapı Güvenliği" lı makaleleri (Ek Tablo 11) ve popüler Vikipedi sayfalarına (Ek Tablo 12): Penney de diğer iki karşılaştırma gruplarına kıyasla. Alternatif bir karşılaştırma grubu ile gel, ve parça b bulgular) karşılaştırma grubu seçtiğiniz duyarlı olup olmadığını test edin. karşılaştırma grubu hangisi seçim en mantıklı? Niye ya?
    4. Yazar "Terörizm" ile ilgili anahtar kelimeleri ABD hükümeti kendi online gözetim uygulamaları için önemli bir gerekçe olarak terörizmi gösterdi çünkü Wikipedia makaleleri seçmek için kullanılan belirtti. Bu 48 "Terörizm" lı bir anahtar kelime çek olarak, Penney (2016) aynı zamanda Hükümet Trouble, Gizlilik Duyarlı ve Kaçınma açısından anahtar kelimelerin her Oranı katılımcıların soran MTurk üzerinde bir anket düzenledik (Ek Tablo 7 ve 8). MTurk üzerinde anket çoğaltmak ve sonuçları karşılaştırın.
    5. d kısmında sonuçları) ve eşyanın senin okuma dayanarak, çalışma grubunda konu anahtar kelimeler yazarın seçimi katılıyorsunuz? Neden veya neden değil? Değilse, bunun yerine ne önerirsiniz?
  9. [ kolay ] Efrati (2016) "orijinal yayın paylaşımı" aşağı yılda% 21 yıl iken Facebook'ta "toplam paylaşımı" yıl boyunca yaklaşık% 5.5 yıl düştüğünü gizli bilgilere dayalı raporlar,. Bu düşüş 30 yaş altında Facebook kullanıcıları ile özellikle akut oldu. Raporda iki faktöre düşüşe. Bir "arkadaşlar" insanlar Facebook'ta sahip sayısındaki büyüme. Diğer bazı paylaşım etkinliği mesajlaşma ve Snapchat olarak rakiplerine kaymıştır olmasıdır. Raporda ayrıca News Feed algoritması orijinal mesaj daha belirgin hale tweaks yanı sıra birkaç yıl önce "Bu Günü" orijinal mesaj kullanıcıların periyodik hatırlatmalar da dahil olmak üzere Facebook paylaşımını artırmak için çalışmıştı birkaç taktik, ortaya çıkardı. Bu bulgular bir veri kaynağı olarak Facebook kullanmak isteyen araştırmacılar için ne gibi çıkarımlar, varsa var mı?

  10. [ orta ] Tumasjan et al. (2010) bir siyasi parti söz tweets bu oran partisi, 2009 yılında Alman parlamento seçimlerinde aldıkları oy (Şekil 2.9) oranını eşleşti bildirildi. Diğer bir deyişle, seçim tahmin etmek Twitter kullanabilirsiniz ortaya çıktı. o büyük ortak bir veri kaynağı için değerli kullanım önermek görünüyordu çünkü bu çalışma yayımlandı zamanda son derece heyecan verici olarak kabul edildi.

    Büyük veri kötü özelliklerini göz önüne alındığında, ancak, hemen bu sonucun şüpheci olmalıdır. 2009 yılında Twitter'da Almanlar oldukça temsili olmayan bir grup vardı ve bir tarafın destekçileri daha sık siyaset hakkında tweet olabilir. Böylece, hayal bile edemeyeceğiniz tüm olası önyargılar bir şekilde iptal etmesi şaşırtıcı görünüyor. Aslında, sonuçlanır Tumasjan et al. (2010) gerçek olamayacak kadar iyi olduğu ortaya çıktı. Onların yazıda, Tumasjan et al. (2010) Hristiyan Demokratlar (CDU), Hıristiyan Sosyal Demokratlara (CSU), SPD, Liberaller (FDP), Sol (Die Linke) ve Yeşiller Partisi (Grüne) altı siyasi parti olarak kabul. Ancak, o zaman Twitter'da en çok söz edilen Alman siyasi parti Korsan Partisi (Piraten), Internet hükümet düzenlemeleri savaşan bir parti oldu. Korsan Partisi analize dahil edildiğinde, Twitter seçim sonuçlarının (Şekil 2.9) korkunç bir belirleyicisi haline bahseder (Jungherr, Jürgens, and Schoen 2012) .

    2.9 Şekil: Heyecan (. Tumasjan ark 2010) 2009 Alman seçim sonuçlarını tahmin etmek görünür bahseder, ancak bu sonuç, bazı keyfi ve haksız seçimler (Jungherr, Jürgens ve Schoen 2012) bağlı olarak ortaya çıkıyor.

    2.9 Şekil: Heyecan 2009 Alman seçim sonuçlarını tahmin etmek görünmesini bahseder (Tumasjan et al. 2010) , ancak bu sonuç, bazı keyfi ve haksız seçimlerine bağlıdır çıkıyor (Jungherr, Jürgens, and Schoen 2012) .

    Daha sonra, dünyadaki diğer araştırmacılar kullanmış meraklısı yöntemler-böyle pozitif ve negatif ayırt etmek duyarlılık analizi kullanılarak olarak seçimlerin farklı türde çeşitli tahmin Twitter verilerinin yeteneğini geliştirmek amacıyla tarafların-bahseder (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . İşte nasıl Huberty (2015) seçimleri tahmin etmek bu girişimlerin sonuçlarını şöyle özetledi:

    Gerçek ileriye dönük seçim tahmin taleplerine maruz kaldığında "sosyal medyada dayanan tüm bilinen tahmin yöntemleri başarısız oldu. Bu başarısızlıklar oldukça metodolojik veya algoritmik zorluklar daha sosyal medyanın temel özellikleri, bağlı olduğu görülmektedir. Kısacası, sosyal medya değil, ve muhtemelen, seçmenlerin kararlı, tarafsız, temsili resim sunacak asla; ve sosyal medya kolaylık örnekleri bu sorunların hoc sonrası düzeltmek için yeterli veri eksikliği. "

    Yol araştırmanın bazı Oku Huberty (2015) bu sonuca, ve Twitter seçimleri tahmin etmek için kullanılması gerektiğini ve nasıl açıklayan bir siyasi adaya bir sayfalık notu yazın.

  11. [ orta ] Bir sosyolog ve tarihçi arasındaki fark nedir? Goldthorpe göre (1991) , bir sosyolog ve bir tarihçi arasındaki temel fark, veri toplama üzerinde kontrol edilmesidir. Tarihçiler sosyologlar belirli amaçlar için kendi veri toplama terzi oysa emanetler kullanmak zorunda kalıyor. Gör Goldthorpe (1991) . Nasıl sosyoloji ve tarih arasındaki fark Custommades ve Readymades fikri ile ilgilidir?

  12. [ zor ] Bir önceki soruya Bina, Goldthorpe (1991) Nicky Hart dan da dahil olmak üzere kritik yanıtların bir dizi çekti (1994) yapılan verileri uyarlamak için Goldthorpe en bağlılığını meydan okudu. ısmarlama verilerin potansiyel sınırlamaları açıklığa kavuşturmak için, Hart Afili İşçi Projesi, 1960'ların ortasında Goldthorpe ve arkadaşları tarafından yapılmıştır sosyal sınıf ve oylama arasındaki ilişkiyi ölçmek için büyük bir anket nitelendirdi. bir Bulunan veriler üzerinde veri tasarlanmış n tercihi bir bilim adamı Tahmin edebileceğiniz gibi, Afili İşçi Projesi yaşam standartlarını artan bir çağda sosyal sınıf geleceğiyle ilgili yeni önerilen teori ele uyarlanmış veri topladı. Ama, Goldthorpe ve arkadaşları nasılsa kadınların oy kullanma davranışı hakkında bilgi toplamak için "unuttum". İşte Nicky Hart nasıl (1994) tüm bölüm özetleri:

    ". . . veri kümesi kadın deneyimi hariç paradigmatik mantıkla sınırlı oldu 'terzi' çünkü kadınlar ihmal edildi sonuca önlemek zordur [dir]. erkek ilgilerinden olarak sınıf bilincinin ve eylem teorik vizyonuyla. . . , Goldthorpe ve arkadaşları beslenen ve yeterliliği geçerli bir test onları teşhir yerine kendi teorik varsayımlarını beslenen ampirik deliller bir dizi oluşturduk. "

    Hart devam etti:

    "Onlar tabakalaşma, siyaset ve maddi yaşam süreçleri bilgilendirmek daha Afili İşçi Projesi ampirik bulgular bize ortalarında sosyolojisinin eril değerleri hakkında daha fazla anlat."

    Eğer ısmarlama veri toplama yerleşik veri toplayıcı önyargıları vardır başka örnekler düşünebiliyor musunuz? Bu nasıl algoritmik Etki karışımı farkı nedir? Onlar Custommades kullanmanız gerekir zaman bu ne etkileri araştırmacıların Readymades kullanmalısınız zaman için var ve olabilir?

  13. [ orta ] Bu bölümde, ben şirketler ve hükümetler tarafından oluşturulan idari kayıtları ile araştırmacılar için araştırmacılar tarafından toplanan verileri tezat. Bazı insanlar idari kayıtlar araştırmacılar tarafından bulunan doğrudur ". Tasarlanan veri" bu idari kayıtlar onlar kontrast "verileri, buldum" diyoruz, ama onlar da son derece tasarlanmıştır. Örneğin, modern teknoloji şirketleri toplamak ve onların verilerini küratörlüğünü muazzam zaman harcıyor ve kaynak harcamak. Böylece, bu idari kayıtlar hem bulundu ve tasarlanmış, sadece sizin bakış açısı (Şekil 2.10) bağlıdır.

    Şekil 2.10: resim ördek ve tavşan hem de; ne görmek bakış açınıza bağlıdır. Hükümet ve iş idari kayıtlar hem bulundu ve tasarlanmıştır; ne görmek bakış açınıza bağlıdır. Örneğin, bir cep telefonu şirketi tarafından toplanan çağrı veri kayıtları araştırmacı perspektifinden veri bulunmaktadır. Ancak, bu aynı kayıtları telefon şirketi fatura bölümünde çalışan birinin veri perspektifini tasarlanmıştır. Kaynak: Vikipedi

    Şekil 2.10: resim ördek ve tavşan hem de; ne görmek bakış açınıza bağlıdır. Hükümet ve iş idari kayıtlar hem bulundu ve tasarlanmıştır; ne görmek bakış açınıza bağlıdır. Örneğin, bir cep telefonu şirketi tarafından toplanan çağrı veri kayıtları araştırmacı perspektifinden veri bulunmaktadır. Ancak, bu aynı kayıtları telefon şirketi fatura bölümünde çalışan birinin veri perspektifini tasarlanmıştır. Kaynak: Vikipedi

    Araştırma için veri kaynağını kullanırken bulundu ve tasarlanmış yararlı hem de görmeye nerede veri kaynağının bir örnek oluşturmaktadır.

  14. [ kolay ] Düşünceli bir makalesinde, Hıristiyan Sandvig ve Eszter Hargittai (2015) dijital sistem "alet" ya da dijital araştırma, iki çeşit tarif "çalışmanın amacı." Çalışmanın birinci tür bir örnek nerede Bengtsson ve arkadaşları (2011) , ikinci türden bir örneği 2010 yılında Haiti depreminden sonra göç izlemek için cep telefonu verilerini kullandılar nerede Jensen (2007) Kerala boyunca cep telefonu tanıtımı, Hindistan balık piyasasının işleyişini nasıl etkilediğini çalışmaları. dijital veri kaynaklarını kullanarak çalışmalar da veri kaynağı aynı tür kullanıyor olsanız bile oldukça farklı hedeflere sahip olabilir açıklar çünkü bu yararlı buluyorum. bir araç olarak bir dijital sistem kullanan iki ve araştırma nesnesi olarak bir dijital sistem kullanan iki: daha bu ayrımı netleştirmek amacıyla, gezdiğiniz dört çalışmaları açıklar. İsterseniz bu bölümde örnekler kullanabilirsiniz.