anahtar:
[ , ] Algoritmik karıştırıcı Google Grip Trendleri ile ilgili bir sorun oldu. Tarafından kağıt okumak Lazer et al. (2014) , ve Google'da bir mühendis sorunu açıklayan ve sorunu çözmek için nasıl bir fikir sunan kısa ve net adresine tıklayınız.
[ ] Bollen, Mao, and Zeng (2011) Twitter veri borsa tahmin etmek için kullanılabilir iddia ediyor. Bu bulgu hedge fon-Derwent Sermaye Twitter toplanan verilere dayalı borsa yatırım Pazarlar-bir yaratılmasına yol açmıştır (Jordan 2010) . Ne kanıt bu fonda para koymadan önce görmek istersiniz?
[ Bazı kamu sağlığı savunucuları, sigarayı bırakmada etkili bir yardım olarak, e-sigara dolu iken], diğerleri gibi nikotin yüksek düzeyleri gibi potansiyel riskleri hakkında uyarmak. Bir araştırmacı, e-sigara ile ilgili Twitter mesajları toplama ve duyguları analizi yaparak, e-sigara karşı kamuoyunu incelemek için karar düşünün.
[ ] Kasım 2009'da, Heyecan "Ne yapıyorsun?" Için tweet kutusundaki soru değişti "Neler oluyor?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) onlar Twitter bir daha bilgi paylaşımı, yeni bir aracı olarak daha fazla hizmet ettiğini sonucuna bu analize dayanarak 41,7 milyon kullanıcı profilleri, 1,47 milyar toplumsal ilişkileri, 4262 gidişli konular ve 6 Haziran Haziran 31 arasındaki 106 milyon tweets, 2009'da analiz sosyal ağ.
[ ] "Retweets" sık sık etkisini ölçmek için kullanılır ve Twitter üzerinde etkisi yayılır. Başlangıçta, kullanıcıların kopyalamak ve onlar sevdim tweet yapıştırın onun / onun saplı orijinal yazar etiketlemek ve elle bir retweet olduğunu belirtmek için tweet önce "RT" yazmanız gerekiyordu. Ardından, 2009 yılında Twitter, bir "retweet" butonuna ekledi. Haziran 2016 yılında, Twitter mümkün kullanıcılar (https://twitter.com/twitter/status/742749353689780224) kendi tweets retweet yaptı. Eğer bu değişiklikler sizin araştırma "retweets" nasıl kullandığını etkileyecek gerektiğini düşünüyor musunuz? Neden veya neden değil?
[ , , ] Michel et al. (2011) kitapları dijital ortama aktarmak için Google'ın çaba çıkan bir külliyat inşa. 2009 yılında yayınlanan ve 5 milyon sayısallaştırılmış kitaplar üzerinde bulunan edildi korpus, ilk sürümünü kullanarak, yazarlar dilsel değişiklikler ve kültürel eğilimleri araştırmak için kelime kullanım sıklığını analiz. Yakında Google Kitaplar Corpus araştırmacılar için popüler bir veri kaynağı haline geldi ve bir veritabanı 2 versiyonu 2012 yılında piyasaya sürüldü.
Ancak, Pechenick, Danforth, and Dodds (2015) araştırmacılar tam olarak geniş sonuç çıkarma için kullanmadan önce korpus örnekleme sürecini karakterize etmek gerektiğini uyardı. Ana sorun, korpus her kitabın birini içeren, kütüphane gibi olmasıdır. Sonuç olarak, bir birey olarak, üretken bir yazar belirgin Google Kitaplar sözlüğü yeni ifadeler eklemek mümkün değildir. Ayrıca, bilimsel metinler 1900'lerde boyunca korpus giderek maddi kısmını oluşturmaktadır. Buna ek olarak, İngilizce Kurgu veri setleri, Pechenick ark iki sürümü karşılaştıran. yetersiz filtreleme ilk sürümü üretiminde kullanıldığı anlaşılmıştır kanıtlar. etkinlik için gerekli olan tüm verileri buradan ulaşabilirsiniz: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) Haziran 2013 NSA / PRISM gözetim (yani, Snowden âyetlerini) hakkında yaygın tanıtım gizlilik endişeleri yükseltmek konularda Wikipedia makaleleri trafik keskin ve ani azalma ile ilişkili olup olmadığını araştırıyor. Eğer öyleyse, bu davranış değişikliği kitle gözetim kaynaklanan ürpertici bir etki ile tutarlı olacaktır. Yaklaşımı Penney (2016) , bazen bir kesintiye zaman serisi tasarımı denir ve gözlemsel veriler (Bölüm 2.4.3) den deneyler yaklaşan hakkında bölümde yaklaşımları ile ilgilidir.
Konu anahtar kelimeleri seçmek için, Penney izleme ve sosyal medya izleme ABD İç Güvenlik Bakanlığı tarafından kullanılan listeye anılacaktır. DHS liste sorunları, yani "Sağlık endişe", "Altyapı Güvenliği" ve "Terörizm. Bir dizi içine belirli arama terimleri sınıflandırır Terörizm" (Tablo 8'e bakınız "Çalışma grubu için, Penney kırk sekiz anahtar kelime ile ilgili kullanılan" Ek). Daha sonra onun argüman güçlendirmek Ağustos 2014 sonuna kadar Ocak 2012 başından itibaren, bir otuz iki aylık bir süre içinde gelen kırk sekiz Wikipedia makaleleri için aylık bazda Wikipedia makalesi görüntüleme sayılarını toplanan, o da birkaç karşılaştırma yarattı diğer konularla ilgili makale görüşlerini takip ederek grupları.
Şimdi, çoğaltmak ve uzatmak için gidiyoruz Penney (2016) . Bu etkinlik için gereken tüm ham veri Vikipedi (https://dumps.wikimedia.org/other/pagecounts-raw/) edinilebilir. Yoksa R paketi wikipediatrend adresinden elde edebilirsiniz (Meissner and Team 2016) . Yazdığınız-up zaman yanıtları, kullandığınız hangi veri kaynağı unutmayın. (Not: Bu aynı faaliyet, aynı zamanda Bölüm 6 görünür)
[ ] Efrati (2016) "orijinal yayın paylaşımı" aşağı yılda% 21 yıl iken Facebook'ta "toplam paylaşımı" yıl boyunca yaklaşık% 5.5 yıl düştüğünü gizli bilgilere dayalı raporlar,. Bu düşüş 30 yaş altında Facebook kullanıcıları ile özellikle akut oldu. Raporda iki faktöre düşüşe. Bir "arkadaşlar" insanlar Facebook'ta sahip sayısındaki büyüme. Diğer bazı paylaşım etkinliği mesajlaşma ve Snapchat olarak rakiplerine kaymıştır olmasıdır. Raporda ayrıca News Feed algoritması orijinal mesaj daha belirgin hale tweaks yanı sıra birkaç yıl önce "Bu Günü" orijinal mesaj kullanıcıların periyodik hatırlatmalar da dahil olmak üzere Facebook paylaşımını artırmak için çalışmıştı birkaç taktik, ortaya çıkardı. Bu bulgular bir veri kaynağı olarak Facebook kullanmak isteyen araştırmacılar için ne gibi çıkarımlar, varsa var mı?
[ ] Tumasjan et al. (2010) bir siyasi parti söz tweets bu oran partisi, 2009 yılında Alman parlamento seçimlerinde aldıkları oy (Şekil 2.9) oranını eşleşti bildirildi. Diğer bir deyişle, seçim tahmin etmek Twitter kullanabilirsiniz ortaya çıktı. o büyük ortak bir veri kaynağı için değerli kullanım önermek görünüyordu çünkü bu çalışma yayımlandı zamanda son derece heyecan verici olarak kabul edildi.
Büyük veri kötü özelliklerini göz önüne alındığında, ancak, hemen bu sonucun şüpheci olmalıdır. 2009 yılında Twitter'da Almanlar oldukça temsili olmayan bir grup vardı ve bir tarafın destekçileri daha sık siyaset hakkında tweet olabilir. Böylece, hayal bile edemeyeceğiniz tüm olası önyargılar bir şekilde iptal etmesi şaşırtıcı görünüyor. Aslında, sonuçlanır Tumasjan et al. (2010) gerçek olamayacak kadar iyi olduğu ortaya çıktı. Onların yazıda, Tumasjan et al. (2010) Hristiyan Demokratlar (CDU), Hıristiyan Sosyal Demokratlara (CSU), SPD, Liberaller (FDP), Sol (Die Linke) ve Yeşiller Partisi (Grüne) altı siyasi parti olarak kabul. Ancak, o zaman Twitter'da en çok söz edilen Alman siyasi parti Korsan Partisi (Piraten), Internet hükümet düzenlemeleri savaşan bir parti oldu. Korsan Partisi analize dahil edildiğinde, Twitter seçim sonuçlarının (Şekil 2.9) korkunç bir belirleyicisi haline bahseder (Jungherr, Jürgens, and Schoen 2012) .
Daha sonra, dünyadaki diğer araştırmacılar kullanmış meraklısı yöntemler-böyle pozitif ve negatif ayırt etmek duyarlılık analizi kullanılarak olarak seçimlerin farklı türde çeşitli tahmin Twitter verilerinin yeteneğini geliştirmek amacıyla tarafların-bahseder (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . İşte nasıl Huberty (2015) seçimleri tahmin etmek bu girişimlerin sonuçlarını şöyle özetledi:
Gerçek ileriye dönük seçim tahmin taleplerine maruz kaldığında "sosyal medyada dayanan tüm bilinen tahmin yöntemleri başarısız oldu. Bu başarısızlıklar oldukça metodolojik veya algoritmik zorluklar daha sosyal medyanın temel özellikleri, bağlı olduğu görülmektedir. Kısacası, sosyal medya değil, ve muhtemelen, seçmenlerin kararlı, tarafsız, temsili resim sunacak asla; ve sosyal medya kolaylık örnekleri bu sorunların hoc sonrası düzeltmek için yeterli veri eksikliği. "
Yol araştırmanın bazı Oku Huberty (2015) bu sonuca, ve Twitter seçimleri tahmin etmek için kullanılması gerektiğini ve nasıl açıklayan bir siyasi adaya bir sayfalık notu yazın.
[ ] Bir sosyolog ve tarihçi arasındaki fark nedir? Goldthorpe göre (1991) , bir sosyolog ve bir tarihçi arasındaki temel fark, veri toplama üzerinde kontrol edilmesidir. Tarihçiler sosyologlar belirli amaçlar için kendi veri toplama terzi oysa emanetler kullanmak zorunda kalıyor. Gör Goldthorpe (1991) . Nasıl sosyoloji ve tarih arasındaki fark Custommades ve Readymades fikri ile ilgilidir?
[ ] Bir önceki soruya Bina, Goldthorpe (1991) Nicky Hart dan da dahil olmak üzere kritik yanıtların bir dizi çekti (1994) yapılan verileri uyarlamak için Goldthorpe en bağlılığını meydan okudu. ısmarlama verilerin potansiyel sınırlamaları açıklığa kavuşturmak için, Hart Afili İşçi Projesi, 1960'ların ortasında Goldthorpe ve arkadaşları tarafından yapılmıştır sosyal sınıf ve oylama arasındaki ilişkiyi ölçmek için büyük bir anket nitelendirdi. bir Bulunan veriler üzerinde veri tasarlanmış n tercihi bir bilim adamı Tahmin edebileceğiniz gibi, Afili İşçi Projesi yaşam standartlarını artan bir çağda sosyal sınıf geleceğiyle ilgili yeni önerilen teori ele uyarlanmış veri topladı. Ama, Goldthorpe ve arkadaşları nasılsa kadınların oy kullanma davranışı hakkında bilgi toplamak için "unuttum". İşte Nicky Hart nasıl (1994) tüm bölüm özetleri:
". . . veri kümesi kadın deneyimi hariç paradigmatik mantıkla sınırlı oldu 'terzi' çünkü kadınlar ihmal edildi sonuca önlemek zordur [dir]. erkek ilgilerinden olarak sınıf bilincinin ve eylem teorik vizyonuyla. . . , Goldthorpe ve arkadaşları beslenen ve yeterliliği geçerli bir test onları teşhir yerine kendi teorik varsayımlarını beslenen ampirik deliller bir dizi oluşturduk. "
Hart devam etti:
"Onlar tabakalaşma, siyaset ve maddi yaşam süreçleri bilgilendirmek daha Afili İşçi Projesi ampirik bulgular bize ortalarında sosyolojisinin eril değerleri hakkında daha fazla anlat."
Eğer ısmarlama veri toplama yerleşik veri toplayıcı önyargıları vardır başka örnekler düşünebiliyor musunuz? Bu nasıl algoritmik Etki karışımı farkı nedir? Onlar Custommades kullanmanız gerekir zaman bu ne etkileri araştırmacıların Readymades kullanmalısınız zaman için var ve olabilir?
[ ] Bu bölümde, ben şirketler ve hükümetler tarafından oluşturulan idari kayıtları ile araştırmacılar için araştırmacılar tarafından toplanan verileri tezat. Bazı insanlar idari kayıtlar araştırmacılar tarafından bulunan doğrudur ". Tasarlanan veri" bu idari kayıtlar onlar kontrast "verileri, buldum" diyoruz, ama onlar da son derece tasarlanmıştır. Örneğin, modern teknoloji şirketleri toplamak ve onların verilerini küratörlüğünü muazzam zaman harcıyor ve kaynak harcamak. Böylece, bu idari kayıtlar hem bulundu ve tasarlanmış, sadece sizin bakış açısı (Şekil 2.10) bağlıdır.
Araştırma için veri kaynağını kullanırken bulundu ve tasarlanmış yararlı hem de görmeye nerede veri kaynağının bir örnek oluşturmaktadır.
[ ] Düşünceli bir makalesinde, Hıristiyan Sandvig ve Eszter Hargittai (2015) dijital sistem "alet" ya da dijital araştırma, iki çeşit tarif "çalışmanın amacı." Çalışmanın birinci tür bir örnek nerede Bengtsson ve arkadaşları (2011) , ikinci türden bir örneği 2010 yılında Haiti depreminden sonra göç izlemek için cep telefonu verilerini kullandılar nerede Jensen (2007) Kerala boyunca cep telefonu tanıtımı, Hindistan balık piyasasının işleyişini nasıl etkilediğini çalışmaları. dijital veri kaynaklarını kullanarak çalışmalar da veri kaynağı aynı tür kullanıyor olsanız bile oldukça farklı hedeflere sahip olabilir açıklar çünkü bu yararlı buluyorum. bir araç olarak bir dijital sistem kullanan iki ve araştırma nesnesi olarak bir dijital sistem kullanan iki: daha bu ayrımı netleştirmek amacıyla, gezdiğiniz dört çalışmaları açıklar. İsterseniz bu bölümde örnekler kullanabilirsiniz.