[ , ] Algoritmik karışıklık, Google Grip Eğilimlerinde bir sorun oldu. Kağıdı Lazer et al. (2014) ve problemi açıklayan ve nasıl düzeltileceğine dair bir fikir sunan bir mühendise kısa ve açık bir e-posta yazınız.
[ ] Bollen, Mao, and Zeng (2011) , Twitter'daki verilerin borsa tahmininde kullanılabileceğini iddia ediyor. Bu bulgu, Twitter'dan toplanan verilere dayanarak hisse senedi piyasasına yatırım yapmak için bir yatırım fonunun (Derwent Capital Markets) kurulmasına yol açmıştır (Jordan 2010) . Paranızı bu fona koymadan önce hangi kanıtları görmek istersiniz?
[ Bazı halk sağlığı savunucuları, e-sigaraları sigarayı bırakma konusunda etkili bir yardım olarak düşünürken, diğerleri, yüksek düzeyde nikotin gibi potansiyel riskler konusunda uyarırlar. Bir araştırmacının, e-sigara ile ilgili Twitter gönderilerini toplayarak ve duygu analizi yaparak e-sigaraya yönelik kamuoyunu incelemeye karar verdiğini düşünün.
[ ] Kasım 2009'da Twitter, “Ne yapıyorsun?” Dan “Neler oluyor?” Dan tweet kutusundaki soruyu değiştirdi (https://blog.twitter.com/2009/whats-happening).
[ ] “Retweetler” genellikle Twitter'daki etkinin ve yayılmasının ölçülmesi için kullanılır. Başlangıçta, kullanıcılar beğendikleri tweet'i kopyalayıp yapıştırmak zorundaydılar, orijinal yazarını kulpla işaretlemişler ve tweet'den önce bir retweet olduğunu belirtmek için manuel olarak “RT” yazmaları gerekiyordu. Daha sonra, 2009 yılında Twitter bir “retweet” düğmesi ekledi. Haziran 2016'da Twitter, kullanıcıların kendi tweet'lerini (https://twitter.com/twitter/status/742749353689780224) tekrar çekebilmelerini sağladı. Bu değişikliklerin, araştırmanızdaki “retweetleri” nasıl kullandığınızı etkilediğini düşünüyor musunuz? Neden ya da neden olmasın?
[ , , , Yaygın olarak tartışılan bir makalede, Michel ve meslektaşları (2011) , uzun vadeli kültürel eğilimleri tanımlamak için beş milyondan fazla dijitalleştirilmiş kitap içeriğini analiz ettiler. Kullandıkları veriler artık Google NGrams veri kümesi olarak yayınlandı. Bu nedenle verileri işlerini çoğaltmak ve genişletmek için kullanabiliriz.
Makaledeki birçok sonuçtan birinde, Michel ve meslektaşları daha hızlı ve daha hızlı unuttuğumuzu savundu. Belirli bir yıl için, “1883” derken, 1875 ve 1975 yılları arasında her yıl yayınlanan 1 gramın oranını “1883” olarak hesapladılar. Bu oranın, o yıl gerçekleşen olaylara olan ilginin bir ölçütü olduğunu düşünüyorlardı. Şekil 3a'da, üç yıl boyunca kullanım yörüngelerini çizdiler: 1883, 1910 ve 1950. Bu üç yıl ortak bir kalıbı paylaşıyor: o yıldan önce az bir kullanım, sonra bir başak, sonra çürüyor. Daha sonra, her yıl için çürüme oranını ölçmek için, Michel ve meslektaşları, 1875 ve 1975 yılları arasındaki tüm yılların “yarı-ömrü” ni hesapladılar. Şekil 3a'da (ekte), her birinin yarı ömrünün olduğunu gösterdiler. Yıl düşüyor ve bunun, geçmişi daha hızlı ve daha hızlı unuttuğumuz anlamına geldiğini savundular. İngiliz dili corpus'un 1. sürümünü kullandılar, ancak daha sonra Google, korpusun ikinci bir sürümünü yayınladı. Kodlamaya başlamadan önce lütfen sorunun tüm kısımlarını okuyun.
Bu etkinlik size yeniden kullanılabilir kod yazımı, sonuçların yorumlanması ve veri bozulması gibi uygulamalara neden olacaktır (örneğin, beceriksiz dosyalar ile çalışmak ve eksik verileri ele almak gibi). Bu etkinlik aynı zamanda zengin ve ilginç bir veri kümesiyle çalışmaya başlamanıza da yardımcı olacaktır.
Ham verileri Google Kitaplar NGram Viewer web sitesinden edinin. Özellikle, 1 Temmuz 2012'de piyasaya sürülen İngilizce dil korpusunun 2. sürümünü kullanmalısınız. Sıkıştırılmamış bu dosya 1.4GB'dir.
Michel et al. (2011) şekil 3a'nın ana kısmını yeniden oluşturun Michel et al. (2011) . Bu rakamı yeniden oluşturmak için iki dosyaya ihtiyacınız olacaktır: (a) bölümünde indirdiğiniz ve ham sayımları oranlara dönüştürmek için kullanabileceğiniz "toplam sayımlar" dosyası. Toplam sayım dosyasının, okunması biraz zorlaştırabilecek bir yapıya sahip olduğunu unutmayın. NGram verilerinin 2. versiyonu, Michel et al. (2011) , sürüm 1 verilerine dayanıyor mu?
Şimdi grafiğinizi NGram Viewer tarafından oluşturulan grafiğe göre kontrol edin.
Şekil 3a'yı yeniden oluşturun (ana şekil), ancak ham anım sayısı olacak şekilde \(y\) oranını değiştirmek için \(y\) -aksini değiştirin.
(B) ve (d) arasındaki fark, Michel ve ark. (2011). Neden ya da neden olmasın?
Şimdi, sözlerin oranını kullanarak, şekil 3a'nın iç kısmını çoğaltın. Yani, her yıl için 1875 ve 1975 yılları arasında o yılın yarı ömrünü hesaplayın. Yarı ömür, bahsi oranlarının zirve değerinin yarısına ulaşmasından önce geçen yılların sayısı olarak tanımlanır. Michel et al. (2011) yarı yaşamı tahmin etmek için daha karmaşık bir şey yaparlar — Destekleyici Çevrimiçi Bilgilerin III.6 bölümüne bakınız - ancak her iki yaklaşımın da benzer sonuçlar ürettiğini iddia ederler. NGram verilerinin 2. versiyonu, Michel et al. (2011) , sürüm 1 verilerine dayanıyor mu? (İpucu: Olmasa şaşırmayın.)
Özellikle hızlı ya da özellikle yavaş yavaş unutulan yıllar gibi aykırı geçen yıllar var mıydı? Bu örüntüyle ilgili olası nedenleri kısaca açıklayın ve aykırı değerleri nasıl belirlediğinizi açıklayın.
Şimdi bu sonucu Çince, Fransızca, Almanca, İbranice, İtalyanca, Rusça ve İspanyolca olarak NGrams verilerinin 2. sürümüne kopyalayın.
Bütün diller arasında karşılaştırmak, yıllar önce özellikle hızlı ya da özellikle yavaşça unutulmuş yıllar gibi aykırı olan yıllar oldu mu? Bu paternin olası nedenleri hakkında kısaca bilgi edinin.
[ , , , ] Penney (2016) Haziran 2013'te NSA / PRISM sürveyansı (yani Snowden vahiyleri) hakkındaki yaygın tanıtımın, gizlilikle ilgili endişeleri artıran konularda Wikipedia makalelerinde trafikte keskin ve ani bir azalma ile ilişkili olup olmadığını araştırdı. Eğer öyleyse, davranıştaki bu değişim kitlesel gözetimden kaynaklanan bir ürpertici etki ile tutarlı olacaktır. Penney (2016) yaklaşımına bazen kesintili zaman serileri tasarımı denir ve bölüm 2.4.3'te açıklanan yaklaşımlarla ilgilidir.
Konu anahtar kelimelerini seçmek için Penney, sosyal medyayı izlemek ve izlemek için ABD İç Güvenlik Bakanlığı tarafından kullanılan listeye başvurdu. DHS listesi, bazı arama terimlerini “Sağlık Endişesi”, “Altyapı Güvenliği” ve “Terörizm” gibi bir dizi meseleye göre sınıflandırır. Çalışma grubu için Penney “Terörizm” ile ilgili 48 anahtar kelimeyi kullandı (bkz. Ek tablo 8). ). Daha sonra, Ocak 2012'nin başından Ağustos 2014'ün sonuna kadar, 32 aylık bir dönem boyunca ilgili 48 Vikipedi makalesi için Vikipedi makalesi görüntüleme sayılarını aylık olarak topladı. Ayrıca, argümanını güçlendirmek için çeşitli karşılaştırma grupları oluşturdu. diğer konularla ilgili makale görüşleri.
Şimdi, Penney (2016) ve uzatacaksınız. Bu etkinlik için ihtiyaç duyacağınız tüm ham veriler Wikipedia'dan edinilebilir. Ya da R-paketini wikipediatrend'den (Meissner and R Core Team 2016) . Yanıtlarınızı yazarken, kullandığınız veri kaynağını lütfen unutmayın. (Bu aynı aktivitenin 6. bölümde de göründüğünü unutmayın). Bu etkinlik, büyük veri kaynaklarındaki doğal denemeler hakkında veri kırma ve düşünme konusunda size pratik verecektir. Ayrıca, gelecekteki projeler için potansiyel olarak ilginç bir veri kaynağı ile çalışmanızı sağlar.
[ ] Efrati (2016) gizli bilgilere dayanarak, Facebook'taki “toplam paylaşımın” geçen yıla göre yaklaşık% 5,5 azaldığını, “orijinal yayın paylaşımı” ise yılda% 21 düşüş olduğunu bildirdi. Bu düşüş özellikle 30 yaşın altındaki Facebook kullanıcıları ile akut oldu. Rapor, düşüşü iki faktöre bağladı. Birincisi, Facebook'taki “arkadaşların” sayısındaki artış. Diğeri ise, bazı paylaşım aktivitelerinin mesajlaşmaya ve Snapchat gibi rakiplere kaydığıdır. Raporda, Facebook'un, “Post On This Day” özelliği ile orijinal yayınların daha belirgin olmasını sağlayan News Feed algoritması ayarları ve orijinal yayınların periyodik anımsatıcıları da dahil olmak üzere paylaşmayı artırmaya çalıştığı çeşitli taktikleri de ortaya koydu. Varsa, bu bulguların Facebook'u bir veri kaynağı olarak kullanmak isteyen araştırmacılar için ne gibi etkileri var?
[ Bir sosyolog ve tarihçi arasındaki fark nedir? Goldthorpe'a (1991) göre, ana farklılık veri toplama üzerinde kontroldür. Tarihçiler kalıntılar kullanmaya zorlanırken, sosyologlar veri koleksiyonlarını belirli amaçlara göre düzenleyebilirler. Goldthorpe (1991) okuyun. Sosyoloji ile tarih arasındaki fark, özel eşya ve hazır vaziyetler düşüncesiyle nasıl ilişkilidir?
[ ] Bu önceki quesiton üzerinde inşa edilir. Goldthorpe (1991) , Goldthorpe'un uyarlanmış verilere olan bağlılığına meydan okuyan Nicky Hart (1994) dan biri de dahil olmak üzere bir dizi kritik yanıtı çizdi. Özel hazırlanmış verilerin potansiyel sınırlamalarını açıklığa kavuşturmak için Hart, 1960'lı yılların ortalarında Goldthorpe ve meslektaşları tarafından yürütülen sosyal sınıf ve oylama arasındaki ilişkiyi ölçmek için yapılan kapsamlı bir anket olan “İşçi İşçi Projesi” ni anlattı. Bulunan veriler üzerinde tasarlanan verileri tercih eden bir akademisyenden beklenebileceği gibi, Reflu İşçi Projesi, yaşam standartlarını artırma çağında sosyal sınıfın geleceği ile ilgili yeni önerilen bir teoriye hitap edecek şekilde hazırlanmış verileri topladı. Ancak, Goldthorpe ve meslektaşları bir şekilde kadınların oy kullanma davranışları hakkında bilgi toplamak için “unutuyorlar”. Nicky Hart'un (1994) tüm bölümü şöyle özetliyor:
“… Bu“ terzi ”veri kümesinin kadın deneyimini dışlayan paradigmatik bir mantıkla sınırlandırıldığı için kadınların atlanmış olduğu sonucundan kaçınmak zordur. Sınıf bilincinin ve eylemin erkek meselesi olarak teorik bir vizyonuyla harekete geçen ... Goldthorpe ve meslektaşları, geçerli bir yeterlilik testine maruz bırakmak yerine kendi teorik varsayımlarını besleyen ve besleyen bir dizi ampirik kanıt oluşturdu. ”
Hart devam etti:
“Varlıklı İşçi Projesi'nin ampirik bulguları, orta yüzyıl sosyolojisinin maskülenist değerleri hakkında, tabakalaşma, siyaset ve maddi yaşam süreçlerini bilgilendirmekten çok daha fazla şey anlatıyor.”
Özel olarak hazırlanmış veri koleksiyonunun içine veri toplayıcısının önyargısına sahip olduğu diğer örnekleri düşünür müsünüz? Bu algoritmik karıştırmayla nasıl karşılaştırılır? Araştırmacılar hazır matemleri ne zaman kullanmalı ve ne zaman özel bir madde kullanmalı?
[ ] Bu bölümde, araştırmacılar tarafından araştırmacılar tarafından toplanan verileri, şirketler ve hükümetler tarafından oluşturulan idari kayıtlarla karşılaştırdım. Bazı insanlar, “tasarlanan veriler” ile tezat oluşturdukları “bulunan verileri” içeren bu idari kayıtları çağırırlar. İdari kayıtların araştırmacılar tarafından bulunduğuna, ancak aynı zamanda yüksek düzeyde tasarlandıkları doğrudur. Örneğin, modern teknoloji şirketleri verilerini toplamak ve incelemek için çok çalışmaktadır. Böylece, bu idari kayıtlar hem bulunur, hem de tasarlanır, sadece sizin bakış açınıza bağlıdır (şekil 2.12).
Araştırma için bu veri kaynağını kullanırken bulduğu ve tasarlandığı şekliyle görmenin faydalı olduğu bir veri kaynağı örneği sağlayın.
[ Düşünceli bir makalede, Christian Sandvig ve Eszter Hargittai (2015) , dijital sistemin bir “enstrüman” veya “çalışma nesnesi” olmasına bağlı olarak dijital araştırmayı iki kategoriye ayırmıştır. Bir enstrüman — 2010 yılında Haiti depreminden sonra göçü izlemek için cep telefonu verilerini kullanma konusundaki Bengtsson ve meslektaşları (2011) tarafından yapılan bir araştırmadır. Sistemin bir çalışma nesnesi olduğu ikinci türün bir örneği Jensen tarafından yapılan bir araştırmadır. (2007) , Kerala, Hindistan boyunca cep telefonlarının piyasaya girişinin, pazarın balık işleyişini nasıl etkilediğine ilişkin olarak. Bu ayrımı faydalı buluyorum çünkü dijital veri kaynaklarını kullanan çalışmaların, aynı tür veri kaynağı kullanıyor olsalar bile, oldukça farklı hedeflere sahip olabileceğini açıklıyor. Bu ayrımı daha da açıklığa kavuşturmak için, gördüğünüz dört çalışmayı tanımlayın: ikisi bir dijital enstrümanı bir enstrüman olarak kullanan ve iki tanesi bir dijital nesne sistemini bir nesne olarak kullanan. İsterseniz bu bölümdeki örnekleri kullanabilirsiniz.