ayrıntılı açıklama

Bu bölümde, bir anlatı olarak okunacak ziyade, bir referans olarak kullanılmak üzere tasarlanmıştır.

  • Giriş (Bölüm 2.1)

bu bölümde yer almayan gözlemi bir tür etnografya olduğunu. Dijital alanlarda etnografya hakkında ayrıntılı bilgi için, bkz Boellstorff et al. (2012) , ve karışık dijital ve fiziksel alanlarda etnografya üzerine daha fazla bilgi için bkz Lane (2016) .

  • Büyük veri (Bölüm 2.2)

Verileri repurposing zaman, karşılaşabileceğiniz olası sorunları anlamanıza yardımcı olabilir iki zihinsel hileler vardır. İlk olarak, sorun için ideal bir veri kümesini hayal etmeye çalışın ve kullandığınız veri setine karşılaştırmak. Nasıl benzer ve farklı nasılsın? Eğer verileri kendiniz toplamak olmadıysa, istediğiniz ve ne ne arasındaki fark olması muhtemeldir vardır. Ancak, bu farklılıkların küçük veya büyük olup olmadığını karar vermek zorunda.

İkincisi, birisi oluşturulan ve nedense veri toplanan unutmayın. Onların akıl anlamaya çalışmalısınız. ters-mühendislik bu tür size repurposed verilerdeki muhtemel sorunlar ve önyargıları belirlemenize yardımcı olabilir.

Orada "büyük veri" tek konsensüs tanımı, ancak birçok tanımları 3 Vs odaklanmak gibi görünüyor: (örneğin, hacim, çeşitliliği ve hız Japec et al. (2015) ). Aksine verilerin özelliklerine odaklanmak yerine, benim tanımı veri oluşturulduğu neden daha fazla odaklanıyor.

Büyük veri kategorisi içinde hükümet idari verilerin Benim eklenmesi biraz alışılmadık olduğunu. Bu davayı yapmış Diğerleri arasında, Legewie (2015) , Connelly et al. (2016) , ve Einav and Levin (2014) . Araştırma için Hükümet idari verilerin değeri hakkında daha fazla bilgi için, bkz Card et al. (2010) , Taskforce (2012) , ve Grusky, Smeeding, and Snipp (2015) .

Hükümet istatistik sistemi, özellikle ABD Sayım Bürosu içinden idari araştırma bir görünüm için, bkz Jarmin and O'Hara (2016) . İsveç İstatistik idari kayıtlar araştırma kitabı uzunluğu tedavisi için bkz Wallgren and Wallgren (2007) .

bölümde, kısaca böyle Twitter gibi bir sosyal medya veri kaynağına Genel Sosyal Anketi (GSS) gibi geleneksel anket karşılaştırıldı. Geleneksel anketler ve sosyal medya verileri arasında kapsamlı ve dikkatli bir karşılaştırması için, bkz Schober et al. (2016) .

  • Büyük veri ortak özellikleri (Bölüm 2.3)

Büyük verilerin bu 10 özellikleri farklı yazarların çeşitli farklı şekillerde çeşitli tarif edilmiştir. Bu konularda benim düşünme etkiledi Yazma şunlardır: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ve Goldstone and Lupyan (2016) .

Bu bölüm boyunca, ben nispeten nötr olduğunu düşünüyorum terim dijital izler, kullandım. Dijital izleri için popüler bir terim dijital ayak izleri olduğu (Golder and Macy 2014) , fakat Hal Abelson Ken Ledeen ve Harry Lewis gibi (2008) işaret, daha uygun bir terim muhtemelen dijital parmak izi olduğunu. Eğer ayak izleri oluşturduğunuzda, oluyor ve ayak izleri genellikle size şahsen takip edilemez ne farkındayız. Aynı dijital izleri için doğru değildir. Aslında, size izleri çok az bilgiye sahip olduğu hakkında her zaman ayrılıyor. Bu izleri onlara adınızı yoktur rağmen, genellikle size geri bağlantılı olabilir. Başka bir deyişle, daha fazla parmak izi gibidir: Görünmez ve kişisel kimlik.

Büyük

Büyük veri setleri, sorunlu istatistiksel testler hale neden daha fazla bilgi için, bkz Lin, Lucas, and Shmueli (2013) ve McFarland and McFarland (2015) . Bu konular pratik önemi ziyade istatistiksel olarak anlamlı odaklanmak araştırmacıların öncülük etmelidir.

Her zaman

dikkate alındığında her zaman veri, zaman içinde aynı insanlar karşılaştırarak olsun veya olmasın insanların bazı değişen grup karşılaştırarak olup olmadığını dikkate almak önemlidir; bakınız, örneğin, Diaz et al. (2016) .

Reaktif olmayan

Reaktif olmayan önlemler hakkında bir klasik kitap Webb et al. (1966) . Kitap önceden tarihi örnekler dijital çağ, ama yine de aydınlatıcıdır. Çünkü kitle gözetim varlığı onların davranışlarını değiştirerek insanların örnekleri için bkz Penney (2016) ve Brayne (2014) .

eksik

Rekor bağlantı ile ilgili daha fazla bilgi için, bkz Dunn (1946) ve Fellegi and Sunter (1969) (tarihi) ve Larsen and Winkler (2014) (modern). Benzer tür veri tekilleştirme, örnek tanımlama, isim eşleştirme aynı zamanda adlar altında bilgisayar bilimi geliştirilmiştir yaklaştı, rekor algılama algılama yinelenen ve yinelenen (Elmagarmid, Ipeirotis, and Verykios 2007) . Kişisel tanımlayıcı bilgilerin iletilmesini gerekmez bağlantı kaydetmek için yaklaşımlar koruyarak gizlilik vardır (Schnell 2013) . Facebook da bir oylama davranış kayıtlarını bağlamak devam geliştirdi; Bu ben 4. Bölümde anlatacağım bir deney değerlendirmek amacıyla yapılmıştır (Bond et al. 2012; Jones et al. 2013) .

Yapı geçerliği hakkında ayrıntılı bilgi için, bkz Shadish, Cook, and Campbell (2001) , Bölüm 3.

erişilemez

AOL arama günlüğü fiyaskosu hakkında daha fazla bilgi için, bkz Ohm (2010) . Ben deneyler tarif zaman şirketler ve 4. Bölümde yönetimlerle ortaklık konusunda tavsiyelerde. Bir dizi yazar ulaşılmaz verilere dayanmaktadır araştırma kaygıları dile getirdiler, bkz Huberman (2012) ve boyd and Crawford (2012) .

Üniversite araştırmacıları veri erişimi elde etmek için iyi bir yolu stajyer ya da misafir araştırmacı olarak bir şirkette çalışmaktır. veri erişim sağlayarak ek olarak, bu süreç aynı zamanda araştırmacı veri analizi için önemli olan, nasıl yaratıldığını hakkında daha fazla bilgi edinmenize yardımcı olacaktır.

Sigara temsilcisi

Sigara temsiliyet tüm nüfusun yaklaşık açıklama yapmak isteyen araştırmacılar ve hükümetler için önemli bir sorundur. Bu genellikle kullanıcılarına odaklanan şirketler için endişe azdır. İstatistikler Hollanda iş büyük veri olmayan temsiliyet sorununu dikkate nasıl daha fazla bilgi için, bkz Buelens et al. (2014) .

Bölüm 3'de, ben çok daha detaylı olarak örnekleme ve tahmini anlatacağım. Veri belirli koşullar altında olmayan temsilcisi, olsa bile, onlar iyi tahminler üretmek için ağırlıklı olabilir.

sürüklenen

Sistem sürüklenme dışarıdan görmek çok zordur. Ancak, (daha 4. Bölümde ele alınmıştır) MovieLens proje akademik araştırma grubu tarafından 15 yıldan fazla aday olmuştur. Bu nedenle, belgelenmiş ve sistem zaman içinde gelişti yol ve hakkında bilgi paylaştılar bu etkileyebilecek analiz (Harper and Konstan 2015) .

Çok sayıda bilim adamı Twitter sürüklenme üzerine odaklanmıştır: Liu, Kliman-Silver, and Mislove (2014) ve Tufekci (2014) .

algoritmik şaşırmış

Ben ilk dönem bir konuşma Jon Kleinberg tarafından kullanılan "algoritmik gülümsetti" duydum. Performatifliğin ardındaki ana fikir, bazı sosyal bilim teorileri "motorları değil kameralar" olmasıdır (Mackenzie 2008) . Yani, aslında dünyayı şekillendirecek yerine sadece onu yakalamak.

Kirli

Devlet istatistik kurumlarının veri temizleme, istatistiksel veri düzenleme diyoruz. De Waal, Puts, and Daas (2014) anket verileri için geliştirilmiş istatistiksel veri düzenleme tekniklerini tanımlamak ve hangi dereceye kadar büyük veri kaynaklarına uygulanabilir ve oldukları incelemek Puts, Daas, and Waal (2015) daha genel bir izleyici için aynı fikirleri bazı sunar.

Twitter, spam odaklı çalışmaların bazı örnekleri için Clark et al. (2016) ve Chu et al. (2012) . Son olarak, Subrahmanian et al. (2016) DARPA Twitter Bot Challenge sonuçlarını açıklar.

Hassas

Ohm (2015) hassas bilgilerin fikri üzerine önceki araştırmalar inceler ve bir çok faktör testi sunmaktadır. O önerir dört faktör şunlardır: zarar olasılığı; zarar olasılığı; gizli bir ilişki varlığı; ve risk olup olmadığını çoğunlukçu kaygıları yansıtmaktadır.

  • Şeyleri sayma (Bölüm 2.4.1)

New York'ta taksi Farber çalışması ile önceki bir çalışmada dayalı Camerer et al. (1997) gezi başlangıç ​​zamanını kaydetmek için sürücüler tarafından kullanılan kağıt gezi yaprak kağıt formlar, bitiş saatini ve ücret üç farklı kolaylık örnekleri kullanılan. onların ücret yüksek olduğu günlerde az çalıştı: Bu daha önceki çalışma sürücüleri hedef gelirliler gibi görünüyordu bulundu.

Kossinets and Watts (2009) , sosyal ağlarda türlük kökenleri üzerinde duruldu. Bkz Wimmer and Lewis (2010) Facebook verilerini kullanan aynı soruna farklı bir yaklaşım için.

Sonraki çalışmada, Kral ve arkadaşları daha Çin'de online sansürü incelemiş bulunuyoruz (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Çin'de online sansürü ölçüm ilgili yaklaşım için, bkz Bamman, O'Connor, and Smith (2012) . Kullanılan gibi istatistiksel yöntemler hakkında daha fazla bilgi için King, Pan, and Roberts (2013) , bkz 11 milyon mesajların duyguları tahmin etmek Hopkins and King (2010) . Denetlenen öğrenme daha fazla bilgi için, bkz James et al. (2013) (daha az teknik) ve Hastie, Tibshirani, and Friedman (2009) (daha teknik).

  • Tahmin (Bölüm 2.4.2)

Öngörü endüstriyel veri bilim büyük bir parçası olan (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Yaygın sosyal araştırmacılar tarafından yapılır tahmin Tek tip örneği için, demografik öngörü vardır Raftery et al. (2012) .

Google Grip Trendleri grip sıklığını nowcast için arama verilerini kullanan ilk proje değildi. Aslında, ABD'de araştırmacılar (Polgreen et al. 2008; Ginsberg et al. 2009) ve İsveç'te (Hulth, Rydevik, and Linde 2009) belirli arama terimleri (örneğin, "grip") ulusal halk sağlığı gözetim tahmin bulduk daha önce veri serbest bırakıldı. Daha sonra diğer birçok proje, bkz hastalık gözetim tespiti için dijital iz verilerini kullanmaya çalıştık Althouse et al. (2015) bir inceleme için.

sağlık sonuçlarını tahmin etmek dijital iz verilerini kullanarak ek olarak, aynı zamanda seçim sonuçlarını tahmin etmek Twitter verilerini kullanarak bir çalışma büyük miktarda olmuştur; yorumlara bakınız Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), ve Huberty (2015) .

grip sıklığını tahmin ve seçimler dünyada olay çeşit tahmin dijital iz çeşit kullanarak iki örnektir tahmin Twitter verilerini kullanarak arama verilerini kullanarak. Orada bu genel yapıya sahip çalışmaların büyük bir sayı. Tablo 2.5 birkaç diğer örnekler içerir.

Tablo 2.5: Çalışmaların kısmi liste bazı olay tahmin bazı dijital iz kullanın.
dijital iz Sonuç alıntı
heyecan ABD'de film gişe geliri Asur and Huberman (2010)
Arama günlükleri ABD'de film, müzik, kitap ve video oyunları Satış Goel et al. (2010)
heyecan Dow Jones Industrial Average (ABD borsa) Bollen, Mao, and Zeng (2011)
  • Yaklaştırma deneyler (Bölüm 2.4.3)

Dergi PS Siyaset Bilimi büyük veri, nedensel çıkarsama ve biçimsel teorisi üzerine bir sempozyum vardı ve Clark and Golder (2015) her katkı özetlenmektedir. Amerika Birleşik Devletleri Ulusal Bilimler Akademisi Tutanakları dergi nedensel çıkarsama ve büyük veri üzerinde bir sempozyum vardı ve Shiffrin (2016) her katkı özetlenmektedir.

Doğal deneyler açısından, Dunning (2012) mükemmel bir kitap uzunluğu tedavi sağlar. Doğal bir deney olarak Vietnam taslak piyango kullanımıyla ilgili daha fazla bilgi için, bkz Berinsky and Chatfield (2015) . Içinde büyük veri kaynaklarının doğal deneyler otomatik olarak tespit etme girişiminde makine öğrenmesi yaklaşımları için, bkz Jensen et al. (2008) ve Sharma, Hofman, and Watts (2015) .

Eşleme açısından iyimser bir inceleme için, bkz Stuart (2010) , ve kötümser inceleme için bkz Sekhon (2009) . Budama bir tür olarak eşleşen hakkında daha fazla bilgi için, bkz Ho et al. (2007) . Eşleme mükemmel tedaviler sağlayan kitaplar için, bkz Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ve Imbens and Rubin (2015) .