Bu bölümde yer almayan bir tür gözlem, etnografidir. Dijital mekanlarda etnografi hakkında daha fazla bilgi için bkz. Boellstorff et al. (2012) ve karma dijital ve fiziksel alanlarda etnografi hakkında daha fazla bilgi için Lane (2016) bakınız.
“Büyük verinin” tek bir fikir birliği tanımı yoktur, fakat birçok tanım “3 V” e odaklanmıştır: hacim, çeşitlilik ve hız (örn Japec et al. (2015) ). Bakınız De Mauro et al. (2015) tanımların gözden geçirilmesi için.
Legewie (2015) , Connelly et al. (2016) de dahil olmak üzere, diğerleri de bu davayı yapmış olsalar da, hükümet verilerinin büyük veri kategorisine dahil edilmesi biraz Legewie (2015) Connelly et al. (2016) ve Einav and Levin (2014) . Araştırma için devlet idari verilerinin değeri hakkında daha fazla bilgi için bkz. Card et al. (2010) , Adminstrative Data Taskforce (2012) ve Grusky, Smeeding, and Snipp (2015) .
Hükümet istatistik sisteminden, özellikle ABD Sayım Bürosu'ndan idari araştırmalar için bkz. Jarmin and O'Hara (2016) . İstatistiksel İsveç'teki istatistik kayıtları araştırması için, Wallgren and Wallgren (2007) .
Bu bölümde, Genel Sosyal Anket (GSS) gibi geleneksel bir anketi Twitter gibi bir sosyal medya veri kaynağıyla karşılaştırdım. Geleneksel anketler ve sosyal medya verileri arasında tam ve dikkatli bir karşılaştırma için bkz. Schober et al. (2016) .
Büyük verilerin bu 10 özelliği, çeşitli farklı yazarlar tarafından çeşitli şekillerde tanımlanmıştır. Bu konulardaki düşüncelerimi etkileyen yazı, Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , Goldstone and Lupyan (2016) .
Bu bölümde, göreceli olarak nötr olduğunu düşündüğüm dijital izleri kullandım. Dijital izler için bir diğer popüler terim ise dijital ayak izleridir (Golder and Macy 2014) , ancak Hal Abelson, Ken Ledeen ve Harry Lewis'in (2008) işaret ettiği gibi, daha uygun bir terim muhtemelen dijital parmak izleridir . Ayak izleri oluşturduğunuzda, neler olup bittiğinin farkındasınız ve ayak izleriniz genellikle kişisel olarak size izlenemez. Aynı şey dijital izleriniz için de geçerli değildir. Aslında, çok az bilgiye sahip olduğunuz izler bırakıyorsunuz. Ve bu izlerin üzerinde adınız olmasa da, genellikle size geri bağlanabilirler. Başka bir deyişle, parmak izlerine daha çok benziyorlar: görünmez ve kişisel olarak tanımlanıyorlar.
Büyük veri setlerinin istatistiksel testleri sorunlu hale M. Lin, Lucas, and Shmueli (2013) konusunda daha fazla bilgi için, bkz. M. Lin, Lucas, and Shmueli (2013) ve McFarland and McFarland (2015) . Bu konular araştırmacıların istatistiksel anlamlılıktan ziyade pratik anlamlılığa odaklanmalarını sağlamalıdır.
Raj Chetty ve meslektaşlarının vergi kayıtlarına nasıl eriştikleri hakkında daha fazla bilgi için bkz. Mervis (2014) .
Büyük veri setleri, genellikle tek bir bilgisayarın yeteneklerinin ötesindeki hesaplama problemleri de oluşturabilir. Bu nedenle, büyük veri kümeleri üzerinde hesaplamalar yapan araştırmacılar, çoğu zaman, bazen paralel programlama olarak adlandırılan bir süreç olan, birçok bilgisayar üzerindeki çalışmayı yaydılar . Paralel programlamaya giriş için, özellikle Hadoop olarak adlandırılan bir dil için, bkz. Vo and Silvia (2016) .
Her zaman açık olan verileri göz önünde bulundurarak, aynı kişiyi zamanla karşılaştırıp karşılaştırmadığınızı ya da bazı insan gruplarını karşılaştırıp karşılaştırmadığınızı düşünmek önemlidir; örneğin bkz Diaz et al. (2016) .
Reaktif olmayan önlemler üzerine klasik bir kitap Webb et al. (1966) . Bu kitaptaki örnekler dijital çağdan önce geliyor, ancak hala aydınlanıyorlar. Kitle gözetimi nedeniyle davranışlarını değiştiren insan örnekleri için bkz. Penney (2016) ve Brayne (2014) .
Reaktivite, araştırmacıların talep etkileri (Orne 1962; Zizzo 2010) ve Hawthorne etkisi (Adair 1984; Levitt and List 2011) dediği şeyle yakından ilgilidir.
Daha fazla kayıt bağlantısı için bkz. Dunn (1946) ve Fellegi and Sunter (1969) (tarihsel) ve Larsen and Winkler (2014) (modern). Bilgisayar biliminde veri tekilleştirme, örnek tanımlama, isim eşleme, çift tespit ve çift kayıt tespiti (Elmagarmid, Ipeirotis, and Verykios 2007) gibi isimler altında da benzer yaklaşımlar geliştirilmiştir. Kişisel tanımlayıcı bilgilerin iletilmesini gerektirmeyen bağlantıyı kaydetmek için gizlilik koruma yaklaşımları da vardır (Schnell 2013) . Facebook ayrıca kendi kayıtlarını oy verme davranışına bağlamak için bir süreç geliştirdi; Bu, 4. bölümde size anlatacağım bir deneyi değerlendirmek için yapıldı (Bond et al. 2012; Jones et al. 2013) .
Yapı geçerliliği hakkında daha fazla bilgi için, Shadish, Cook, and Campbell (2001) bölüm 3'e bakınız.
AOL arama günlüğü debacle hakkında daha fazla bilgi için, bkz Ohm (2010) . Deneyleri tanımlarken 4. Bölümde şirketler ve hükümetlerle ortaklık kurma konusunda tavsiyelerde bulunuyorum. Pek çok yazar, erişilemeyen verilere dayanan araştırma konusundaki endişelerini dile getirdi, bkz Huberman (2012) ve boyd and Crawford (2012) .
Üniversite araştırmacıları veri erişimi elde etmek için iyi bir yolu stajyer ya da misafir araştırmacı olarak bir şirkette çalışmaktır. veri erişim sağlayarak ek olarak, bu süreç aynı zamanda araştırmacı veri analizi için önemli olan, nasıl yaratıldığını hakkında daha fazla bilgi edinmenize yardımcı olacaktır.
Hükümet verilerine ulaşma açısından, Mervis (2014) , Raj Chetty ve meslektaşlarının sosyal hareketlilik üzerine yaptıkları araştırmalarda kullanılan vergi kayıtlarına nasıl eriştiklerini tartışıyor.
Bir kavram olarak “temsil edilebilirlik” tarihi hakkında daha fazla bilgi için bkz. Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) ve Kruskal and Mosteller (1980) .
Kar'ın çalışmaları ve Doll ve Hill'in çalışmalarımın özetleri kısaydı. Karın kolera üzerindeki çalışmaları hakkında daha fazla bilgi için Freedman (1991) bakınız. İngiliz Doktorlar Çalışması hakkında daha fazla bilgi için bkz. Doll et al. (2004) ve Keating (2014) .
Birçok araştırmacı, Doll ve Hill'in kadın doktorlardan ve 35 yaşın altındaki doktorlardan veri toplamasına rağmen, bu verileri ilk analizlerinde kasıtlı olarak kullanmadıklarını öğrenmeye şaşıracaklar. Tartıştıkları gibi: “Akciğer kanseri, 35 yaşın altındaki kadınlarda ve erkeklerde nispeten nadir olduğu için, bu gruplarda gelecek yıllar için yararlı rakamlar elde edilmesi olası değildir. Bu ön raporda, dikkatimizi 35 yaş ve üstü erkeklere verdik ”. Kışkırtıcı başlığı olan“ Neden temsil edilebilirlikten kaçınılmalı ”olan Rothman, Gallacher, and Hatch (2013) , değeri için daha genel bir argüman yapar. Kasten olmayan temsilci veri oluşturmak.
Kaybetmezlik, bir nüfusun tamamı hakkında açıklama yapmak isteyen araştırmacılar ve hükümetler için önemli bir sorundur. Bu, tipik olarak kullanıcılarına odaklanan şirketler için daha az endişe kaynağıdır. İstatistiki Hollanda'nın iş büyük verilerindeki temsilsizliğin konusunu nasıl ele aldığı konusunda daha fazla bilgi için bkz. Buelens et al. (2014) .
Büyük veri kaynaklarının temsili olmayan doğasıyla ilgili kaygılarını dile getiren araştırmacıların örnekleri için, bkz. boyd and Crawford (2012) , K. Lewis (2015b) ve Hargittai (2015) .
Sosyal araştırmaların ve epidemiyolojik araştırmaların amaçlarının daha ayrıntılı bir karşılaştırması için bkz. Keiding and Louis (2016) .
Özellikle 2009 Alman seçimlerinden olan seçmenler hakkında örnek niteliğinde genellemeler yapmak için Twitter'ı kullanma girişimleri için bkz. Jungherr (2013) ve Jungherr (2015) . Tumasjan et al. (2010) dünyanın dört bir yanındaki araştırmacılar Twitter verilerinin farklı türde seçimleri öngörme yeteneğini geliştirmek için tarafların olumlu ve olumsuz sözlerini birbirinden ayırmak için duyarlılık analizi kullanma gibi meraklı yöntemler kullanmışlardır (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Huberty (2015) seçimleri öngörme girişimlerinin sonuçlarını şöyle özetliyoruz:
“Sosyal medyaya dayanan tüm bilinen tahmin yöntemleri, gerçek ileriye dönük seçim tahminlerinin taleplerine tabi olduklarında başarısız oldu. Bu başarısızlıklar, metodolojik veya algoritmik zorluklardan ziyade sosyal medyanın temel özelliklerinden kaynaklanıyor gibi görünmektedir. Kısacası, sosyal medya seçmenlerin istikrarlı, tarafsız, temsili bir resmini sunmaz; Sosyal medyaya ait kullanışlı örnekler, bu problemleri düzeltmek için yeterli veriye sahip değildir. ”
Bölüm 3'te, örneklemeyi ve tahminini çok daha ayrıntılı olarak anlatacağım. Veriler temsili olmadığı halde, belirli koşullar altında, iyi tahminler üretmek için ağırlıklandırılabilirler.
Sistemin kaymasını dışarıdan görmek çok zor. Ancak, MovieLens projesi (bölüm 4'te daha ayrıntılı olarak tartışılmıştır) bir akademik araştırma grubu tarafından 15 yıldan fazla süredir yürütülmektedir. Böylelikle, sistemin zaman içinde nasıl geliştiği ve bunun analize nasıl etki edebileceği ile ilgili bilgileri belgeleyebilmiş ve paylaşmışlardır (Harper and Konstan 2015) .
Twitter'da sürüklenen bir takım akademisyenler: Liu, Kliman-Silver, and Mislove (2014) ve Tufekci (2014) .
Nüfusun sürüklenmesiyle ilgili bir yaklaşım, araştırmacıların aynı kişileri zaman içinde incelemelerine olanak tanıyan bir kullanıcı paneli oluşturmaktır, bkz. Diaz et al. (2016) .
İlk önce Jon Kleinberg'in kullandığı “algoritmik olarak karışık” terimini duydum, ama maalesef konuşmanın ne zaman ve nerede verildiğini hatırlamıyorum. Yazılışı ilk gördüğüm zaman Anderson et al. (2015) , arkadaşlık siteleri tarafından kullanılan algoritmaların, araştırmacıların bu web sitelerinden veri kullanma becerilerini sosyal tercihleri incelemek için nasıl karmaşıklaştırabileceğinin ilginç bir tartışmasıdır. Bu endişe Anderson et al. (2014) K. Lewis (2015a) yanıtı ile K. Lewis (2015a) tarafından yükseltilmiştir Anderson et al. (2014) .
Facebook'a ek olarak, Twitter ayrıca kullanıcılara triadik kapanma fikrine dayanarak takip etmelerini önerir; Su, Sharma, and Goel (2016) . Dolayısıyla, Twitter'daki üçlü kapanma seviyesi, tirnik kapamaya karşı bazı insan eğilimlerinin ve triadik kapanmayı ilerletmek için bazı algoritmik eğilimlerin bir kombinasyonudur.
Özellikle, bazı sosyal bilim teorilerinin “motorlar kamera değil” olduğu fikrini (örneğin, onu tanımlamaktan çok, dünyayı şekillendirirler), performativite hakkında daha fazla bilgi için Mackenzie (2008) .
Devlet istatistik kurumları, istatistiksel veri düzenleme işlemlerini temizler. De Waal, Puts, and Daas (2014) , anket verileri için geliştirilen istatistiksel veri düzenleme tekniklerini tanımlamakta ve büyük veri kaynaklarına ne ölçüde uygulanabilir olduklarını incelemekte ve Puts, Daas, and Waal (2015) , daha genel bir kitle.
Sosyal botlara genel bir bakış için bkz. Ferrara et al. (2016) . Twitter'da spam bulmaya odaklanan bazı çalışma örnekleri için bkz. Clark et al. (2016) ve Chu et al. (2012) . Son olarak, Subrahmanian et al. (2016) , Twitter'da botları tespit etme yaklaşımlarını karşılaştırmak için tasarlanan kitlesel bir işbirliği olan DARPA Twitter Bot Challenge'in sonuçlarını açıklıyor.
Ohm (2015) , hassas bilgi fikri üzerine daha önceki araştırmaları Ohm (2015) ve çok faktörlü bir test sunar. Önerdiği dört faktör, zararın büyüklüğü, zarar verme olasılığı, gizli bir ilişkinin varlığı ve riskin majör kaygıları yansıtıp yansıtmadığıdır.
Farber'in New York'taki taksiler üzerindeki çalışması, Camerer et al. (1997) üç farklı kullanışlı kağıttan yapılmış kağıt yaprağı örneği kullanmıştır. Daha önce yapılan bu çalışmada, sürücülerin hedeflenen kişiler olduğu görülmüştür: ücretlerinin daha yüksek olduğu günlerde daha az çalışmışlardır.
Sonraki çalışmalarda, King ve meslektaşları Çin'deki çevrimiçi sansürü daha da araştırdı (King, Pan, and Roberts 2014, [@king_how_2016] ) . Çin'de çevrimiçi sansürü Bamman, O'Connor, and Smith (2012) ilgili bir yaklaşım için bkz. Bamman, O'Connor, and Smith (2012) . King, Pan, and Roberts (2013) da kullanılan 11 milyon mesajın etkisini tahmin etmek için kullanılan istatistiksel yöntemler hakkında daha fazla bilgi için bkz. Hopkins and King (2010) . Denetimli öğrenmeyle ilgili daha fazla bilgi için bkz. James et al. (2013) (daha az teknik) ve Hastie, Tibshirani, and Friedman (2009) (daha teknik).
Tahmin, endüstriyel veri biliminin büyük bir parçasıdır (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Sosyal araştırmacılar tarafından yaygın olarak yapılan bir tahmin türü, demografik tahmintir; örneğin, bkz Raftery et al. (2012) .
Google Grip Trendleri, influenza prevalansı yayınlamak için arama verilerini kullanan ilk proje değildi. Aslında, Amerika Birleşik Devletleri'ndeki araştırmacılar (Polgreen et al. 2008; Ginsberg et al. 2009) ve İsveç (Hulth, Rydevik, and Linde 2009) bazı arama terimlerinin (örneğin “grip”) ulusal halk sağlığı sürveyansını öngördüğünü bulmuşlardır. veriler yayınlanmadan önce. Daha sonra, birçok başka proje, hastalık izleme tespiti için dijital izleme verilerini kullanmaya çalıştı; bkz. Althouse et al. (2015) bir inceleme için.
Sağlık çıktılarını tahmin etmek için dijital izleme verilerinin kullanılmasına ek olarak, seçim sonuçlarını tahmin etmek için Twitter verilerini kullanarak çok fazla çalışma yapılmıştır. Yorumlar için Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (bölüm 7) ve Huberty (2015) . Gayri safi yurtiçi hasıla (GSYİH) gibi ekonomik göstergelerin kaydedilmesi de merkez bankalarında yaygındır, bkz. Bańbura et al. (2013) . Tablo 2.8, dünyadaki bazı olayları tahmin etmek için bir çeşit dijital iz kullanan çalışmaların birkaç örneğini içermektedir.
Dijital izleme | Sonuç | alıntı |
---|---|---|
heyecan | ABD'deki filmlerin gişe gelirleri | Asur and Huberman (2010) |
Arama günlükleri | ABD'de film, müzik, kitap ve video oyunları satışı | Goel et al. (2010) |
heyecan | Dow Jones Endüstriyel Ortalama (ABD borsa) | Bollen, Mao, and Zeng (2011) |
Sosyal medya ve arama günlükleri | Amerika Birleşik Devletleri, İngiltere, Kanada ve Çin'de yatırımcı duyarlılığı ve hisse senedi piyasaları anketleri | Mao et al. (2015) |
Arama günlükleri | Singapur ve Bangkok'ta Dang Ateşi Sıklığı | Althouse, Ng, and Cummings (2011) |
Son olarak, Jon Kleinberg ve meslektaşları (2015) tahmin problemlerinin ikiye, farklı kategorilere ayrıldığını ve sosyal bilimcilerin bir diğerine odaklanma ve diğerini görmezden gelme eğiliminde olduklarına işaret etmişlerdir. Bir politika yapıcı düşünün, bir kuraklık ile karşı karşıya olan Anna'yı arayacağım ve yağmur yağma şansını arttırmak için bir yağmur dansı yapmak için bir şaman işe alıp almayacağına karar vermeliyim. Başka bir politika yapıcı, onun Betty adını vereceğim, eve giderken ıslanmamak için çalışmak için bir şemsiye alıp almayacağına karar vermeliyim. Hem Anna hem de Betty hava durumunu anlarlarsa daha iyi bir karar verebilirler, ancak farklı şeyleri bilmeleri gerekir. Anna'nın yağmur dansının yağmur yağmasına sebep olup olmadığını anlaması gerekiyor. Betty ise, nedensellik hakkında bir şey anlama ihtiyacı duymuyor; Sadece doğru bir tahmine ihtiyacı var. Sosyal araştırmacılar genellikle, Kleinberg ve meslektaşlarının “yağmur dansı-benzeri” politika problemleri dedikleri Anna'nın karşılaştığı problemlere odaklanırlar çünkü nedensellik ile ilgili soruları içerirler. Kleinberg ve meslektaşlarının “şemsiye benzeri” politika sorunları dedikleri Betty'nin karşılaştığı sorular da çok önemli olabilir, ancak sosyal araştırmacılardan çok daha az ilgi görmüştür.
PS Siyaset Bilimi dergisi büyük veri, nedensel çıkarım ve biçimsel teori üzerine bir sempozyuma sahipti ve Clark and Golder (2015) her katkısını özetliyor. Amerika Birleşik Devletleri Ulusal Bilimler Akademisi'nin dergi bildirileri, nedensel çıkarım ve büyük veri üzerine bir sempozyuma sahipti ve Shiffrin (2016) her bir katkıyı özetliyor. Büyük veri kaynaklarının içindeki doğal deneyleri otomatik olarak keşfetmeye çalışan makine öğrenimi yaklaşımları için bkz. Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , Sharma, Hofman, and Watts (2016) .
Doğal deneyler açısından, Dunning (2012) birçok örnekle Dunning (2012) , kitap boyu bir tedavi sunmaktadır. Doğal deneylerin kuşkulu bir görünümü için bkz. Rosenzweig and Wolpin (2000) (ekonomi) veya Sekhon and Titiunik (2012) (siyaset bilimi). Deaton (2010) ve Heckman and Urzúa (2010) , doğal deneylere odaklanmanın, araştırmacıları önemsiz nedensel etkilerin tahminine odaklanmasına yol açabileceğini; Imbens (2010) bu argümanları doğal deneylerin değerine daha iyimser bir bakış açısı ile Imbens (2010) .
Bir araştırmacının, hizmet sunumunun etkisine bırakılmasının etkisini tahmin etmekten nasıl çıkabileceğini açıklarken, araçsal değişkenler olarak adlandırılan bir tekniği anlatıyordum. Imbens and Rubin (2015) , 23 ve 24 Imbens and Rubin (2015) bölümlerinde bir giriş niteliğindedir ve örnek olarak taslak piyangoyu kullanmaktadırlar. Askerlik hizmetinin uyum sağlayıcılar üzerindeki etkisi bazen, derleyici ortalama nedensel etki (CAcE) ve bazen yerel ortalama tedavi etkisi (LATE) olarak adlandırılmaktadır. Sovey and Green (2011) , Angrist and Krueger (2001) ve Bollen (2012) , politik bilim, ekonomi ve sosyolojide araçsal değişkenlerin kullanımını gözden Sovey and Green (2011) “okurun kontrol listesi” ni sağlar. araçsal değişkenler kullanarak çalışmaların değerlendirilmesi.
1970 taslak piyangosunun aslında tam olarak randomize edilmediği; Saf rastlantısallıktan küçük sapmalar vardı (Fienberg 1971) . Berinsky and Chatfield (2015) bu küçük sapmanın önemli ölçüde önemli olmadığını ve düzgün bir şekilde yürütülen randomizasyonun önemini tartıştığını ileri sürmektedir.
Eşleştirme açısından, iyimser bir inceleme için Stuart (2010) ve kötümser bir inceleme için Sekhon (2009) a bakınız. Bir tür budama olarak daha fazla eşleştirme için bkz. Ho et al. (2007) . Her insan için tek bir mükemmel eşleşme bulmak çoğu zaman zordur ve bu bir dizi karmaşıklığı ortaya çıkarır. İlk olarak, kesin eşleşmeler mevcut olmadığında, araştırmacılar iki birim arasındaki mesafenin nasıl ölçüleceğine ve belirli bir mesafenin yeterince yakın olup olmadığına karar vermelidir. Araştırmacıların tedavi grubunda her vaka için birden fazla eşleşme kullanmak istemeleri halinde ikinci bir karmaşıklık ortaya çıkar, çünkü bu daha kesin tahminlere yol açabilir. Bu sorunların her ikisi de, diğerleri gibi, Imbens and Rubin (2015) 18) bölüm 18'de ayrıntılı olarak açıklanmıştır. Ayrıca ( ??? ) Bölüm II'ye bakınız.
Eşleştirme yöntemlerinin, randomize kontrollü bir deneye benzer tahminler üretebildiği bir örnek için bkz. Dehejia and Wahba (1999) . Ancak, eşleştirme yöntemlerinin deneysel bir kıyaslama Arceneaux, Gerber, and Green (2010) örnekler için Arceneaux, Gerber, and Green (2006) ve Arceneaux, Gerber, and Green (2010) .
Rosenbaum (2015) ve Hernán and Robins (2016) , büyük veri kaynakları içinde yararlı karşılaştırmalar keşfetmek için başka tavsiyelerde bulunmaktadır.