Bu bölmədə bir povest kimi oxumaq üçün daha çox, bir sened kimi istifadə üçün nəzərdə tutulmuşdur.
Bu fəsildə daxil deyil müşahidə bir cür etnoqrafiya edir. Digital boşluq diyarşünaslıq haqqında daha ətraflı məlumat üçün bax: Boellstorff et al. (2012) , və qarışıq rəqəmsal və fiziki fəzalarında diyarşünaslıq daha çox baxın Lane (2016) .
data repurposing zaman, siz qarşılaşa bilər mümkün problemləri anlamaq kömək edə bilər, iki ruhi tövsiyələr var. Birincisi, sizin problem ideal verilənlər bazasının təsəvvür etmək cəhd edə bilərsiniz və istifadə verilənlər bazasının ki, müqayisə. Necə oxşardır və onlar müxtəlif necəsən? Siz data özünüzü toplamaq olmasaydı, istədiyiniz və nə var nə arasında fərq ola bilər var. Lakin, bu fərqlər kiçik və ya böyük, əgər qərar qəbul etmək lazımdır.
İkincisi, kimsə yaradılmış və nədənsə data toplanmış unutmayın. Siz öz ağıl anlamaq üçün cəhd etməlidir. Əks-mühəndislik Bu cür sizin repurposed data mümkün problemləri və biases müəyyən kömək edə bilər.
Orada "böyük data" heç bir konsensus müəyyən, lakin bir çox anlayışlar 3 Vs diqqət görünür: (məsələn, həcmi, müxtəlif və sürət Japec et al. (2015) ). Əksinə məlumatların xüsusiyyətləri diqqəti daha çox, mənim müəyyən data yaradılmışdır niyə daha çox diqqət yetirir.
böyük data kateqoriya daxilində hökumətin inzibati məlumatların Mənim daxil bir az qeyri-adi deyil. Bu halda etmiş Others daxildir Legewie (2015) , Connelly et al. (2016) və Einav and Levin (2014) . Tədqiqat üçün dövlət inzibati məlumatların dəyəri haqqında daha ətraflı məlumat üçün, bax Card et al. (2010) , Taskforce (2012) , və Grusky, Smeeding, and Snipp (2015) .
Hökumət statistika sistemində, xüsusilə ABŞ siyahıyaalınması Bürosu daxilində inzibati araşdırma keçirmək üçün bax Jarmin and O'Hara (2016) . Statistika İsveç inzibati qeydlər tədqiqat kitab uzunluğu müalicə üçün bax Wallgren and Wallgren (2007) .
fəsil, mən qısaca belə Twitter kimi sosial media məlumat mənbəyi Baş İctimai Sorğu (GSS) kimi ənənəvi sorğu olub. Ənənəvi sorğular və sosial media data arasında hərtərəfli və ehtiyatlı Müqayisə üçün bax Schober et al. (2016) .
böyük data Bu 10 xüsusiyyətləri müxtəlif müəlliflərin bir sıra müxtəlif yollarla bir sıra təsvir edilmişdir. Bu məsələlərlə bağlı mənim düşüncə təsir Yazı daxildir: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) və Goldstone and Lupyan (2016) .
Bu fəsildə boyunca, mən nisbətən neytral hesab müddətli digital izləri istifadə etdik. Digital izləri üçün digər məşhur müddəti digital footprints var (Golder and Macy 2014) , lakin Hal Abelson, Ken Ledeen və Harry Lewis kimi (2008) qeyd, daha uyğun müddətli yəqin ki, digital barmaq edir. Siz ayaq izləri yaratmaq zaman, baş və ayaq izləri ümumiyyətlə şəxsən görmək bilməz nə bilirik. Eyni digital izləri doğru deyil. Əslində, siz izləri çox az bilik haqqında bütün vaxt, zaman tərk edir. bu izləri onlara adınızı yoxdur, baxmayaraq ki, onlar tez-tez geri bağlı ola bilər. Başqa sözlə, onlar daha barmaq kimi: görünməz və şəxsən müəyyən.
böyük
Böyük Kümeleri, problemli statistik testlər göstərmək niyə daha ətraflı məlumat üçün, bax Lin, Lucas, and Shmueli (2013) və McFarland and McFarland (2015) . Bu məsələlər praktik əhəmiyyəti daha çox statistik əhəmiyyət diqqət tədqiqatçılar gətirib çıxarmalıdır.
Həmişə
nəzərə zaman həmişə haqqında məlumatların, bu zamanla eyni adam müqayisə və ya olub insanların bir dəyişən qrup müqayisə olub nəzərdən vacibdir; misal üçün bax, Diaz et al. (2016) .
Qeyri-reaktiv
Qeyri-reaktiv tədbirlər haqqında klassik kitab Webb et al. (1966) . kitab pre-tarixi nümunələri digital yaş, lakin onlar hələ də nurani olunur. Çünki kütləvi nəzarət iştirakı onların davranışı dəyişən insanların nümunələri üçün bax Penney (2016) və Brayne (2014) .
natamam
Rekord əlaqələr haqqında daha ətraflı məlumat üçün, bax Dunn (1946) və Fellegi and Sunter (1969) (historical) və Larsen and Winkler (2014) (müasir). Oxşar belə məlumatlar deduplication, məsələn müəyyən adı uyğun kimi adlar altında kompüter hazırlanıb yaxınlaşdı, rekord aşkar aşkar dublikat və dublikat (Elmagarmid, Ipeirotis, and Verykios 2007) . Şəxsən müəyyən məlumat ötürülməsi tələb etmir əlaqə qeyd yanaşmalar qorunması gizlilik də var (Schnell 2013) . Facebook da səsvermə davranış onların uçotunun keçid davam inkişaf etmişdir; Mən 4-cü fəsildə haqqında sizə deyim bir sınaq qiymətləndirmək edildi (Bond et al. 2012; Jones et al. 2013) .
Tikinti qüvvədə daha çox üçün, bax Shadish, Cook, and Campbell (2001) , Fəsil 3.
əlçatmaz
AOL axtarış log debacle daha çox üçün, bax Ohm (2010) . Mən eksperimentlər təsvir zaman şirkətlər və 4-cü hökumətləri ilə əməkdaşlıq haqqında məsləhət təklif edirik. Müəlliflərin bir sıra əlçatmaz data əsaslanır tədqiqat bağlı narahatlıqlarını ifadə ediblər bax Huberman (2012) və boyd and Crawford (2012) .
universitet tədqiqatçılar data giriş əldə etmək üçün yaxşı bir yol interna və ya səfər tədqiqatçı kimi bir şirkət işə edir. data girişi təmin ilə yanaşı, bu proses də tədqiqatçı məlumatların təhlili üçün vacib olan yaradılmışdır necə haqqında daha ətraflı öyrənmək kömək edəcək.
Qeyri-təmsilçisi
Qeyri-representativliyi bütün əhali haqqında şərh etmək istəyən tədqiqatçılar və hökumətlər üçün əsas problemdir. Bu adətən onların istifadəçilər yönəlib şirkətlər üçün narahatlıq azdır. Statistics Niderland biznes böyük data qeyri-təmsilçiliyi məsələsi hesab necə haqqında daha ətraflı məlumat üçün, bax Buelens et al. (2014) .
Fəsil 3, mən daha ətraflı nümunə və qiymətləndirilməsi təsvir edəcəyik. data müəyyən şərtlər altında qeyri-nümayəndəsi olsa belə, onlar yaxşı təxminlər istehsal ağırlıqlı bilər.
Drifting
System drift xaricdən görmək çox çətindir. Lakin, (daha Fəsil 4 müzakirə) MovieLens layihəsi akademik tədqiqat qrupu tərəfindən 15 ildən artıqdır davam edilmişdir. Buna görə də, onlar sənədləşdirilmiş və sistem zamanla inkişaf yolu və necə haqqında məlumatları paylaşdı bu təsir edə bilər analizi (Harper and Konstan 2015) .
Alimlər bir sıra Twitter drift diqqət: Liu, Kliman-Silver, and Mislove (2014) və Tufekci (2014) .
Algorithmically şaşırmış
Mən ilk dövr bir söhbətində Jon Kleinberg istifadə "Algorithmically rüsvay" eşitdim. Performativity arxasında əsas ideyası bəzi sosial elm nəzəriyyələr "mühərrikləri deyil kameralar" ki (Mackenzie 2008) . Ki, onlar həqiqətən dünya formalaşdırmaq deyil, yalnız onu tutmaq.
çirkli
Hökumət statistik agentlikləri data təmizləmə, statistik məlumatlar redaktə çağırırıq. De Waal, Puts, and Daas (2014) sorğu üçün hazırlanmış statistik məlumatların redaktə texnika təsvir və hansı dərəcədə onlar böyük məlumat mənbələri tətbiq, və olduğu yoxlamaq Puts, Daas, and Waal (2015) daha ümumi auditoriya üçün eyni fikir bəzi təqdim edir.
Twitter spam diqqət işlər bəzi nümunələri üçün Clark et al. (2016) və Chu et al. (2012) . Nəhayət, Subrahmanian et al. (2016) DARPA Twitter Bot Challenge nəticələrini təsvir edir.
həssas
Ohm (2015) həssas informasiya ideyası əvvəllər tədqiqat nəzərdən keçirir və bir çox amil test edir. o təklif dörd amillər: zərər ehtimalı; zərər ehtimalı; məxfi əlaqələr olması; və risk olub majoritar narahatlıq əks etdirir.
Nyu-Yorkda taksi Farber öyrənilməsi ilə erkən öyrənilməsi əsasında Camerer et al. (1997) səfər start zaman qeyd sürücüləri tərəfindən istifadə olunan kağız səfər vərəqələri kağız formaları, son vaxtı və gediş üç müxtəlif rahatlığı nümunələri istifadə. Onların əmək haqqı daha yüksək olmuşdur günlərdə az işləyib: Bu əvvəllər iş sürücü hədəf İşçilər olmaq görünürdü ki, tapılmadı.
Kossinets and Watts (2009) sosial şəbəkələrdə homophily mənşəyi maraqlanıblar. Bax Wimmer and Lewis (2010) Facebook data istifadə edir eyni problem fərqli bir yanaşma.
Sonrakı iş, King və həmkarları daha Çin online senzura kəşf (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Çin online senzura ölçü müvafiq yanaşma üçün bax Bamman, O'Connor, and Smith (2012) . Istifadə kimi statistik metodları daha çox üçün King, Pan, and Roberts (2013) bax 11 milyon ismarıc hiss qiymətləndirmək Hopkins and King (2010) . Nəzarət öyrənmə daha ətraflı məlumat üçün, bax James et al. (2013) (az texniki) və Hastie, Tibshirani, and Friedman (2009) (daha çox texniki).
Proqnozlaşdırma sənaye data elm böyük bir hissəsi (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Adətən sosial tədqiqatçılar tərəfindən edilir proqnozlaşdırılması bir növü misal üçün, demoqrafik proqnoz var Raftery et al. (2012) .
Google Flu Trends qrip yayılması nowcast üçün axtarış məlumatdan istifadə etmək ilk layihə deyil. Əslində, ABŞ-da tədqiqatçılar (Polgreen et al. 2008; Ginsberg et al. 2009) və İsveç (Hulth, Rydevik, and Linde 2009) müəyyən axtarış sözü (məsələn, "qrip") milli ictimai səhiyyə nəzarət proqnozlaşdırılır ki, gördük əvvəl data azad edilib. Daha sonra bir çox digər layihələr görmək xəstəlik müşahidə aşkarlanması üçün digital iz məlumatdan istifadə etmək çalışmışıq Althouse et al. (2015) baxılması üçün.
səhiyyə nəticələri proqnozlaşdırmaq digital iz veri istifadə edərək əlavə, seçki nəticələrini proqnozlaşdırmaq Twitter veri istifadə edərək iş böyük məbləği var olmuşdur; təhlil üçün çox Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), və Huberty (2015) .
qrip yayılması proqnozlaşdırılması və seçkilər dünyada hadisə bir növ proqnozlaşdırmaq digital iz bir növ istifadə edərək hər iki misaldır proqnozlaşdırmaq üçün Twitter veri istifadə edərək axtarış veri istifadə edərək. Bu ümumi quruluşu var işlərin böyük sayı. Cədvəl 2.5 bir neçə digər nümunələri daxildir.
Digital iz | nəticə | sitat |
---|---|---|
cuqquldamaq | ABŞ-da film box office gəlir | Asur and Huberman (2010) |
Axtar logs | ABŞ-da film, musiqi, kitab, və video oyunlar Sales | Goel et al. (2010) |
cuqquldamaq | Dow Jones Industrial Average (ABŞ fond bazarında) | Bollen, Mao, and Zeng (2011) |
Jurnal PS Siyasi Elm böyük data, causal nəticəçıxarma və formal nəzəriyyəsi simpozium idi və Clark and Golder (2015) hər bir töhfə əks olunur. Amerika Birləşmiş Ştatlarının Milli Elmlər Akademiyasının jurnalında Proceedings səbəb müdaxilə və böyük data simpozium idi və Shiffrin (2016) hər bir töhfə əks olunur.
Təbii təcrübələr baxımından, Dunning (2012) əla kitab uzunluğu müalicə təmin edir. Təbii sınaq olaraq Vyetnam layihəsi lotereya istifadə haqqında daha ətraflı məlumat üçün, bax Berinsky and Chatfield (2015) . Daxili böyük data mənbələri təbii təcrübələr avtomatik tapmaq üçün cəhd maşın öyrənmə yanaşmaları üçün bax Jensen et al. (2008) və Sharma, Hofman, and Watts (2015) .
Eşleme baxımından, nikbin baxılması üçün bax Stuart (2010) , və bir pessimist baxılması üçün çox Sekhon (2009) . Budama bir növ kimi uyğun daha çox üçün, bax Ho et al. (2007) . Eşleme əla müalicə təmin kitablar üçün, bax Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , və Imbens and Rubin (2015) .