yanada sharh

Ushbu bo'limda hikoyasiga sifatida o'qish uchun emas, balki, bir yo'naltiruvchi sifatida foydalanish uchun mo'ljallangan.

  • Kirish (2.1-qism)

bu bobda, shu jumladan emas rioya biri turdagi etnografiya hisoblanadi. Raqamli sohalarda etnografiyasi haqida ko'proq uchun qarang Boellstorff et al. (2012) , va aralash raqamli va jismoniy sohalarda etnografiyasi haqida qo'shimcha ko'rish Lane (2016) .

  • Big ma'lumotlar (2.2-qism)

Agar ma'lumotlar repurposing bo'lsa, siz karşılaşabileceğiniz mumkin muammolarni tushunishga yordam berishi mumkin, ikki ruhiy fokuslar bor. Birinchidan, siz muammoni uchun ideal majmuini tasavvur harakat qilib ko'rishingiz mumkin va siz foydalanayotgan ma'lumotlar uchun solishtirish. Qanday qilib ular o'xshash va ular turli qanday bo'ladi? Agar ma'lumotlar o'zingizni to'plash emas edi, siz istagan va nima bor, nima o'rtasidagi farq bo'lishi mumkin ham bor. Lekin, bu farqlar kichik yoki katta bo'lsa, qaror qabul qilish kerak.

Ikkinchidan, kimdir yaratgan va negadir ma'lumotlarni to'plagan, deb eslayman. Siz o'z mulohazasini tushunishga harakat qilishi kerak. teskari-muhandislik Bunday siz dastlabki holatga ma'lumotlar mumkin muammolar va xatolar aniqlash yordam berishi mumkin.

Bor "katta ma'lumotlar" hech bir kelishuv definition, lekin ko'p ta'riflar 3 va boshqalar haqida o'ylash uchun ko'rinadi: (masalan, hajmi, estrada va tezligi Japec et al. (2015) ). Balki ma'lumotlar xususiyatlariga e'tibor ko'ra, mening ta'rifi ma'lumotlar yaratilgan nima haqida ko'proq qaratilgan.

katta ma'lumotlar toifasiga ichida hukumat ma'muriy ma'lumotlar Mening kiritish bir oz noan'anaviy hisoblanadi. Bu ishni qildik Boshqalar o'z ichiga Legewie (2015) , Connelly et al. (2016) , va Einav and Levin (2014) . Tadqiqot uchun hukumat ma'muriy ma'lumotlar qiymati haqida qo'shimcha ma'lumot olish uchun, qarang Card et al. (2010) , Taskforce (2012) , va Grusky, Smeeding, and Snipp (2015) .

Hukumat statistik tizimi, ayniqsa AQSh Aholishunoslik byurosi ichidan ma'muriy-tadqiqot uchun, qarang Jarmin and O'Hara (2016) . Statistika Shvetsiya ma'muriy yozuvlar tadqiqot kitob uzunligi davolash uchun, qarang Wallgren and Wallgren (2007) .

bobda, men qisqacha bunday Twitter kabi ijtimoiy media ma'lumotlar manbaiga General Ijtimoiy Tadqiqotning (GSS) kabi an'anaviy so'rovnoma nisbatan. An'anaviy anketalar va ijtimoiy media ma'lumotlar o'rtasida puxta va ehtiyotkorlik bilan taqqoslash uchun, qarang Schober et al. (2016) .

  • Katta ma'lumotlar Common xususiyatlari (2.3-qism)

katta ma'lumotlar, bu 10 xususiyatlari turli mualliflar tomonidan turli xil yo'llar bilan turli tasvirlab berilgan. Bu masalalar bo'yicha mening fikrlash ta'sir Yozish o'z ichiga oladi: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , va Goldstone and Lupyan (2016) .

Ushbu bobda davomida, men nisbatan neytral deb o'ylayman muddatli raqamli izlari, ishlatiladigan ayting. Raqamli izlari uchun yana bir mashhur muddatli raqamli iz bo'lib (Golder and Macy 2014) , lekin Hal Abelson, Ken Ledeen va Garri Lyuis kabi (2008) ishora, yanada tegishli muddatli ehtimol raqamli barmoq izlari bo'ladi. Agar izlaridan yaratgandan so'ng, yuz va oyoq izlari odatda shaxsan sizga kuzatilishi mumkin emas, nima xabardor. Shu raqamli izlari uchun to'g'ri emas. Aslida, siz iz siz juda oz bilimga ega bo'lgan haqida har doim tark qilinadi. Bu izlari ularga Ismingizni yo'q bo'lsa-da, ular tez-tez sizga qaytarib bog'liq bo'lishi mumkin. Boshqa so'zlar bilan aytganda, ular ko'proq Barmoq izlari kabi: ko'rinmas va shaxsan aniqlash.

katta

Katta ma'lumotlar yig'indisi, muammoli statistik test ko'rsatishi nima haqida qo'shimcha ma'lumot olish uchun, qarang Lin, Lucas, and Shmueli (2013) va McFarland and McFarland (2015) . Bu masalalar amaliy ahamiyatga o'rniga statistik ahamiyatga haqida o'ylash uchun tadqiqotchilar olib kelishi kerak.

Har doim

yuritganda har doim-to'g'risidagi ma'lumotlarni, Agar vaqt davomida bir xil odamlarni solishtirish yoki yo'qmi siz odamlar ba'zi o'zgaruvchan guruhi bilan taqqoslab yo'qligini hisobga olish muhim; Misol uchun qarang Diaz et al. (2016) .

Non-reaktiv

Non-reaktiv chora-tadbirlari to'g'risida A klassik kitob Webb et al. (1966) . kitob oldindan sana yilda misollar raqamli yoshi, lekin ular hali ham nurli etiladi. Chunki ommaviy kuzatuv borligi, ularning xatti o'zgaruvchan odamlar misollar uchun qarang: Penney (2016) va Brayne (2014) .

to'liqsiz

Rekord aloqa haqida qo'shimcha ma'lumot olish uchun, qarang Dunn (1946) va Fellegi and Sunter (1969) (tarixiy) va Larsen and Winkler (2014) (zamonaviy). Shunga o'xshash kabi ma'lumotlar tekilleştirme, masalan, aniqlash, nomi bilan taalukli ham nomlari ostida kompyuter ilm-fan ishlab chiqildi yaqinlashib, rekord aniqlash aniqlash nusxa va ko'chirma (Elmagarmid, Ipeirotis, and Verykios 2007) . Shaxsan ma'lumot aniqlash uzatish talab qilmaydigan oqimlarga yozib olish yondashuvlarni asrab-avaylash maxfiylik ham bor (Schnell 2013) . Facebook, shuningdek, bir saylov xatti o'z yozuvlarni bog'langan uchun davom rivojlangan; Bu men bob 4 haqida gapirib beraman tajriba baholash uchun amalga oshirildi (Bond et al. 2012; Jones et al. 2013) .

Tuzilishi, amal haqida qo'shimcha ma'lumot olish uchun, qarang Shadish, Cook, and Campbell (2001) , 3-bob.

imkondan tashqari

AOL qidiruv log fiyaskonun haqida qo'shimcha ma'lumot olish uchun, qarang Ohm (2010) . Men tajribalar bayon qachon men kompaniya va 4-dars, hukumatlar bilan hamkorlik haqida maslahat taklif etamiz. Mualliflar bir qator borish qiyin bo'lgan ma'lumotlarni tayanadi tadqiqotlar xavotir bildirdi, qarang Huberman (2012) va boyd and Crawford (2012) .

universitet tadqiqotchilari ma'lumotlar kirish sotib olish uchun bir yaxshi yo'li ordinator yoki ziyorat tadqiqotchi sifatida kompaniyada ishlashni hisoblanadi. ma'lumotlar kirish imkon tashqari, bu jarayon ham tadqiqotchisi ma'lumotlarni tahlil qilish uchun muhim bo'lgan, yaratilgan haqida ko'proq bilib yordam beradi.

Non-vakili

Non-vakili butun aholining taxminan bayonotlar qilish tilayman tadqiqotchilar va hukumat uchun katta muammo hisoblanadi. Bu, odatda, ularning foydalanuvchilar bilan band kompaniyalar uchun tashvish kam. Statistika Niderlandiya biznes-katta ma'lumotlar bo'lmagan vakillik masalasini ko'rib chiqadi qanday qo'shimcha ma'lumot olish uchun, qarang Buelens et al. (2014) .

Bob 3, men juda katta batafsil masal va kiritish tasvirlab olaman. ma'lumotlar ma'lum shartlar ostida bo'lmagan vakili, bo'lsa ham, ular yaxshi smetasini ishlab chiqarish talabalari mumkin.

siljish

System Drift tashqaridan ko'rish uchun juda qiyin. Shu bilan birga, (yana 4-bobda) MovieLens loyiha akademik tadqiqot guruhi tomonidan 15 dan ortiq yil davomida bajarilgan. Shuning uchun, ular hujjatlashtirilgan va tizim vaqt ichida rivojlangan yo'l va qanday haqida ma'lumot o'rtoqlashdi bu ta'sir mumkin tahlil (Harper and Konstan 2015) .

Olimlar bir qator Twitter shavq alohida e'tibor qaratmoqda: Liu, Kliman-Silver, and Mislove (2014) va Tufekci (2014) .

algoritmlar ashaddiy

Men birinchi muddatli bir nutq Jon Kleinberg tomonidan ishlatiladigan "algoritmlar lol" eshitdim. Performativity orqasida asosiy g'oyasi ba'zi ijtimoiy fanlar »dvigatellari emas kameralar" deb hisoblanadi (Mackenzie 2008) . Ya'ni, ular aslida dunyoni shakllantirish emas, balki faqat uni qo'lga.

iflos

Hukumat statistik idoralar ma'lumotlar tozalash, statistik ma'lumotlar bilan tartibga solish qo'ng'iroq. De Waal, Puts, and Daas (2014) tadqiqot ma'lumotlar uchun ishlab chiqilgan statistik ma'lumotlar tahrir texnikasi tasvirlab va qaysi darajada, ular katta ma'lumot manbalariga qo'llaniladigan, va uchun ko'rib Puts, Daas, and Waal (2015) undan umumiy tomoshabin uchun bir xil g'oyalar ba'zi taqdim etadi.

Twitter, ham spam qaratilgan tadqiqotlar ayrim misollarni uchun Clark et al. (2016) va Chu et al. (2012) . Nihoyat, Subrahmanian et al. (2016) DARPA Twitter Bot Challenge natijalarini tasvirlaydi.

nozik

Ohm (2015) nozik ma'lumotlarni g'oyasi bo'yicha ilgari tadqiqotlar sharh va ko'p omil sinovlaridan taklif etadi. U taklif to'rt omillar: zarar ehtimoli; zarar ehtimoli; bir maxfiy munosabatlar mavjudligi; va xavf yo'qligini ko'pchilik xavotir aks ettiradi.

  • Narsalarni sanab (qism 2.4.1)

Nyu-Yorkda taksidan Farber ning o'rganish bilan oldingi o'rganish asoslangan Camerer et al. (1997) safari start vaqt saqlash uchun, haydovchilar tomonidan ishlatiladigan qog'oz safari barg-qog'oz shakllari, end vaqt va ovqatlarning uch turli qulaylik namunalar ishlatilgan, deb. ular ish haqi yuqori edi kunlarda kam ishlagan: Bu oldingi o'rganish haydovchilar maqsadli çalışanlarken tuyulardi, deb topildi.

Kossinets and Watts (2009) ijtimoiy tarmoqlarda homophily kelib qaratildi. Qarang Wimmer and Lewis (2010) Facebook ma'lumotlarni foydalanadi Shu muammoga boshqacha yondashuv uchun.

Keyingi ishlarida, King va hamkasblari yanada Xitoyda onlayn tsenzura razvedka qilgan (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Xitoyda onlayn tsenzura o'lchash uchun tegishli yondashuv uchun, qarang Bamman, O'Connor, and Smith (2012) . Ishlatiladigan bir shunga o'xshash statistik usullar haqida qo'shimcha ma'lumot olish uchun King, Pan, and Roberts (2013) qarang 11 million lavozimidan tuyg'usiga taxmin qilish Hopkins and King (2010) . Nazorat ostidagi ta'lim haqida qo'shimcha uchun, qarang James et al. (2013) (kam texnik) va Hastie, Tibshirani, and Friedman (2009) (yana texnik).

  • Prognoz (Bo'lim 2.4.2)

Prognozlash sanoat ma'lumotlar fan katta qismi hisoblanadi (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Tez-tez ijtimoiy tadqiqotchilar tomonidan amalga oshiriladi prognozlash biri turi misol uchun, demografik prognozlash bo'lgan Raftery et al. (2012) .

Google Gripp Trends gripp Tarqalishi nowcast uchun qidiruv ma'lumotlarni foydalanish birinchi loyiha emas edi. Aslida, Amerika Qo'shma Shtatlarida tadqiqotchilar (Polgreen et al. 2008; Ginsberg et al. 2009) va Shvetsiyada (Hulth, Rydevik, and Linde 2009) muayyan qidirish so'zlari (masalan, "gripp") milliy davlat sog'liqni saqlash nazorat bashorat deb topdik undan oldin ma'lumotlar chop etildi. Keyinchalik ko'p, juda ko'p boshqa loyihalar qarang kasallik nazorat aniqlash uchun raqamli iz ma'lumotlarni foydalanishga harakat qildik Althouse et al. (2015) bir ko'rib chiqish uchun.

sog'liqni saqlash natijalarini bashorat qilish raqamli iz ma'lumotlarni foydalanib tashqari, shuningdek, saylov natijalarini taxmin qilish Twitter ma'lumotlarni foydalanib, ish katta miqdorda bor edi; baholash uchun qarang Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7) va Huberty (2015) .

gripp tarqalganligi taxmin va saylovlar dunyoda voqea ayrim turdagi oldindan raqamli iz ayrim turdagi yordamida ikkala misol bashorat qilish Twitter ma'lumotlarni yordamida qidirish ma'lumotlarni foydalanish. Bu umumiy tuzilishga ega tadqiqotlarning ulkan soni. Table 2,5 bir necha boshqa misollarni o'z ichiga oladi.

Table 2,5: faoliyatlari qisman ro'yxati, ayrim voqea taxmin ba'zi raqamli iz foydalaning.
Raqamli asar natija tsitata
Twitter AQShda filmlar Box office daromadi Asur and Huberman (2010)
Qidiruv qaydlar AQShda filmlar, musiqa, kitoblar va video o'yinlar savdo Goel et al. (2010)
Twitter Dow Jones Industrial O'rtacha (AQSh fond bozori) Bollen, Mao, and Zeng (2011)
  • Taxminan tajribalar (qism 2.4.3)

Jurnal PS siyosiy fan katta ma'lumotlar, nedensel chiqaman, va rasmiy nazariyasi bo'yicha simpozium edi, va Clark and Golder (2015) , har bir hissa sarhisob qilmoqda. Amerika Qo'shma Shtatlari Milliy fanlar akademiyasining jurnal yuritish nedensel chiqaman va katta ma'lumotlar ustida bir simpozium edi, va Shiffrin (2016) , har bir hissa sarhisob qilmoqda.

Tabiiy tajribalar jihatidan, Dunning (2012) ajoyib kitob uzunligi davolash imkonini beradi. Tabiiy eksperiment V'etnam loyihasi Lotereya foydalanish haqida ko'proq uchun qarang: Berinsky and Chatfield (2015) . Ichida katta ma'lumotlar manbalari tabiiy tajribalar avtomatik ravishda kashf harakat mashina ta'lim yondashuvlar uchun, qarang Jensen et al. (2008) va Sharma, Hofman, and Watts (2015) .

Taalukli jihatidan, bir optimistik ko'rib chiqish uchun, qarang Stuart (2010) , va bir pessimistik ko'rib chiqish uchun qarang Sekhon (2009) . Azizillo sifatida taalukli haqida qo'shimcha ma'lumot olish uchun, qarang Ho et al. (2007) . Taalukli a'lo muolajalar ta'minlash kitoblar uchun, qarang Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , va Imbens and Rubin (2015) .