Datasets badag anu sarana ka ahir; maranehna teu ahir dina diri.
fitur nu paling lega dibahas ngeunaan sumber data badag nyaeta aranjeunna anu badag. Loba tulak, contona, mimitian ku nyawalakeun-sarta kadangkala bragging-ngeunaan sabaraha data aranjeunna dianalisis. Contona, hiji makalah diterbitkeun di Élmu diajar kecap-pamakéan tren di korpus Google Buku kaasup handap (Michel et al. 2011) :
"[Kami] korpus ngandung leuwih 500 milyar kecap, dina basa Inggris (361 miliar), Perancis (45 milyar), Spanyol (45 milyar), Jérman (37 milyar), Cina (13 milyar), Rusia (35 milyar), sarta Ibrani (2 miliar). Karya pangkolotna dikaluarkeun dina 1500s. Dekade mimiti anu digambarkeun ku ukur sababaraha buku per taun, ngawengku sababaraha ratus rébu kecap. Ku 1800, korpus nu tumuwuh nepi 98 juta kecap per taun; ku 1900, 1,8 milyar; sarta ku 2000, 11 milyar. korpus nu teu bisa baca ku manusa. Lamun diusahakeun maca wungkul éntri Inggris-basa ti taun 2000 waé, di Pace lumrah 200 kecap / mnt, tanpa interruptions keur dahareun atawa sare, eta bakal butuh 80 taun. Urutan hurup nyaéta 1000 kali leuwih panjang batan génom manusa: Lamun wrote eta kaluar dina garis lempeng, éta bakal ngahontal kana Moon na deui 10 kali leuwih ".
Skala data ieu téh undoubtedly impressive, sarta kami kabeh untung yén tim Google Buku geus ngarilis data ieu ka publik dina (dina kanyataanana, sababaraha kagiatan di ahir ieu bab nyieun pamakéan data ieu). Tapi, iraha nu katingali hal kawas kieu anjeun kudu ménta: éta sakabéh data anu bener ngalakonan nanaon? Bisa aranjeunna geus dipigawé panalungtikan sami lamun data bisa ngahontal nepi ka Bulan jeung deui ukur sakali? Kumaha lamun data ngan bisa ngahontal kana luhureun Gunung Everest atawa luhureun Menara Eiffel?
Dina hal ieu, panalungtikan maranéhanana henteu, dina kanyataanana, boga sababaraha papanggihan nu merlukeun hiji korpus badag kecap liwat hiji periode lila. Contona, hiji hal maranéhna ngajajah mangrupa évolusi grammar, utamana robah dina laju teratur verba conjugation. Kusabab sabagian kecap gawe teratur anu rada langka, loba data anu kudu ngadeteksi parobahan kana waktu. Teuing mindeng kitu, peneliti sigana ngubaran ukuran tina sumber data badag salaku hiji end- "kasampak sabaraha data abdi tiasa crunch" -rather ti sarana pikeun sababaraha obyektif ilmiah leuwih penting.
Dina pangalaman kuring, ulikan ngeunaan acara langka mangrupa salah sahiji tilu tungtung ilmiah husus yén datasets badag condong ngaktipkeun. Kaduana ngarupakeun ulikan ngeunaan heterogeneity, sakumaha bisa gambar ku ulikan ku Raj Chetty sareng kolega Anjeun (2014) dina mobilitas sosial di Amérika Serikat. Baheula, loba peneliti geus diajarkeun mobilitas sosial ku ngabandingkeun hasil kahirupan kolot jeung barudak. A Pananjung konsisten tina sastra ieu mangrupa nu kolotna advantaged condong mibanda barudak advantaged, tapi kakuatan hubungan ieu beda-beda dumasar kana waktu jeung di sakuliah nagara (Hout and DiPrete 2006) . Nu leuwih anyar, kumaha oge, Chetty sareng kolega Anjeun éta bisa ngagunakeun rékaman pajeg ti 40 juta urang keur estimasi heterogeneity dina mobilitas intergenerational sakuliah wewengkon di Amérika Serikat (inohong 2.1). Aranjeunna kapanggih, contona, anu kamungkinan yén anak nepi ka quintile luhureun sebaran panghasilan nasional dimimitian ti kulawarga di quintile handap nyaéta ngeunaan 13% di San Jose, California, tapi ukur kurang leuwih 4% di Charlotte, North Carolina. Lamun nempo sosok 2.1 pikeun masihan, Anjeun bisa ngawitan heran naha mobilitas intergenerational leuwih luhur di sababaraha tempat ti batur. Chetty sareng kolega Anjeun kedah persis sual sarua, sarta maranéhna manggihan yén éta wewengkon-mobilitas tinggi kudu segregation kirang padumukan, kirang kateusajajaran pangala, sakola primér hadé, ibukota sosial gede, sarta stabilitas kulawarga gede. Tangtu, correlations ieu nyalira teu némbongkeun yén faktor ieu ngakibatkeun mobilitas luhur, tapi maranéhna teu nyarankeun mékanisme mungkin nu bisa digali dina karya salajengna, nu kahayang Chetty sareng kolega Anjeun geus dipigawé dina karya saterusna. Perhatikeun kumaha ukuran data ieu bener penting dina proyék ieu. Mun Chetty sareng kolega Anjeun kungsi dipaké rékaman pajak 40 sarébu jalma tinimbang 40 juta, aranjeunna moal bakal geus bisa nga-estimasi heterogeneity régional jeung aranjeunna pernah bakal geus bisa ngalakukeun panalungtikan saterusna nyoba nangtukeun mékanisme nu nyieun variasi ieu.
Tungtungna, sajaba diajar acara langka tur diajar heterogeneity, datasets badag ogé ngaktipkeun peneliti manggihan béda leutik. Kanyataanna, loba fokus kana data badag di industri téh ngeunaan ieu béda leutik: reliably detecting beda antara 1% na 1,1% ongkos klik-liwat di hiji iklan tiasa nerjemahkeun kana jutaan dollar di sharing tambahan. Dina sababaraha setélan ilmiah, kumaha oge, béda leutik misalna bisa jadi sabagean pentingna, sanajan aranjeunna statistik signifikan (Prentice and Miller 1992) . Tapi, dina sababaraha setélan kawijakan, maranéhna bisa jadi penting mun ditempo dina agrégat. Contona, upami aya dua interventions kaséhatan umum jeung salah rada leuwih éféktif batan nu sejen, lajeng picking pipilueun leuwih éféktif bisa mungkas nepi nyimpen rébuan kahirupan tambahan.
Sanajan bigness umumna sipat alus lamun dipaké neuleu, Kuring geus noticed nu eta kadang bisa ngabalukarkeun hiji kasalahan konseptual. Kanggo sababaraha alesan, bigness sigana ngakibatkeun peneliti malire kumaha data maranéhanana ieu dihasilkeun. Bari bigness teu ngurangan kudu salempang ngeunaan kasalahan acak, éta sabenerna ngaronjatkeun kudu salempang ngeunaan kasalahan sistematis, rupa kasalahan anu kuring gé ngajelaskeun handap anu timbul tina biases di kumaha data anu dijieun. Contona, dina proyék a I gé ngajelaskeun engké dina bab ieu, peneliti dipake seratan dihasilkeun dina 11 Séptémber 2001 ngahasilkeun Kala emosi-resolusi luhur tina réaksi ka serangan teroris (Back, Küfner, and Egloff 2010) . Kusabab éta peneliti miboga angka nu gede ngarupakeun seratan, aranjeunna henteu bener kudu salempang ngeunaan naha pola aranjeunna observasi-ngaronjatkeun anger ngaliwatan kursus dinten-bisa dipedar ku variasi acak. Aya pisan data na pola ieu jadi jelas yén sakabéh tés statistik nu statistical ngusulkeun yén ieu mangrupa pola nyata. Tapi, ieu tés statistical éta goblog kumaha data ieu dijieun. Kanyataanna, tétéla yén loba nu pola éta dipake pikeun bot tunggal nu dihasilkeun seratan beuki loba hartina sapopoe. Nyoplokkeun bot ieu sagemblengna ancur sababaraha papanggihan konci dina kertas (Pury 2011; Back, Küfner, and Egloff 2011) . Rada saukur, peneliti anu teu mikir ngeunaan kasalahan sistimatis nyanghareupan résiko maké datasets badag maranéhna pikeun meunangkeun estimasi nu hade hiji kuantitas teu penting, kayaning eusi emosi tina seratan hartina dihasilkeun ku hiji bot otomatis.
Dina kacindekan, datasets badag henteu hiji tungtung dina diri, tapi maranéhna bisa ngaktipkeun rupa tangtu panalungtikan kaasup ulikan ngeunaan acara langka, anu estimasi tina heterogeneity, jeung beungeut béda leutik. datasets badag ogé sigana ngakibatkeun sabagian peneliti malire kumaha data maranéhanana dijieun, nu bisa diterangkeun aranjeunna pikeun meunangkeun estimasi nu hade hiji kuantitas teu penting.