2.3.1.1 Big

Datasets badag anu sarana ka ahir; maranehna teu ahir dina diri.

Nu kahiji tilu ciri hade data gedé anu paling dibahas: ieu data gedé. sumber data ieu bisa gedé dina tilu cara: loba jalma, kavling informasi per jalma, atawa loba observasi kana waktu. Gaduhan dataset gedé nyandak sababaraha tipe husus tina heterogeneity panalungtikan-ukur, nalungtik kajadian langka, detecting béda leutik, jeung nyieun perkiraan kausal ti data observational. Ogé jigana ngakibatkeun tipe husus tina sloppiness.

Hal kahiji nu ukuran sabagian dipake geus pindah leuwih averages nyieun perkiraan keur subgroups husus. Contona, Gary Raja, Jennifer Pan, jeung Molly Roberts (2013) diukur probability nu tulisan média sosial di Cina bakal censored ku pamaréntah. Ku sorangan probability rata ieu ngahapus teu pohara mantuan pikeun ngarti naha pamarentah censors sababaraha tulisan tapi teu batur. Tapi, alatan dataset maranéhanana kaasup 11 juta tulisan, Raja sareng kolega ogé dihasilkeun perkiraan pikeun probabiliti carana ngawasan pikeun tulisan dina 85 kategori misah (misalna pornografi, Tibet, jeung Traffic di Beijing). Ku ngabandingkeun kamungkinan carana ngawasan pikeun tulisan dina kategori nu beda, maranéhanana éta bisa ngarti nu leuwih lengkep ihwal kumaha jeung kunaon pamarentah censors tipe tangtu tulisan. Jeung 11 rebu tulisan (tinimbang 11 juta tulisan), teu geus tangtu bisa ngahasilkeun perkiraan kategori-husus ieu.

Kadua, ukuran sabageanna bisa dipake keur nu nalungtik kajadian langka. Contona, Goel sareng kolega (2015) hayang diajar cara nu beda nu tweets bisa viral. Sabab Kampung Pulo badag re-tweets pisan jarang-kira hiji dina 3.000-maranehna diperlukeun pikeun diajar leuwih ti milyar tweets guna pikeun manggihan cukup Kampung Pulo badag pikeun analisis maranéhanana.

Katilu, datasets badag ngaktifkeun panalungtik pikeun ngadeteksi béda leutik. Kanyataanna, loba fokus dina data gedé di industri ngeunaan ieu béda leutik: reliably detecting beda antara 1% jeung 1.1% ongkos malik-ngaliwatan dina hiji ad bisa narjamahkeun kana jutaan dollar di sharing tambahan. Dina sababaraha setélan ilmiah, béda leutik saperti bisa jadi teu tangtu penting (komo lamun maranehna signifikan statistik). Tapi, dina sababaraha setélan kawijakan, béda leutik saperti bisa jadi penting lamun ditempo dina agrégat. Contona, lamun aya dua interventions kaséhatan masarakat jeung hiji rada leuwih éféktif batan séjén, terus ngaganti ka pipilueun leuwih éféktif bisa mungkas nepi nyimpen rébuan nyawa tambahan.

Ahirna, susunan data badag greatly ngaronjatkeun pangabisa urang pikeun nyieun perkiraan kausal ti data observational. Sanajan datasets badag teu fundamentally ngarobah masalah jeung nyieun inference kausal ti data observational, cocog jeung percobaan-dua alam téhnik nu panalungtik geus dimekarkeun pikeun nyieun klaim kausal ti observational data-boh greatly kauntungan ti datasets badag. Abdi gé ngajelaskeun jeung ngagambarkeun ngaku ieu gede jéntré saterusna dina bagean ieu basa kuring ngajelaskeun strategi panalungtikan.

Sanajan bigness umumna sipat alus lamun dipaké bener, Kuring geus noticed nu bigness ilahar ngabalukarkeun hiji kasalahan konseptual. Kanggo sababaraha alesan, bigness jigana mingpin panalungtik pikeun malire kumaha data maranéhanana ieu dihasilkeun. Sedengkeun bigness teu ngurangan kudu salempang ngeunaan kasalahan random, eta sabenerna ngaronjatkeun kudu salempang ngeunaan kasalahan sistimatis, nu rupa kasalahan mah bakal ngajelaskeun leuwih handap nu timbul ti biases di kumaha data dijieun tur dikumpulkeun. Dina dataset leutik, boh random error and error sistimatis bisa penting, tapi dina hiji kasalahan random badag dataset téh bisa averaged jauh and error sistimatis mendominasi. Panalungtik anu henteu mikir ngeunaan kasalahan sistimatis bakal mungkas nepi ngagunakeun datasets gede maranéhanana pikeun meunangkeun estimasi nu hade hal salah; maranehna bakal persis taliti (McFarland and McFarland 2015) .