2.3.1.1 Big

Malaking mga dataset ay isang paraan sa isang dulo; ang mga ito ay hindi isang dulo sa kanilang mga sarili.

Ang unang ng tatlong mahusay na mga katangian ng malaking data ay ang pinaka-tinalakay: ang mga ito ay malaki data. Ang mga pinagmumulan ng data ay maaaring maging malaki sa tatlong magkakaibang paraan: maraming mga tao, ng maraming impormasyon sa bawat tao, o maraming mga obserbasyon sa paglipas ng panahon. Ang pagkakaroon ng isang malaking dataset nagbibigay-daan sa ilang mga tiyak na mga uri ng pananaliksik-pagsukat heterogeneity, pag-aaral bihirang mga kaganapan, tiktik maliit na mga pagkakaiba, at paggawa ng pananahilan mga pagtatantya mula sa obserbasyonal data. Ito rin ay tila na humantong sa isang partikular na uri ng sloppiness.

Ang unang bagay na kung saan ang laki ay partikular na kapaki-pakinabang ay gumagalaw lampas average upang gumawa ng mga pagtatantya para sa mga tiyak subgroups. Halimbawa, Gary King, Jennifer Pan, at Molly Roberts (2013) sinusukat ang probabilidad na social media mga post sa Tsina ay censored sa pamamagitan ng pamahalaan. Sa pamamagitan ng kanyang sarili na ito average posibilidad ng pagtanggal ay hindi masyadong kapaki-pakinabang para sa pag-unawa kung bakit ang pamahalaan censors ilang mga post ngunit hindi ang iba. Ngunit, dahil ang kanilang dataset kasama 11 milyong mga post, King at kasamahan din ginawa mga pagtatantya para sa posibilidad ng censorship para sa mga post sa 85 hiwalay na mga kategorya (eg, pornograpiya, Tibet, at Traffic sa Beijing). Sa pamamagitan ng paghahambing ang posibilidad ng censorship para sa mga post sa iba't ibang kategorya, sila ay magagawang upang maunawaan ang nalalaman tungkol sa kung paano at kung bakit ang pamahalaan censors tiyak na mga uri ng mga post. Sa 11 libong mga post (sa halip na 11 milyong mga poste), hindi nila pa magawang makabuo category-tiyak na mga pagtatantya.

Second, laki ay partikular na kapaki-pakinabang para sa pag-aaral ay ng mga bihirang mga kaganapan. Halimbawa, Goel at kasamahan (2015) nais na pag-aralan ang iba't ibang paraan na tweet ay maaaring pumunta viral. Dahil malaking cascades ng re-tweet ay lubhang bihirang-tungkol sa isa sa isang 3,000-kailangan nila upang mag-aral ng higit sa isang bilyong mga tweet upang makahanap ng sapat na malaking cascades para sa kanilang pag-aaral.

Third, malaking datasets paganahin mananaliksik upang makita ang maliit na pagkakaiba. Sa katunayan, marami ng ang focus sa malaking data sa industriya ay tungkol sa mga maliliit na mga pagkakaiba: mapagkakatiwlaan tiktik ang pagkakaiba sa pagitan ng 1% at 1.1% na click-through rate sa isang ad ay maaaring isalin sa milyon-milyong mga dolyar sa dagdag na kita. Sa ilang mga setting pang-agham, tulad ng maliit na mga pagkakaiba ay maaaring hindi partikular na mahalaga (kahit na sila ay makabuluhan sa istatistika). Ngunit, sa ilang mga setting ng patakaran, tulad ng maliit na mga pagkakaiba ay maaaring maging mahalaga kapag tiningnan nang magkakasama. Halimbawa, kung may dalawang interventions pampublikong kalusugan at ang isa ay bahagyang mas epektibo kaysa sa iba pang, at pagkatapos ay lumipat sa mas epektibong interbensyon ay maaaring tapusin up-save ang libu-libong karagdagang mga buhay.

Sa wakas, mga malalaking mga hanay ng data lubhang darami ang aming kakayahan na gumawa ng pananahilan mga pagtatantya mula sa obserbasyonal data. Kahit malalaking dataset huwag panimula baguhin ang mga problema sa paggawa ng pananahilan hinuha mula pagmamatyag ng data, na tumutugma at natural na mga eksperimento-dalawang mga pamamaraan na ang mga mananaliksik ay may binuo para sa paggawa ng pananahilan mga paghahabol mula sa obserbasyonal data-parehong lubos na makikinabang mula sa mga malalaking dataset. kukunin ko na ipaliwanag at ilarawan ang claim na ito sa mas malawak na detalye sa ibang pagkakataon sa kabanatang ito kapag ilarawan ko estratehiya pananaliksik.

Kahit kalakhan ay karaniwang isang magandang ari-arian kapag ginamit nang tama, napansin ko na ang kalakhan karaniwang humahantong sa isang haka-haka error. Para sa ilang kadahilanan, kalakhan ay tila upang humantong mga mananaliksik na huwag pansinin kung paano ang kanilang data ay binuo. Habang kalakhan ay mabawasan ang kailangan upang mag-alala tungkol sa mga random error, ito ang tunay na pinatataas ang kailangang mag-alala tungkol sa sistematikong error, ang uri ng mga error na kukunin ko ilarawan sa higit pa sa ibaba na lumabas dahil sa biases sa kung paano ang data ay nilikha at na nakolekta. Sa isang maliit na dataset, parehong random error at sistematikong error ay maaaring maging mahalaga, ngunit sa isang malaking dataset random error ay maaaring-average ang layo at sistematikong error dominates. Mananaliksik na huwag isipin ang tungkol systematic error ay end up gamit ang kanilang malalaking dataset upang makakuha ng isang tumpak na pagtatantya ng maling bagay; ang mga ito ay tiyak na hindi tumpak na (McFarland and McFarland 2015) .