2.3.1.1 Big

Seti kubwa ni njia ya mwisho; wao si mwisho katika wenyewe.

Kwanza ya sifa tatu nzuri ya data kubwa ni wengi kujadiliwa: hizi ni data kubwa. Vyanzo hivi data inaweza kuwa kubwa kwa njia tatu tofauti: watu wengi, kura ya habari kwa kila mtu, au uchunguzi wengi baada ya muda. Kuwa na CCD kubwa itawezesha baadhi ya aina maalum ya heterogeneity utafiti kupima, kusoma matukio adimu, kuchunguza tofauti ndogo, na kufanya makadirio causal kutoka data za uchunguzi. Pia inaonekana kusababisha aina maalum ya sloppiness.

Jambo la kwanza ambalo ukubwa ni muhimu hasa ni kusonga zaidi wastani kufanya makadirio kwa subgroups maalum. Kwa mfano, Gary King, Jennifer Pan, na Molly Roberts (2013) kipimo uwezekano kwamba posts kijamii vyombo vya habari nchini China itakuwa kudhibitiwa na serikali. By yenyewe uwezekano huu wastani wa kufutwa si manufaa sana kwa ajili ya kuelewa kwa nini serikali censors baadhi posts lakini si wengine. Lakini, kwa sababu CCD yao ni pamoja na posts milioni 11, Mfalme na wenzake pia zinazozalishwa makadirio ya uwezekano wa udhibiti kwa ajili ya posts juu ya makundi 85 tofauti (kwa mfano, picha za uchi, Tibet, na Traffic katika Beijing). Kwa kulinganisha uwezekano wa udhibiti kwa ajili ya posts katika makundi mbalimbali, waliweza kuelewa zaidi kuhusu jinsi na kwa nini serikali censors aina fulani ya posts. Pamoja posts 11 elfu (posts badala ya milioni 11), wasingeweza kuwa na uwezo wa kuzalisha makadirio haya jamii maalum.

Pili, ukubwa ni muhimu hasa kwa inatafakari wa matukio adimu. Kwa mfano, Goel na wenzake (2015) walitaka kujifunza njia mbalimbali ambazo tweets unaweza kwenda virusi. Kwa sababu cascades kubwa ya re-tweets ni kubwa mno na nadra-kuhusu moja kati ya 3,000-walihitaji kujifunza tweets zaidi ya bilioni ili kupata cascades kubwa ya kutosha kwa ajili ya uchambuzi wao.

Tatu, seti kubwa kuwawezesha watafiti kuchunguza tofauti ndogo ndogo. Kwa kweli, mengi ya kuzingatia data makubwa katika sekta ni kuhusu tofauti hizi ndogo: reliably kuchunguza tofauti kati ya viwango 1% na 1.1% click-kwa njia ya juu ya tangazo wanaweza kutafsiri katika mamilioni ya dola katika mapato ya ziada. Katika mazingira ya baadhi kisayansi, kama tofauti ndogo wanaweza kuwa fulani muhimu (hata kama ni kitakwimu). Lakini, katika mazingira ya baadhi ya sera, kama tofauti ndogo inaweza kuwa muhimu wakati kutazamwa katika jumla. Kwa mfano, kama kuna mambo mawili hatua afya ya umma na moja ni kidogo na ufanisi zaidi kuliko wengine, basi byte kuingilia ufanisi zaidi inaweza kuishia kuokoa maelfu ya maisha ya ziada.

Hatimaye, kubwa data seti sana kuongeza uwezo wetu wa kufanya makadirio causal kutoka data za uchunguzi. Ingawa seti kubwa hawana mabadiliko ya kimsingi matatizo na maamuzi causal inference kutoka data za uchunguzi, vinavyolingana na asili majaribio na mbili mbinu kwamba watafiti na maendeleo kwa ajili ya kufanya madai causal kutoka uchunguzi data-wote kufaidika sana kutokana na seti kubwa. Mimi itabidi kueleza na kufafanua dai hili kwa undani zaidi baadaye katika sura hii wakati mimi kuelezea mikakati ya utafiti.

Ingawa ukubwa kwa ujumla ni mali nzuri wakati kutumika kwa usahihi, Nimekuwa niliona kuwa ukubwa kawaida inaongoza kwa makosa dhana. Kwa sababu fulani, ukubwa inaonekana kusababisha watafiti kupuuza jinsi data zao ilitokana. Wakati ukubwa gani kupunguza haja ya kuwa na wasiwasi kuhusu makosa random, ni kweli kuongezeka kwa haja ya kuwa na wasiwasi juu ya makosa utaratibu, aina ya makosa ambayo mimi itabidi kueleza kwa zaidi chini yatokanayo na biases katika jinsi data ni kuundwa na kukusanywa. Katika CCD ndogo, wote random makosa na makosa utaratibu unaweza kuwa muhimu, lakini katika kubwa CCD makosa random ni inaweza kuwa wastani mbali na makosa utaratibu hutawala. Watafiti ambao sidhani kuhusu makosa utaratibu kuishia kutumia seti yao kubwa ya kupata makisio sahihi ya kitu kibaya; watakuwa just sahihi (McFarland and McFarland 2015) .