2.3.1.1 Մեծ

Խոշոր հավաքածուների միջոց է ավարտին. նրանք չեն ինքնանպատակ.

Առաջինը երեք լավ բնութագրերի խոշոր տվյալների ամենաքննարկվող: Սրանք մեծ տվյալների. Այս տվյալների աղբյուրները կարող են լինել մեծ երեք տարբեր ձեւերով: Շատերը, շատ տեղեկությունների մեկ անձի կամ շատ դիտարկումները ժամանակի ընթացքում: Ունենալով մեծ dataset հնարավորություն է տալիս որոշակի տեսակի գիտական ​​չափման տարասեռութ, ուսումնասիրելով հազվագյուտ միջոցառումներ, հայտնաբերելու փոքր տարբերությունները, եւ կատարել պատճառահետեւանքային գնահատումների դիտողական տվյալները. Այն նաեւ թվում է հանգեցնել կոնկրետ տեսակի sloppiness:

Առաջին բանը, որ, որի համար չափը, հատկապես օգտակար է շարժվում դուրս է միջինը, որպեսզի նախահաշիվները կոնկրետ ենթախմբերի: Օրինակ, Gary թագավորը, Jennifer Pan, եւ Molly Roberts (2013) չափվում է հավանականությունը, որ սոցիալական մեդիայի հաղորդագրություններ Չինաստանում կլինի գրաքննության կառավարության կողմից: Ինքնին այս միջին հավանականությունը հանումը չէ, շատ օգտակար է հասկանալու համար, թե ինչու է կառավարությունը censors որոշ գրառումները բայց ոչ ուրիշներին. Սակայն, քանի որ նրանց dataset ընդգրկված է 11 մլն գրառումները, թագավորը եւ նրա գործընկերները նույնպես արտադրվել նախահաշիվները համար հավանականության գրաքննության համար գրառումների 85 առանձին կատեգորիաների (օրինակ, պոռնոգրաֆիա, Տիբեթից, եւ երթեւեկությունը Պեկին): Համեմատելով հավանականությունը գրաքննության համար հայտարարությունները տարբեր բաժիններում, նրանք կարողացան հասկանալ, թե ավելի մասին, թե ինչպես եւ ինչու է կառավարությունը censors որոշակի տեսակի հաղորդագրությունների. 11 հազար հաղորդագրությունների (ավելի շուտ, քան 11 մլն գրառումները), նրանք չէին կարողացել է արտադրել այդ կատեգորիա հատուկ նախահաշիվները:

Երկրորդ, չափը հատկապես օգտակար է սովորում հազվագյուտ միջոցառումներին: Օրինակ, Goel եւ գործընկերները (2015) Ուզում է ուսումնասիրել տարբեր ուղիները, որոնք Թվիթեր կարող գնալ վիրուսային: Քանի որ մեծ կասկադներ կրկին Թվիթեր չափազանց հազվադեպ մոտ մեկ է 3000-նրանք պետք է ուսումնասիրել ավելի քան մեկ միլիարդ Թվիթեր, որպեսզի գտնել բավարար խոշոր կասկադի իրենց վերլուծության.

Երրորդ, խոշոր հավաքածուների հնարավորություն են տալիս հետազոտողներին հայտնաբերելու փոքր տարբերությունները. Ի դեպ, շատ շեշտադրմամբ մեծ տվյալների արդյունաբերության մասին, այդ փոքր տարբերությամբ հուսալիորեն հայտնաբերելու տարբերությունը 1% եւ 1.1% սեղմեք միջոցով դրույքաչափերով վրա ազդ կարող է թարգմանել այն միլիոնավոր դոլարներ լրացուցիչ եկամուտների. Որոշ գիտական ​​պարամետրերը, նման փոքր տարբերությունները կարող են լինել, մասնավորապես, կարեւոր (եթե նույնիսկ դրանք վիճակագրորեն նշանակալի): Սակայն, որոշ քաղաքականության պարամետրերը, նման փոքր տարբերությունները կարող են դառնալ կարեւոր է, երբ դիտարկվում է համախառն: Օրինակ, եթե կան երկու հանրային առողջապահական միջամտություններ եւ մեկ փոքր - ինչ ավելի արդյունավետ է, քան մյուսը, ապա անցումը դեպի ավելի արդյունավետ միջամտության կարող էր հայտնվում փրկելու հազարավոր լրացուցիչ կյանքում.

Վերջապես, խոշոր տվյալների սահմանում մեծապես կբարձրացնի մեր ունակությունը կատարելու պատճառահետեւանքային գնահատումների դիտողական տվյալները. Չնայած նրան, որ խոշոր հավաքածուների չեն արմատապես փոխել խնդիրները կատարելու պատճառահետեւանքային հետեվություն է դիտողական տվյալների, համապատասխանող եւ բնական փորձեր երկու մեթոդներ, որոնք հետազոտողները մշակել են դարձնելու պատճառահետեւանքային պահանջներ դիտողական տվյալների, այնպես էլ մեծապես կշահեն խոշոր հավաքածուների. Ես բացատրել եւ ներկայացնել այս հայցը ավելի մանրամասնորեն ուշ այս գլխում, երբ ես նկարագրել, հետազոտական ​​ռազմավարություններ:

Չնայած նրան, որ bigness է, ընդհանուր առմամբ, լավ գույքը, երբ ճիշտ օգտագործել, ես նկատեցի, որ bigness սովորաբար հանգեցնում է կոնցեպտուալ սխալի. Չգիտես ինչու, bigness թվում է, հանգեցնել հետազոտողներին է անտեսել, ինչպես իրենց տվյալները գեներացվել է: Մինչ bigness է անում նվազեցնելու անհրաժեշտությունը անհանգստանալու պատահական սխալի, այն, ըստ էության մեծացնում է անհանգստանալու կարիք համակարգային սխալներ, որ տեսակի սխալներ, որ ես պետք է նկարագրում է, ավելի ցածր է, որ առաջանում են կողմնակալության, թե ինչպես տվյալներ են ստեղծվում եւ գանձվում: Մի փոքր dataset, այնպես էլ պատահական սխալ է, եւ համակարգված սխալ է, կարող է լինել կարեւոր է, բայց մի մեծ dataset պատահական սխալի կարելի միջինացվում հեռավորության վրա եւ համակարգված սխալ է գերիշխում: Հետազոտողները, ովքեր չեն մտածում համակարգված սխալի կավարտվի մինչեւ օգտագործելով իրենց մեծ հավաքածուների է ստանալ ճշգրիտ նախահաշիվը սխալ բան. նրանք կլինեն հստակ ոչ ճշգրիտ (McFarland and McFarland 2015) :