Խոշոր հավաքածուների միջոց է ավարտին. նրանք չեն ինքնանպատակ.
Մեծ տվյալների աղբյուրների ամենատարածված առանձնահատկությունն այն է, որ դրանք մեծ են: Շատ թերթեր, օրինակ, սկսում են քննարկել եւ երբեմն էլ զարդարել `այն մասին, թե որքան տվյալներ վերլուծվում են: Օրինակ, Google- ի գրադարաններում Word- ի օգտագործման միտումները ուսումնասիրող Գիտության թերթը ներառել է հետեւյալը (Michel et al. 2011) :
«[Մեր] կորպուսը պարունակում է ավելի քան 500 միլիարդ բառ, անգլերեն (361 միլիարդ), ֆրանսերեն (45 միլիարդ), իսպանական (45 միլիարդ), գերմանական (37 միլիարդ), չինարեն (13 միլիարդ), ռուսերեն (35 միլիարդ) եւ եբրայերեն (2 միլիարդ): Ամենահին աշխատանքները տպագրվել են 1500-ական թվականներին: Տարիների տասնամյակների ընթացքում ներկայացված են տարեցտարի ընդամենը մի քանի գրքեր, կազմելով մի քանի հարյուր հազար բառեր: 1800 թ.-ին կորպուսը հասնում է 98 միլիոն բառի: 1900 թ., 1.8 մլրդ. իսկ 2000 թ., 11 միլիարդ: Դատարանը չի կարելի կարդալ մարդու կողմից: Եթե դուք փորձեցիք միայն 2000 թվականից միայն անգլերեն լեզվով գրել կարդալը, 200 բառ / րոպե ողջամիտ տեմպով, առանց սննդի կամ քնի ընդհատումների, ապա դա կլիներ 80 տարի: Տառերի հաջորդականությունը 1000 անգամ ավելի է, քան մարդկային գենոմը. Եթե գրեք այն ուղիղ գծով, ապա այն կլիներ Լուսին եւ 10 անգամ ետ է վերցնում »:
Այս տվյալների մասշտաբները անկասկած տպավորիչ են, եւ մենք բոլորս էլ երջանիկ ենք, որ Google Գրքերի գրադարանը հրապարակել է այդ տվյալները հանրությանը (փաստորեն, այս գլխի վերջում որոշ գործառնություններ են օգտագործում այս տվյալները): Բայց, երբ դուք նման բան տեսնեք, պետք է հարցնել. Արդյոք այդ բոլոր տվյալները իրականում ինչ-որ բան են անում: Կարող են արդյոք նույն հետազոտությունները կատարել, եթե տվյալները կարող են հասնել միայն Լուսին եւ ետին: Իսկ եթե տվյալները կարող են հասնել միայն Էվերեստի լեռան գագաթին կամ Էյֆելյան աշտարակի գագաթին:
Այս դեպքում իրենց ուսումնասիրությունները իրականում ունեն որոշակի եզրակացություններ, որոնք երկար ժամանակ պահանջում են խոշոր կորպուս: Օրինակ, ուսումնասիրում են մի բան, քերականության էվոլյուցիան, մասնավորապես, անկանոն բայերի կոնվիգիացիայի փոփոխության փոփոխությունները: Քանի որ որոշ անկանոն բայեր բավականին հազվադեպ են, մեծ քանակությամբ տվյալներ պետք է ժամանակի ընթացքում փոփոխություններ գտնեն: Շատ հաճախ, այնուամենայնիվ, հետազոտողները կարծես թե վերաբերվում են մեծ տվյալների աղբյուրի չափին, որպես «նայիր, թե որքան տվյալների ես կարող եմ խորտակել», ավելի ճիշտ `ավելի կարեւոր գիտական նպատակների համար:
Իմ փորձով հազվագյուտ իրադարձությունների ուսումնասիրությունը երեք առանձնահատուկ գիտական նպատակներից մեկն է, որ մեծ տվյալների հավաքածուները հնարավորություն են տալիս: Երկրորդն այն է, որ բազմազանության ուսումնասիրությունը, ինչպես կարելի է նկարագրել Ռաջ Չեթիի եւ գործընկերների կողմից (2014) Միացյալ Նահանգներում սոցիալական շարժունակության վերաբերյալ: Նախկինում շատ հետազոտողներ ուսումնասիրել են սոցիալական շարժունակությունը `համեմատելով ծնողների եւ երեխաների կյանքի արդյունքը: Այս գրականությունից հետեւողականորեն գտնվելը այն է, որ առավելագույն ծնողները հակված են առավելագույնի հասցնել երեխաներին, սակայն այդ հարաբերության ուժը տարբեր ժամանակներում եւ երկրներում տարբերվում է (Hout and DiPrete 2006) : Ավելի ուշ, սակայն, Chetty- ը եւ գործընկերները կարողացան օգտվել 40 միլիոն մարդկանց հարկային հաշվառումից, որպեսզի գնահատեն Միացյալ Նահանգների շրջաններում սերտաճած շարժունակության տարբերությունը (նկար 2.1): Նրանք գտել են, օրինակ, որ երեխայի միջին եկամտային բաշխման լավագույն քվինտին հասնում է ստորին քվինտիլում գտնվող ընտանիքից մոտ 13% -ը, Կալիֆորնիայի Սան Խոսե քաղաքում, բայց միայն 4% -ը, Հյուսիսային Կարոլինայի Շարլոտ քաղաքում: Եթե դուք մի պահ պահեք 2.1-րդ կետը, կարող եք զարմանալ, թե ինչու են միջգերատեսչական շարժունակությունը որոշ տեղերում ավելի բարձր, քան մյուսները: Chetty- ը եւ գործընկերները նույն հարցն ունեին եւ գտան, որ բարձր շարժունակության շրջաններն ավելի քիչ բնակարանային հատվածներ, ավելի քիչ եկամտի անհավասարություն, ավելի լավ նախնական դպրոցներ, ավելի մեծ սոցիալական կապիտալ եւ ավելի մեծ ընտանեկան կայունություն: Իհարկե, այդ փոխհարաբերությունները միայն չեն ցույց տալիս, որ այդ գործոնները ավելի մեծ շարժունակություն են առաջացնում, սակայն նրանք առաջարկում են հնարավոր մեխանիզմներ, որոնք կարող են հետագայում ուսումնասիրել հետագա աշխատանքը, ինչն էլ Chetty- ը եւ գործընկերները արել են հետագա աշխատանքում: Ուշադրություն դարձրեք, թե որքանով է այդ տվյալների չափսը կարեւորում այս նախագծում: Եթե Chetty- ը եւ գործընկերները օգտվել են 40 հազարից ավելի մարդկանց հարկային հաշվառումից, քան 40 միլիոնը, նրանք չէին կարողանում գնահատել տարածաշրջանային տարբերությունը եւ երբեք չեն կարողացել հետագա հետազոտություններ անել, փորձելու բացահայտել այդ փոփոխության մեխանիզմները:
Ի վերջո, բացի հազվագյուտ իրադարձությունների ուսումնասիրմամբ եւ միասնաբար ուսումնասիրելով, մեծ տվյալների հավաքագրումը հնարավորություն կտա հետազոտողներին փոքր տարբերություններ հայտնաբերել: Իրականում, արդյունաբերության ոլորտում մեծ տվյալների վրա ուշադրության կենտրոնում են այս փոքր տարբերությունները. Հուսալիորեն հայտնաբերելով գովազդը 1% -ից 1.1% -ով տարբերվող սակագների տարբերությունը, կարող է թարգմանել միլիոնավոր դոլարներ լրացուցիչ եկամուտ: Որոշ գիտական պարամետրերում, սակայն, նման փոքր տարբերությունները կարող են առանձնապես կարեւոր լինել, նույնիսկ եթե դրանք վիճակագրական նշանակություն ունեն (Prentice and Miller 1992) : Սակայն որոշ քաղաքականության պարամետրերում դրանք կարող են կարեւոր լինել, երբ դիտվում է համախմբում: Օրինակ, եթե կան երկու հանրային առողջապահական միջամտություններ, եւ մեկը մյուսից փոքր-ինչ ավելի արդյունավետ է, ապա ավելի արդյունավետ միջամտություն ընտրելը կարող է հանգեցնել հազարավոր լրացուցիչ կյանքերի խնայելու:
Թեեւ մեծամասնությունը լավ գույք է, երբ ճիշտ օգտագործվում է, ես նկատեցի, որ դա երբեմն կարող է հանգեցնել կոնցեպտուալ սխալի: Չգիտես ինչու, տիեզերքը, կարծես, տանում է հետազոտողներին, անտեսել, թե ինչպես են իրենց տվյալները ստեղծվել: Չնայած tigness- ը նվազեցնում է պատահական սխալից անհանգստանալու անհրաժեշտությունը, այն իրականում մեծացնում է սիստեմատիկ սխալների մասին անհանգստանալու անհրաժեշտությունը, այնպիսի սխալների տեսակները, որոնք ես կներկայացնեմ ստորեւ, որը բխում է տվյալների շտկումներից: Օրինակ, այս բաժնում նկարագրեմ ավելի ուշ, հետազոտողներն օգտագործեցին 2001 թվականի սեպտեմբերի 11-ին ստացված ուղերձները `ահաբեկչական հարձակման (Back, Küfner, and Egloff 2010) արձագանքի բարձր արձագանքման զգացմունքային ժամանակացույցը: Քանի որ հետազոտողները մեծ քանակությամբ հաղորդագրություններ ունեին, նրանք իսկապես կարիք չունեին անհանգստանալու այն բանի, թե արդյոք դիտարկված օրինաչափությունները `օրվա ընթացքում աճող զայրույթի ավելացումը կարող է բացատրվել պատահական փոփոխությունների շնորհիվ: Այդքան շատ տվյալներ կան, եւ օրինակն այնքան հստակ էր, որ վիճակագրական բոլոր վիճակագրական փորձարկումները ցույց են տվել, որ դա իրական օրինակ է: Սակայն, այս վիճակագրական թեստերը չգիտեին, թե ինչպես են ստեղծվել տվյալները: Փաստորեն, պարզվեց, որ օրինաչափությունների մեծ մասը վերաբերում էր մեկ բոտին, որը օրվա ընթացքում ավելի ու ավելի անիմաստ հաղորդագրություններ է առաջ բերում: Այս մեկ բոտի հեռացումը ամբողջովին ավերեց թղթի հիմնական արդյունքները (Pury 2011; Back, Küfner, and Egloff 2011) : Պարզապես, հետազոտողները, որոնք չեն մտածում սիստեմատիկ սխալի մասին, ունեն իրենց մեծ տվյալների հավաքածուի ռիսկը `անհամապատասխան քանակի ճշգրիտ գնահատական ստանալու համար, ինչպիսիք են ավտոմատացված բոտի կողմից արտադրված անիմաստ հաղորդագրությունների զգացմունքային բովանդակությունը:
Ի վերջո, մեծ տվյալների հավաքածուները ինքնանպատակ չեն, բայց դրանք կարող են թույլ տալ որոշակի հետազոտություններ, ներառյալ հազվագյուտ իրադարձությունների ուսումնասիրությունը, բազմաշերտության գնահատումը եւ փոքր տարբերությունների հայտնաբերումը: Մեծ տվյալների հավաքածուները թվում են, թե որոշ հետազոտողներ արհամարհում են, թե ինչպես են ստեղծվել իրենց տվյալները, ինչը կարող է հանգեցնել նրանց անհամապատասխան քանակի ճշգրիտ գնահատման: