Մեծ տվյալների աղբյուրները ամենուր են, բայց դրանք օգտագործելով սոցիալական հետազոտությունների համար կարող են լինել բարդ: Իմ փորձով, կա մի բան, որը նման է «ոչ ազատ ճաշ» կանոնների տվյալների համար, եթե դուք չեք դնում շատ աշխատանքների հավաքման այն, ապա դուք, ամենայն հավանականությամբ, ստիպված կլինեք շատ աշխատել այն մասին, վերլուծելով այն:
Այսօրվա եւ, ամենայն հավանականությամբ, վաղվա տվյալների մեծ աղբյուրները կձգտեն ունենալ 10 բնութագիր: Նրանցից երեքն ընդհանրապես (բայց ոչ միշտ) օգտակար են հետազոտության համար, մեծ, միշտ, եւ ոչ ակտիվ: Յոթը ընդհանրապես (բայց ոչ միշտ) հետազոտության համար պրոբլեմատիկ են. Թերի, անհասանելի, ոչ ներկայացուցչական, կախված, ալգորիթմային խառնաշփոթ, կեղտոտ եւ զգայուն: Այս հատկանիշներից շատերը, ի վերջո, առաջանում են, քանի որ մեծ տվյալների աղբյուրները չեն ստեղծվել սոցիալական հետազոտության նպատակով:
Հիմք ընդունելով գաղափարները այս գլխում, ես կարծում եմ, որ կան երեք հիմնական եղանակներ, որոնք մեծ տվյալների աղբյուրները կլինեն առավել արժեքավոր սոցիալական հետազոտությունների համար: Նախ, նրանք կարող են թույլ տալ հետազոտողներին որոշել մրցակցող տեսական կանխատեսումների միջեւ: Այսպիսի աշխատանքների օրինակները ներառում են Farber (2015) (New York Taxi drivers) եւ King, Pan, and Roberts (2013) (գրաքննություն Չինաստանում): Երկրորդ, մեծ տվյալների աղբյուրը կարող է հնարավորություն ընձեռել ներկայումս օգտագործելով քաղաքականության բարելավման չափումը: Այսպիսի աշխատանքի օրինակ է Ginsberg et al. (2009) (Google- ի Flu Trends): Վերջապես, մեծ տվյալների աղբյուրները կարող են օգնել հետազոտողներին առանց պատճառաբանությունների փորձաքննության: Նման աշխատանքների օրինակներ են Mas and Moretti (2009) (արտադրողականության վերաբերյալ գործընկերների ազդեցությունները) եւ Einav et al. (2015) (eBay- ում աճուրդների սկսման գնի ազդեցությունը): Այդ մոտեցումներից յուրաքանչյուրը, սակայն, ձգտում է հետազոտողներին պահանջել տվյալների շատ մեծ մասի համար, ինչպիսիք են գնահատման համար կարեւոր քանակի որոշումը կամ մրցակցային կանխատեսումները դարձնող երկու տեսությունները: Այսպիսով, ես կարծում եմ, որ լավագույն տվյալների աղբյուրը կարող է անել, թե ինչ մեծ աղբյուր կարող է անել այն, որ նրանք կարող են օգնել հետազոտողներին, ովքեր կարող են հետաքրքիր եւ կարեւոր հարցեր տալ:
Նախքան եզրակացնելը, կարծում եմ, որ արժե հաշվի առնել, որ տվյալների մեծ աղբյուրները կարող են կարեւոր ազդեցություն ունենալ տվյալների եւ տեսության հարաբերության վրա: Մինչ այժմ, այս գլուխը վերցրել է տեսության վրա հիմնված ամպպիկ հետազոտությունների մոտեցումը: Սակայն մեծ տվյալների աղբյուրները թույլ են տալիս հետազոտողներին կատարել էմպիրիկորեն հիմնավորված տեսականին : Այսինքն, փորձարարական փաստերի, օրինակների եւ հանելուկների ուշադիր կուտակման միջոցով հետազոտողները կարող են կառուցել նոր տեսություններ: Այս այլընտրանքային տեսության առաջին մոտեցումը նոր չէ, եւ այն ամենից ուժեղ արտահայտված էր Բարնեյ Glaser եւ Anselm Strauss (1967) , հիմնավորված տեսության կոչման միջոցով: Այս տվյալների առաջին մոտեցումը, այնուամենայնիվ, չի նշանակում «տեսության ավարտը», քանի որ այն թվագրված է թվային դարաշրջանի հետազոտության շուրջ (Anderson 2008) of (Anderson 2008) : Փոխարենը, քանի որ տվյալների միջավայրը փոփոխվում է, մենք պետք է ակնկալենք, որ տվյալների վերափոխման եւ տեսության հարաբերություններում: Աշխարհում, որտեղ տվյալների հավաքագրումը թանկ էր, իմաստալից է միայն հավաքել այն տվյալները, որոնք առաջարկում են տեսությունները ամենաարդյունավետը: Սակայն, այն աշխարհում, որտեղ հսկայական գումարներ արդեն հասանելի են անվճար, իմաստ է նաեւ փորձել տվյալների առաջին մոտեցումը (Goldberg 2015) :
Ինչպես ես ցուցադրեցի այս գլխում, հետազոտողները կարող են շատ բան սովորել, դիտելով մարդկանց: Հաջորդ երեք գլուխներում ես նկարագրում եմ, թե ինչպես կարող ենք ավելի շատ եւ տարբեր բաներ սովորել, եթե մենք դարձնենք մեր տվյալների հավաքումը եւ ուղղակիորեն մարդկանց հետ շփվենք, նրանց հարց տալով (գլուխ 3), վազող փորձեր (4-րդ գլուխ) եւ նույնիսկ ներգրավել նրանց հետազոտական գործընթացում անմիջականորեն (5-րդ գլուխ):