Մեծ տվյալները ստեղծվում եւ հավաքագրվում են ընկերությունների եւ կառավարությունների կողմից, այլ հետազոտություններով: Ուսումնասիրության համար այս տվյալների օգտագործումը, հետեւաբար, պահանջում է repurposing.
Առաջին տարբերակն այն է, որ մարդիկ թվային դարում սոցիալական հետազոտությունների են հանդիպում այն մասին, ինչը հաճախ կոչվում է մեծ տվյալներ : Չնայած այս տերմինի տարածված օգտագործմանը, կոնսենսուս չկա, թե ինչ մեծ տվյալներ էլ կա: Այնուամենայնիվ, մեծ տվյալների ամենատարածված սահմանումներից մեկը կենտրոնանում է «3 Vs» ծավալին, ծավալին, բազմազանությանը եւ արագությանը: Դժբախտաբար, առկա են բազմաթիվ տվյալներ, տարբեր ձեւաչափերով, եւ այն ստեղծվում է անընդհատ: Մեծ տվյալների որոշ երկրպագուներ եւս ավելացնում են «Vs», ինչպիսիք են «Վերարտադրությունը եւ արժեքը», մինչդեռ որոշ քննադատներ ավելացնում են Vs, ինչպիսիք են Vague եւ Vacuous: Սոցիալական հետազոտության նպատակների համար, կարծում եմ, ավելի լավ վայր է սկսելու համար 5 «Ws»: Ով, Ինչ, Որտեղ, Երբ եւ ինչու: Փաստորեն, կարծում եմ, մեծ տվյալների աղբյուրների ստեղծած բազմաթիվ մարտահրավերներ եւ հնարավորություններ հետեւում են ընդամենը մեկ «W» -ից: Ինչու:
Անալոգային տարում սոցիալական հետազոտության համար օգտագործված տվյալների մեծ մասը ստեղծվել է հետազոտության համար: Թվային տարիքում, այնուամենայնիվ, ընկերությունների եւ կառավարությունների կողմից ստեղծվում է տվյալների հսկայական քանակություն, այլ ոչ թե հետազոտական նպատակներից, ինչպիսիք են ծառայություններ մատուցելը, շահույթ ստեղծելը եւ օրենքների կիրառումը: Ստեղծագործական մարդիկ, սակայն, գիտակցում են, որ դուք կարող եք վերականգնել այս կորպորատիվ եւ կառավարական տվյալները հետազոտության համար: Մտածելով 1-ին գլխում արվեստի նմանության հետ, ճիշտ ինչպես Duchamp- ը վերահաստատեց արվեստը ստեղծելու համար հայտնաբերված օբյեկտը, գիտնականները կարող են ներկայացնել տվյալներ հայտնաբերելու համար `հետազոտություն ստեղծելու համար:
Չնայած վերոնշյալի համար հսկայական հնարավորություններ կան, հետազոտության նպատակներով ստեղծված տվյալները օգտագործելով նաեւ նոր մարտահրավերներ: Համեմատեք, օրինակ, սոցիալական ցանցի ծառայությունը, ինչպես Twitter- ը, ավանդական հասարակական կարծիքի հետազոտության հետ, ինչպիսին է General Social Survey- ը: Twitter- ի հիմնական նպատակներն են `օգտատերերին ծառայություն մատուցել եւ շահույթ ստանալ: Ընդհանուր սոցիալական հետազոտությունը, մյուս կողմից, ուղղված է սոցիալական հետազոտությունների ընդհանուր նպատակային տվյալների ստեղծմանը, մասնավորապես, հասարակական կարծիքի ուսումնասիրության համար: Նպատակների այս տարբերությունը նշանակում է, որ Twitter- ի կողմից ստեղծած տվյալները եւ Ընդհանուր սոցիալական հետազոտության կողմից ստեղծված տարբեր հատկություններ ունեն, չնայած թե դրանք կարող են օգտագործվել հանրային կարծիքի ուսումնասիրման համար: Twitter- ը գործում է մասշտաբով եւ արագությամբ, որ ընդհանուր սոցիալական հետազոտությունը չի կարող համընկնել, սակայն, ի տարբերություն Ընդհանուր սոցիալական հետազոտության, Twitter- ն ուշադիր նմուշներ է օգտագործում եւ չի աշխատում, որպեսզի ժամանակի համեմատությունը պահպանվի: Քանի որ այս երկու աղբյուրները շատ տարբեր են, իմաստը չի նշանակում, որ ընդհանուր սոցիալական հետազոտությունը ավելի լավ է, քան Twitter- ը կամ հակառակը: Եթե ցանկանում եք գլոբալ տրամադրության ժամային միջոցառումներ (օրինակ, Golder and Macy (2011) ), ամենալավն է Twitter- ը: Մյուս կողմից, եթե ցանկանում եք հասկանալ երկարատեւ փոփոխություններ Միացյալ Նահանգներում (օրինակ, DiMaggio, Evans, and Bryson (1996) ), այնուհետեւ ընդհանուր սոցիալական հետազոտությունը լավագույն ընտրությունն է: Ընդհանուր առմամբ, ավելի շուտ, քան փորձում են պնդել, որ մեծ տվյալների աղբյուրները ավելի լավն են կամ ավելի վատ, քան մյուս տիպի տվյալները, այս գլուխը կփորձի պարզաբանել, թե ինչպիսի հետազոտական հարցերի վերաբերյալ մեծ տվյալների աղբյուրները ունեն գրավիչ հատկություններ եւ որոնց համար նրանք չեն կարող լինել իդեալական:
Մեծ տվյալների աղբյուրների մասին մտածելով, շատ հետազոտողներ անմիջապես կենտրոնանում են այն ընկերությունների կողմից ստեղծված եւ հավաքած առցանց տվյալների վրա, ինչպիսիք են որոնման տեղեկամատյանները եւ սոցիալական լրատվամիջոցները: Այնուամենայնիվ, այս նեղ ուշադրությունը թողնում է երկու այլ կարեւոր աղբյուրների մեծ տվյալների: Առաջին, ավելի մեծ կորպորատիվ մեծ տվյալների աղբյուրները գալիս են ֆիզիկական աշխարհում թվային սարքերից: Օրինակ, այս գլխում ձեզ կպատմեմ մի ուսումնասիրություն, որը վերանայել է սուպերմարկետների ստուգման տվյալները `ուսումնասիրելու, թե ինչպես է աշխատողի արտադրողականությունը ազդում իր հասակակիցների արտադրողականության վրա (Mas and Moretti 2009) : Այնուհետեւ, հետագա գլուխներում ես ձեզ կպատմեմ այն հետազոտողների մասին, ովքեր զանգեր (Blumenstock, Cadamuro, and On 2015) բջջային հեռախոսներից (Blumenstock, Cadamuro, and On 2015) եւ էլեկտրական կոմունալ ծառայությունների կողմից (Allcott 2015) տվյալների (Allcott 2015) : Քանի որ այս օրինակները ցույց են տալիս, կորպորատիվ մեծ տվյալների աղբյուրները ավելի շատ են, քան պարզապես առցանց վարքագիծը:
Երկրորդ կարեւոր աղբյուրը, որը մեծ ուշադրություն է դարձնում օնլայն վարքագծի վրա, բացակայում է կառավարությունների կողմից ստեղծված տվյալների հիման վրա: Այս կառավարության տվյալները, որոնք հետազոտողները կոչում են կառավարության վարչական հաշվետվություններ , ներառում են այնպիսի բաներ, ինչպիսիք են հարկային հաշվառումները, դպրոցական գրառումները եւ կենսական վիճակագրության գրառումները (օրինակ, ծնունդների գրանցման եւ մահվան դեպքերը): Կառավարությունները ստեղծում են այսպիսի տվյալներ, որոշ դեպքերում, հարյուրամյակներ շարունակ, եւ սոցիալական գիտնականները դրանք շահագործում են գրեթե այնքան ժամանակ, քանի դեռ գոյություն ունեն սոցիալական գիտնականներ: Այն, ինչ փոխվել է, թվայնացումն է, ինչը շատ ավելի հեշտացրեց կառավարություններին, հավաքագրելու, փոխանցելու, պահելու եւ վերլուծելու համար: Օրինակ, այս գլխում ես պատմում եմ Նյու-Յորքի քաղաքապետարանի թվային տաքսի հաշվարկի տվյալների վերարտադրման մասին ուսումնասիրության մասին, որպեսզի աշխատաշուկայում տնտեսության հիմնարար բանավեճը (Farber 2015) : Այնուհետեւ, հետագա գլուխներում ես ձեզ կասեմ, թե ինչպես են հավաքագրված քվեարկության արձանագրությունները օգտագործվել հարցումներում (Ansolabehere and Hersh 2012) եւ փորձարկումով (Bond et al. 2012) :
Ես կարծում եմ, որ repurposing գաղափարը մեծ է տվյալների աղբյուրներից սովորելու համար եւ, նախքան ավելի կոնկրետ խոսել մեծ տվյալների աղբյուրների հատկությունները (բաժին 2.3) եւ ինչպես դրանք կարող են օգտագործվել հետազոտության մեջ (բաժին 2.4), ես կցանկանայի առաջարկելու երկու տեսակ ընդհանուր խորհրդատվություն repurposing մասին: Նախ, այն կարող է գայթակղիչ լինել մտածել այն մասին, որ ես ստեղծել եմ որպես «գտած» տվյալներ եւ «նախագծված» տվյալներ: Դա մոտ է, բայց դա ճիշտ չէ: Թեեւ, հետազոտողների տեսանկյունից, մեծ տվյալների աղբյուրները «հայտնաբերվել են», նրանք ոչ միայն երկնքից են ընկնում: Փոխարենը, հետազոտողների կողմից «հայտնաբերված» տվյալների աղբյուրները նախատեսված են ինչ-որ մեկի համար: Քանի որ «հայտնաբերված» տվյալները մշակված են մեկի կողմից, ես միշտ խորհուրդ եմ տալիս, որ փորձեք հասկանալ որքան հնարավոր է մարդկանց եւ գործընթացների մասին, որոնք ստեղծված են ձեր տվյալները: Երկրորդ, երբ դուք repurposing տվյալները, շատ հաճախ չափազանց օգտակար է պատկերացնել իդեալական տվյալների բազան ձեր խնդրի համար, եւ ապա համեմատել այդ իդեալական տվյալների հավաքածուի հետ, որն օգտագործում եք: Եթե դուք չեք հավաքել ձեր տվյալները, ապա, հավանաբար, կարեւոր տարբերություններ կլինեն ձեր եւ ձեր ունեցածի միջեւ: Նշելով այդ տարբերությունները, կօգնի պարզել, թե ինչ կարող եք եւ չի կարող սովորել ձեր ունեցած տվյալներից եւ կարող է առաջարկել նոր տվյալներ, որոնք դուք պետք է հավաքեք:
Իմ փորձով, սոցիալական գիտնականները եւ տվյալների գիտնականները հակված են տարբեր կերպով վերանայել repurposing: Սոցիալական գիտնականները, որոնք սովոր են ուսումնասիրել հետազոտության համար նախատեսված տվյալների հետ, սովորաբար արագ են մատնանշում վերոհիշյալ տվյալների հետ կապված խնդիրները `անտեսելով իր ուժեղ կողմերը: Մյուս կողմից, տվյալների գիտնականները սովորաբար արագ են մատնանշում վերոհիշյալ տվյալների օգուտները, անտեսելով իր թույլ կողմերը: Բնականաբար, լավագույն մոտեցումը հիբրիդ է: Այսինքն, հետազոտողները պետք է հասկանան մեծ տվյալների աղբյուրների բնութագրերը, ինչպես լավը, այնպես էլ վատը, ապա պարզեն, թե ինչպես պետք է սովորել դրանցից: Եվ սա է սույն գլխի մնացած մասի պլանը: Հաջորդ բաժնում ես նկարագրելու եմ մեծ տվյալների աղբյուրների տասը ընդհանուր առանձնահատկությունները: Այնուհետեւ, հաջորդ բաժնում ես նկարագրելու եմ երեք հետազոտական մոտեցումներ, որոնք կարող են լավ աշխատել նման տվյալների հետ: