Անկախ նրանից, թե որքան մեծ է ձեր մեծ տվյալները, դա հավանաբար չունի տեղեկատվություն:
Մեծ թվով տվյալների աղբյուրները թերի են , այն իմաստով, որ նրանք չունեն այն տեղեկությունները, որոնք դուք կցանկանայիք ձեր հետազոտության համար: Սա տվյալների ընդհանուր առանձնահատկությունն է, որը ստեղծվել է այլ հետազոտությունների համար: Շատ սոցիալական գիտնականներ արդեն ունեցել են անհամապատասխանության փորձ, օրինակ, գոյություն ունեցող հետազոտություն, որը չի պահանջել այն հարցին, որն անհրաժեշտ էր: Ցավոք, անհամապատասխանության խնդիրները մեծ տվյալների մեջ ավելի ծայրահեղ են: Իմ փորձով, մեծ տվյալները ձգտում են բացակայել երեք տեսակի տեղեկատվության համար, որոնք օգտակար են սոցիալական հետազոտության համար. Մասնակիցների մասին ժողովրդագրական տեղեկատվություն, այլ հարթություններում վարքագիծ եւ տեսական կառուցվածքների գործարկման տվյալները:
Թերի տեսանկյունից երեք տեսակի անբավարարության խնդիրը թերի կառուցվածքների գործարկման համար ամենադժվարն է: Եվ իմ փորձով դա հաճախ պատահաբար անտեսվում է: Դժվար է տեսական կառուցվածքները վերացական գաղափարներ են, որոնք սոցիալական գիտնականները ուսումնասիրում եւ գործադրում են տեսական կառուցվածքը `առաջարկելով որոշակի ձեւով գրել այդ կառուցվածքը: Ցավոք, այս պարզ հնչյունային գործընթացը հաճախ դժվար է դառնում: Օրինակ, եկեք պատկերացնենք, թե փորձելով փորձարկել է ակնհայտ պարզ պնդումը, որ ավելի խելացի մարդիկ ավելի շատ փող են վաստակում: Այս պահանջը փորձելու համար անհրաժեշտ է չափել «հետախուզական»: Բայց ինչ է հետախուզական: Gardner (2011) փաստել է, որ կան իրականում ութ տարբեր ձեւեր հետախուզական. Եվ կան այնպիսի ընթացակարգեր, որոնք կարող են ճշգրիտ չափել հետախուզության այս ձեւերից որեւէ մեկը: Չնայած հոգեբանների աշխատանքի հսկայական գումարներին, այս հարցերը դեռեւս չունեն միանշանակ պատասխաններ:
Այսպիսով, նույնիսկ համեմատաբար պարզ պահանջը, ավելի խելացի մարդիկ, ավելի շատ փող են վաստակում, դժվար է գնահատել empirically, քանի որ դա կարող է դժվար լինել գործնականում կիրառելի տեսական կառուցվածքների վերաբերյալ: Տեսական կառուցվածքների այլ օրինակներ, որոնք կարեւոր են, բայց գործելու համար դժվար է ներառում «նորմեր», «սոցիալական կապիտալ» եւ «ժողովրդավարություն»: Սոցիալական գիտնականները կոչ են անում խաղը կազմակերպել տեսական կառուցվածքների եւ տվյալների կառուցվածքի վավերականության միջեւ (Cronbach and Meehl 1955) : Քանի որ կառուցվածքների այս կարճ ցանկը ենթադրում է, կառուցողականությունը կառուցելն այն խնդիրն է, որ սոցիալական գիտնականները պայքարում են շատ երկար ժամանակով: Սակայն իմ փորձով, կառուցողականության հիմնախնդիրները ավելի մեծ են, երբ այն աշխատում է հետազոտության նպատակների համար ստեղծվելիք տվյալների հետ (Lazer 2015) :
Երբ դուք գնահատում եք հետազոտության արդյունքը, կառուցվածքի վավերականության գնահատման արագ եւ օգտակար եղանակն այն է, որ ստացվի արդյունքը, որը սովորաբար արտահայտվում է կառուցվածքների առումով եւ կրկին արտահայտում այն օգտագործվող տվյալների առումով: Օրինակ, հաշվի առեք երկու հիպոթետիկ ուսումնասիրություններ, որոնք պնդում են, որ ավելի խելացի մարդիկ ավելի շատ փող են վաստակում: Առաջին ուսումնասիրության մեջ հետազոտողը պարզել է, որ մարդիկ, ովքեր լավ գնահատական են տալիս Raven Progressive Matrices Test- ում, վերլուծական հետախուզության լավ ուսումնասիրված փորձը (Carpenter, Just, and Shell 1990) ավելի բարձր եկամուտներ են ունեցել իրենց հարկային եկամուտների վերաբերյալ: Երկրորդ հետազոտության մեջ հետազոտողը պարզել է, որ Twitter- ում մարդիկ, ովքեր ավելի երկար բառեր են օգտագործում, ավելի շուտ նշում են շքեղ ապրանքանիշերը: Երկու դեպքում էլ այս հետազոտողները կարող էին պնդել, որ նրանք ցույց են տվել, որ ավելի խելացի մարդիկ ավելի շատ գումար են վաստակում: Այնուամենայնիվ, առաջին ուսումնասիրության ընթացքում տեսական կառուցվածքները լավ գործարկվում են տվյալներով, իսկ երկրորդում դրանք չեն: Բացի այդ, քանի որ այս օրինակը ցույց է տալիս, ավելի շատ տվյալներ ինքնաբերաբար չեն լուծում շինարարության վավերականության խնդիրները: Դուք պետք է կասկածի ենթարկեք երկրորդ ուսումնասիրության արդյունքները, արդյոք այն ներգրավված է մեկ միլիոն թվիթերի, մեկ միլիարդ թվիթների կամ տրիլիոն թվիթերի վրա: Ստեղծված վավերականության կառուցվածքի գաղափարը չգտնվող հետազոտողների համար 2.2 աղյուսակն ապահովում է մի շարք օրինակներ, որոնք գործել են տեսական կառուցվածքները, օգտագործելով թվային հետագծային տվյալներ:
Տվյալների աղբյուր | Տեսական կառուցվածքը | Հղումներ |
---|---|---|
Էլեկտրոնային նամակագրություններ համալսարանում (միայն meta-data) | Սոցիալական հարաբերություններ | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Սոցիալական լրատվամիջոցները Weibo- ում | Քաղաքացիական ներգրավվածություն | Zhang (2016) |
Էլեկտրոնային նամակագրություններ ֆիրմայից (meta-data եւ ամբողջական տեքստ) | Մշակութային տեղավորում կազմակերպությունում | Srivastava et al. (2017) |
Չնայած տեսական կառուցվածքները գրավելու համար անհամապատասխանության խնդիրը բավականին դժվար է լուծել, ընդհանուր եզրեր են լուծված անհամապատասխանության մյուս ընդհանուր տեսակների համար `ոչ լիարժեք ժողովրդագրական տեղեկատվություն եւ այլ պլատֆորմների վարքագծի վերաբերյալ լրիվ տեղեկատվություն: Առաջին լուծումը, ըստ էության, հավաքեք ձեր անհրաժեշտ տվյալները. Ես ձեզ կասեմ, որ 3-րդ գլխում ես պատմում եմ ձեզ հարցումների մասին: Երկրորդ հիմնական լուծումն այն է, որ գիտնականները կոչում են օգտագործողի հատկանիշի իջեցում եւ սոցիալական գիտնականներն անվանում են դավադրություն : Այս մոտեցմամբ, հետազոտողները օգտագործում են այնպիսի տեղեկություններ, որոնք նրանք ունեն որոշ մարդկանց, այլ մարդկանց հատկանիշները ներդնելու համար: Երրորդ հնարավոր լուծումը մի քանի տվյալների աղբյուրների համատեղումն է: Այս գործընթացը երբեմն կոչվում է ռեկորդային կապ : Այս գործընթացի իմ սիրած փոխաբերությունը գրվել է Dunn (1946) առաջին գրառման առաջին պարբերությունում, երբեւէ գրել է ռեկորդային հղումը.
«Աշխարհի յուրաքանչյուր մարդ ստեղծում է կյանքի գիրք: Այս գիրքը սկսվում է ծննդյան եւ ավարտվում է մահվան: Նրա էջերը կազմված են կյանքի հիմնական իրադարձությունների գրառումներից: Ձայնագրությունը կապվում է այս գիրքը էջերի հավաքագրման գործընթացին տրված անունին »:
Երբ Դանն այդ հատվածը գրեց, նա պատկերացնում էր, որ «Կյանքի գիրքը» կարող է ներառել ծննդյան, ամուսնության, ամուսնալուծության եւ մահվան մասին խոշոր կյանքի իրադարձություններ: Այնուամենայնիվ, այժմ այն, որ մարդկանց մասին շատ տեղեկություններ են արձանագրվում, «Կյանքի գիրքը» կարող է աներեւակայելի մանրամասն դիմանկար լինել, եթե այդ տարբեր էջերը (այսինքն, մեր թվային հետքերը) կարող են միմյանց հետ կապվել: Կյանքի այս գիրքը կարող է լինել մեծ ռեսուրս հետազոտողների համար: Բայց դա կարող էր նաեւ կոչվել (Ohm 2010) տվյալների բազա (Ohm 2010) , որը կարող էր օգտագործվել բոլոր այնպիսի անբարեխիղճ նպատակների համար, ինչպես ես նկարագրեցի 6-րդ գլխում (Էթիկա):