Անկախ նրանից, թե ինչպես է «մեծ» ձեր «մեծ տվյալների,« դա, հավանաբար, չի ունենա տվյալներն ուզում եք.
Շատ մեծ տվյալների աղբյուրները թերի են, այն իմաստով, որ նրանք չեն ունենա այն տեղեկությունները, որ դուք ուզում եք Ձեր հետազոտության. Սա ընդհանուր առանձնահատկությունն տվյալների, որոնք ստեղծվել են այլ նպատակներով, քան հետազոտության. Շատ հասարակագետները արդեն ունեցել փորձ զբաղվում է լրիվ, օրինակ, որպես գոյություն ունեցող հարցման, որը չի խնդրել հարցին դուք ուզում. Ցավոք, խնդիրները թերի հակված են լինել ավելի ծայրահեղ է մեծ տվյալների. Իմ փորձից, մեծ տվյալները հակված է անհետ կորած երեք տեսակի տեղեկատվության օգտակար է սոցիալական հետազոտություններ ժողովրդագրություն, վարքագիծ այլ հարթակներում, եւ տվյալները գործնականացնում տեսական կառուցակարգերը:
Երեքն այդ ձեւերի թերի են պատկերազարդ է ուսումնասիրության Gueorgi Kossinets եւ Duncan Watts (2006) Մասին էվոլյուցիայի սոցիալական ցանցի մի համալսարանում: Kossinets եւ Watts սկսվեց էլեկտրոնային գերանների համալսարանի, որոնք ունեցել ճշգրիտ տեղեկատվություն մասին, թե ով ուղարկեց նամակներ, որոնց թե ժամը (հետազոտողները չուներ մուտք դեպի բովանդակության նամակներով): Այս էլփոստի գրառումները հնչի նման զարմանալի dataset, սակայն, որ նրանք, չնայած իրենց մեծությամբ ու հատավորում-հիմնովին թերի. Օրինակ, էլփոստով տեղեկամատյանները չեն ներառում տվյալներ ժողովրդագրական բնութագրերի ուսանողների, ինչպիսիք են սեռից ու տարիքից: Բացի այդ, էլփոստով տեղեկամատյանները չեն ներառում է տեղեկատվություն մասին հաղորդակցության միջոցով այլ ԶԼՄ - ների, ինչպիսիք են հեռախոսազանգերի, տեքստային հաղորդագրության կամ դեմքը- to-face խոսակցությունների. Ի վերջո, էլփոստով տեղեկամատյանները ուղղակիորեն չեն ներառում է տեղեկատվություն մասին փոխհարաբերություններին, տեսական կառուցում շատ առկա տեսությունների. Ավելի ուշ գլխում, երբ ես խոսում եմ հետազոտական ռազմավարությունների, դուք պետք է տեսնել, թե ինչպես Kossinets եւ Watts լուծվել այդ խնդիրները:
Երեք տեսակի անլիարժեք գոյությանը, խնդիրը թերի տվյալների գործնականացնում տեսական կառուցակարգերը է ամենադժվար է լուծել, եւ իմ փորձից, այն հաճախ պատահաբար անտեսվել են տվյալների գիտնականների: Կոպիտ, տեսական կառուցում են վերացական գաղափարներ, որոնք հասարակագետները ուսումնասիրում, բայց, ցավոք սրտի, այդ կառույցները ոչ միշտ է միանշանակ սահմանվում եւ չափվում: Օրինակ, եկեք պատկերացնենք, փորձում է էմպիրիկ փորձարկել, ըստ երեւույթին, պարզ պնդում են, որ այն մարդիկ, ովքեր ավելի խելացի վաստակել ավելի շատ գումար. Որպեսզի փորձարկել այս պնդումը դուք, որ անհրաժեշտ է չափել «հետախուզական»: Բայց, ինչ է հետախուզական. Օրինակ, Gardner (2011) պնդում է, որ կան իրականում ութ տարբեր ձեւերի հետախուզության. Եվ, կան ընթացակարգեր, որոնք կարող ճշգրտորեն չափել որեւէ մեկը այդ ձեւերի հետախուզության. Չնայած հսկայական գումարների աշխատանքի հոգեբանների, այդ հարցերը դեռ չունեք երկիմաստ պատասխաններ: Այսպիսով, նույնիսկ համեմատաբար պարզ պահանջը մարդիկ, ովքեր ավելի խելացի ավելի շատ գումար վաստակել, կարող է դժվար է գնահատել էմպիրիկ, քանի որ դա կարող է լինել բարդ է գործնականացնում տեսական կառուցակարգերը տվյալները: Այլ օրինակներ տեսական, որոնք կարեւոր է, բայց դժվար է գործնականացնում ներառել «նորմեր», «սոցիալական կապիտալ» եւ «ժողովրդավարություն» Սոցիոլոգները զանգահարել հանդիպումը տեսական կառույցների եւ տվյալների կառուցել վավերականության (Cronbach and Meehl 1955) : Եվ, քանի որ այս ցանկը կառույցների հուշում է, կառուցել վավերականության մի խնդիր է, որ հասարակագետները պայքարել համար շատ երկար ժամանակ, նույնիսկ այն ժամանակ, երբ նրանք աշխատում էին տվյալներով, որը հավաքված նպատակով հետազոտությունների: Երբ աշխատում տվյալները հավաքագրված այլ նպատակներով, քան հետազոտության խնդիրները կառուցել վավերականության են ավելի դժվար (Lazer 2015) :
Երբ դուք կարդում է հետազոտական թուղթ, մեկ արագ եւ օգտակար միջոց է գնահատել մտահոգությունները Կառուցել վավերականության է վերցնել հիմնական պահանջը թղթի վրա, որը սովորաբար արտահայտվում առումով կառույցների, եւ կրկին արտահայտել այն առումով օգտագործվող տվյալների: Օրինակ, համարում երկու հիպոթետիկ ուսումնասիրություններ, որոնք պնդում են, ցույց են տալիս, որ ավելի խելացի մարդիկ ավելի շատ գումար վաստակել:
Երկու դեպքում էլ, հետազոտողները կարող պնդել, որ նրանք ցույց են տվել, որ ավելի խելացի մարդիկ ավելի շատ գումար վաստակել: Սակայն, առաջին ուսումնասիրության տեսական կառուցում են նաեւ գործարկվել են տվյալները, եւ երկրորդ, նրանք չեն. Բացի այդ, քանի որ այս օրինակը ցույց է տալիս, ավելի շատ տվյալներ, ինքնին չի լուծել խնդիր Construct ժամկետով: Դուք չպետք է կասկածի արդյունքները ուսումնասիրության 2-արդյոք դա ներգրավված միլիոն թվիթ, մի միլիարդ Թվիթեր, կամ տրիլիոն Թվիթեր. Հետազոտողների համար ծանոթ չեն գաղափարի կառուցել վավերականության, Աղյուսակ 2.2 տրամադրում որոշ օրինակներ ուսումնասիրությունների, որոնք գործարկվել տեսական կառուցակարգերը, օգտագործելով թվային հետք տվյալները:
Թվային հետքը | տեսական | հիշատակություն |
---|---|---|
էլփոստով տեղեկամատյանները համալսարանում (Meta տվյալները միայն) | սոցիալական հարաբերությունները | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
սոցիալական ԶԼՄ - ների հաղորդագրություններ on Weibo | քաղաքացիական ներգրավվածությունը | Zhang (2016) |
էլփոստով տեղեկամատյանները մի ֆիրմայի (Meta տվյալների եւ ամբողջական տեքստային) | Մշակութային տեղավորվում է կազմակերպությունում | Goldberg et al. (2015) |
Չնայած նրան, որ խնդիրը թերի տվյալների գործարկման տեսական բավականին դժվար է լուծել, կան երեք ընդհանուր լուծումներ խնդրին թերի ժողովրդագրական տեղեկատվության եւ թերի տեղեկատվություն վերաբերյալ վարքագծի այլ հարթակներում: Առաջինն այն է, ըստ էության, հավաքել տվյալներ, դուք պետք է. Ես կասեմ ձեզ մոտ մեկ օրինակ, որ 3-րդ գլխում, երբ ես ասում եմ ձեզ մոտ հարցումների: Ցավոք սրտի, նման տվյալների հավաքագրման միշտ չէ, որ հնարավոր է: Երկրորդ հիմնական լուծումը այն է, թե ինչ տվյալների գիտնականները կոչ են անում օգտագործողի հատկանիշի հետեվություն եւ ինչ հասարակագետները զանգահարել ստվեր: Այս մոտեցումը, հետազոտողները օգտագործել այն տեղեկությունները, որ նրանք ունեն որոշ մարդիկ պետք է եզրակացնել հատկանիշներ այլ մարդկանց: Երրորդ հնարավոր լուծումը, այն մեկը, որն օգտագործվում է Kossinets եւ Watts-էր համատեղել մի քանի տվյալների աղբյուրները: Այս գործընթացը երբեմն կոչվում է միավորման կամ ռեկորդային կապը: Իմ սիրած փոխաբերություն համար այս գործընթացի առաջարկվել է հենց առաջին պարբերության հենց առաջին թղթի երբեւէ գրված է ռեկորդային Կարման (Dunn 1946) :
«Յուրաքանչյուր մարդ է աշխարհում ստեղծում է կեանքի գրքում. Այս գիրքը սկսվում է ծննդյան եւ ավարտվում մահով: Դրա էջերը կազմված են գրառումների սկզբունքի իրադարձությունների կյանքում. Ձայնագրեք կապը այն անունը, տրվում է գործընթացում հավաքման էջերը այս գրքի մեջ ծավալով »:
Այս հատվածը գրվել է 1946 թ., Եւ այդ ժամանակ, մարդիկ մտածում էին, որ կեանքի գիրքին կարող է ներառել Կյանքի գլխավոր իրադարձություններից, ինչպիսիք ծննդյան, ամուսնության, ամուսնալուծության եւ մահվան: Սակայն, հիմա, որ այդքան շատ տեղեկատվություն այն մարդկանց մասին է, արձանագրվել է, որ գրքի Կյանքի կարող է լինել աներեւակայելի մանրամասն դիմանկարը, եթե այդ տարբեր էջերը (այսինքն, մեր թվային հետքեր), կարող է կապված լինել միասին: Այս գիրքը Կյանքի կարող է լինել մի մեծ ռեսուրս հետազոտողների. Սակայն, Գիրք Կյանքի կարող է նաեւ կոչվում է տվյալների բազա կործանում (Ohm 2010) , որը կարող է օգտագործվել բոլոր տեսակի unethical նպատակներով, ինչպես նկարագրված է ավելի ցածր է, երբ ես խոսում եմ այն մասին, որ զգայուն տեղեկատվության կողմից հավաքված մեծ տվյալների աղբյուրների ստորեւ եւ 6-րդ գլխում (էթիկայի).