Պարզ հաշվարկը կարող է լինել հետաքրքիր է, եթե դուք համատեղել մի լավ հարց է լավ տվյալների:
Չնայած այն բարդ է հնչում լեզվով, շատ սոցիալական հետազոտություններ իրականում պարզապես հաշվում են բաներ: Մեծ տվյալների տարիքում հետազոտողները կարող են ավելի քան երբեւէ հաշվել, բայց դա չի նշանակում, որ նրանք պարզապես պետք է պարզապես հաշվել հաշվի չառնելով: Փոխարենը, հետազոտողները պետք է հարցնեն. «Ինչ արժե հաշվել»: Սա կարող է կարծես թե ամբողջովին սուբյեկտիվ հարց է, բայց կան ընդհանուր որոշումներ:
Հաճախ ուսանողները մղում են իրենց հաշվարկային հետազոտությունները, ասելով. «Ես պատրաստվում եմ հաշվել մի բան, որ ոչ ոք երբեւէ չի հաշվել: Օրինակ, ուսանողը կարող է ասել, որ շատ մարդիկ ուսումնասիրել են միգրանտները եւ շատերը ուսումնասիրել են երկվորյակներ, բայց ոչ ոք չի ուսումնասիրել միգրանտ երկվորյակներ: Իմ փորձով, այս ռազմավարությունը, որը ես կոչում եմ բացակայության պատճառով , չի սովորեցնում լավ հետազոտություն: Մոտիվացիա բացակայության դեպքում նման է, ասելով, որ կա մի փոս է այնտեղ, եւ ես շատ դժվար կաշխատեմ, որպեսզի լրացնեմ այն: Սակայն ոչ բոլոր փոսերը պետք է լցվեն:
Բացակայության պատճառ դառնալը, կարծում եմ, ավելի լավ ռազմավարություն է փնտրում հետազոտության հարցերը, որոնք կարեւոր կամ հետաքրքիր են (կամ իդեալական երկուսն էլ): Այս երկու տերմինները մի քիչ դժվար է սահմանել, սակայն կարեւոր հետազոտության մասին մտածելակերպը այն է, որ այն որոշակի չափելի ազդեցություն ունի կամ կերակրում է քաղաքականության մշակողների կողմից կարեւոր որոշման մեջ: Օրինակ, գործազրկության մակարդակը չափելը կարեւոր է, քանի որ դա տնտեսության ցուցանիշ է, որն առաջնորդում է քաղաքական որոշումները: Ընդհանրապես, ես կարծում եմ, որ հետազոտողները շատ լավ հասկացողություն ունեն, ինչը կարեւոր է: Այսպիսով, մնացած մասում ես պատրաստվում եմ երկու օրինակ տրամադրել, որտեղ կարծում եմ, որ հաշվարկը հետաքրքիր է: Յուրաքանչյուր դեպքում հետազոտողները չհամընկել էին, ավելի շուտ, հաշվի են առնվում շատ կոնկրետ պայմաններում, որոնք բացահայտում են կարեւոր հասկացությունները ավելի ընդհանուր մտքերի մեջ, թե ինչպես են աշխատում սոցիալական համակարգերը: Այսինքն, շատերը, որոնք ստիպում են այս հաշվողական հաշիվները հետաքրքիր իրականացնել, ինքնին չէ, որ այն ավելի շատ ընդհանուր գաղափարներից է գալիս:
Հաշվարկման պարզ ուժերից մեկի օրինակներից է Հենրի Ֆարբերի (2015) Նյու Յորքի տաքսու վարորդների վարքագծի ուսումնասիրությունը: Թեեւ այս խումբը կարող է բնութագրող բնույթ կրել, այն ռազմավարական հետազոտական վայր է, որը փորձարկում է աշխատաշուկայում տնտեսության երկու մրցակցող տեսությունները: Ֆերբերի հետազոտության նպատակներով, տաքսու վարորդների աշխատանքային միջավայրի վերաբերյալ երկու կարեւոր առանձնահատկություններ կան. 1) նրանց ժամյա աշխատավարձը օրեցօր տատանվում է, մասամբ `եղանակի նման գործոնների վրա, եւ 2) աշխատանքը կարող է տատանվել յուրաքանչյուր օրվա հիման վրա: Այս առանձնահատկությունները հանգեցնում են հետաքրքիր հարցի, թե աշխատավարձի եւ ժամ աշխատավարձի հարաբերությունները: Տնտեսագիտության neoclassical մոդելները կանխատեսում են, որ տաքսու վարորդները ավելի շատ աշխատելու են օրերին, երբ նրանք ունեն աշխատավարձի բարձր ժաման: Այլապես, վարքի տնտեսության մոդելները կանխատեսում են հակառակը: Եթե վարորդները որոշակի եկամտի թիրախ են սահմանում, ասում են օրական 100 դոլար, եւ աշխատեն մինչեւ այդ նպատակը, ապա վարորդները կաշխատեն ավելի քիչ ժամ աշխատել, քան նրանք ավելի շատ են վաստակում: Օրինակ, եթե դուք նպատակային աշխատող եք, կարող եք աշխատել չորս ժամ լավ օրվա ընթացքում (ժամը 25 դոլար) եւ վատ ժամին (ժամը 20 դոլար) հինգ ժամ: Այսպիսով, վարորդներն ավելի շատ ժամեր են աշխատում ավելի բարձր ժամային աշխատավարձով (ինչպես կանխատեսվում են նեոկլասիկական մոդելների) կամ ավելի ցերեկային ժամ աշխատավարձի ավելի ցածր (ինչպես կանխատեսված է վարքագծային տնտեսական մոդելների):
Այս հարցին պատասխանելու համար Farber- ը ստացել է տվյալներ 2009-2013թթ. Նյու Յորքի տաքսիների կողմից ստացված յուրաքանչյուր տաքսի ուղեւորության վերաբերյալ, որոնք այժմ հրապարակվում են: Այս տվյալները, որոնք հավաքագրվել են էլեկտրոնային հաշվիչների կողմից, քաղաքը պահանջում է, որ տաքսիները օգտագործեն, ներառեն յուրաքանչյուր ուղեւորության մասին տեղեկություններ `սկիզբը, սկսեք տեղը, ավարտի ժամանակը, ավարտի վայրը, ուղեվարձը եւ հուշումները (եթե հուշագիրը վճարվել է կրեդիտ քարտով) . Օգտագործելով այս տաքսիների հաշվիչը, Ֆարբերը գտնում է, որ վարորդների մեծ մասը աշխատում է ավելի շատ օրեր, երբ աշխատավարձը ավելի բարձր է, հետեւելով նեոկլասիկական տեսությանը:
Բացի այս հիմնական հայտնագործությունից, Ֆարբերը կարողացել է օգտագործել տվյալների մեծությունը միասնաբարության եւ դինամիկայի ավելի լավ հասկանալու համար: Նա պարզեց, որ ժամանակի ընթացքում նոր վարորդները աստիճանաբար սովորում են ավելի բարձր աշխատավարձով ավելի շատ ժամեր աշխատել (օրինակ, սովորեցնում են վարվել որպես neoclassical մոդելը կանխատեսում է): Իսկ նոր վարորդները, ովքեր ավելի շատ են վարվում թիրախ աշխատողների հետ, ավելի հավանական է, հրաժարվեն տաքսու վարորդներից: Թե այդ ավելի նուրբ բացահայտումներից երկուսը, որոնք օգնում են բացատրել ընթացիկ վարորդների դիտարկված վարքագիծը, հնարավոր է միայն տվյալների հավաքածուի չափը: Նրանք անհնարին էին հայտնաբերել ավելի վաղ հետազոտություններում, որոնք կարճ ժամանակահատվածում օգտագործեցին (Camerer et al. 1997) թերթիկները մի քանի տաքսու վարորդներից (Camerer et al. 1997) :
Farber- ի ուսումնասիրությունը մոտ էր մի լավ դեպքերի սցենարին, որն օգտագործվում էր մեծ տվյալների աղբյուրի միջոցով, քանի որ քաղաքի կողմից հավաքված տվյալները բավականին մոտ էին Ֆարբերի հավաքած տվյալների (մի տարբերություն այն է, վարձավճարներ եւ գումարային խորհուրդներ, սակայն քաղաքային տվյալները ընդամենը ընդգրկում էին կրեդիտ քարտով վճարված խորհուրդները): Սակայն տվյալների միայնակ չէր: Ֆերբերի հետազոտության բանալին հետաքրքիր հարց է տալիս տվյալներին, այն հարցին, որն ունի ավելի մեծ հետեւանքներ, ընդամենը այս կոնկրետ միջավայրից դուրս:
Հաշվի առնելով երկրորդ բանը, Գերի Քինգը, Ջենիֆեր Պանն ու Մոլլի Ռոբերթսը (2013) ուսումնասիրում են Չինաստանի կառավարության կողմից առցանց գրաքննությունը: Այս դեպքում, սակայն, հետազոտողները պետք է հավաքեին իրենց մեծ տվյալները եւ ստիպված լինեին զբաղվել այն փաստով, որ իրենց տվյալները թերի էին:
Քինգն ու գործընկերները շարժառիթներով էին, որ Չինաստանում սոցիալական լրատվամիջոցների պաշտոնները գրաքննության են ենթարկվում հսկայական պետական ապարատի միջոցով, որը ենթադրում է տասնյակ հազարավոր մարդկանց: Հետազոտողները եւ քաղաքացիները, սակայն, քիչ պատկերացում ունեն, թե ինչպես են այդ գրչատուները որոշում, թե ինչ բովանդակություն պետք է ջնջվի: Չինաստանի գիտնականները, փաստորեն, ունեն հակասական ակնկալիքներ, որոնց մասին ամենից շատ գրառումներ են հնչում: Ոմանք կարծում են, որ գրաքննիչները կենտրոնանում են այնպիսի պաշտոնների վրա, որոնք քննադատում են պետության, իսկ մյուսները կարծում են, որ կենտրոնանում են այնպիսի պաշտոնների վրա, որոնք խրախուսում են կոլեկտիվ վարքագիծը, ինչպես օրինակ բողոքները: Այս ակնկալիքներից որն է ճիշտ, ինչն է ազդում այն բանի վրա, թե ինչպես են հետազոտողները հասկանում Չինաստանին եւ գրաքննության մեջ ներգրավված մյուս ավտորիտար կառավարություններին: Հետեւաբար, թագավորն ու գործընկերները ցանկանում էին համեմատել այն հրապարակումները, որոնք հրապարակվել էին եւ հետագայում ջնջվել այն գրառումներով, որոնք հրապարակվել էին եւ երբեք չեն ջնջվել:
Հավաքածուներ այդ գրառումները ներգրավված զարմանալի ինժեներական գլուխգործոց crawling ավելի քան 1000 չինական սոցիալական լրատվամիջոցների կայքերը-ական տարբեր էջ դասավորության-գտնելու համապատասխան գրառումները, եւ ապա վերափոխելու այդ գրառումները տեսնել, որոնք հետագայում ջնջվել. Ի լրումն սովորական ճարտարագիտական խնդիրների հետ կապված լայնամասշտաբ վեբ-Crawling, այս նախագիծը ուներ մարտահրավեր, որ պետք է լինի չափազանց արագ, քանի որ շատ censored հաղորդագրություններ են ներքեւ ավելի քիչ, քան 24 ժամվա ընթացքում: Այլ կերպ ասած, դանդաղ ոջիլ որ կարոտում շատ հաղորդագրությունների որոնք գրաքննության են ենթարկվում: Բացի այդ, crawlers ստիպված է անել այս ամենը տվյալների հավաքագրումը, իսկ խուսափելու հայտնաբերման որպէսզի սոցիալական ԶԼՄ - ների կայքերը արգելափակել կամ այլ կերպ փոխել իրենց քաղաքականությունը, ի պատասխան ուսումնասիրության:
Այն ժամանակ, երբ այդ զանգվածային տեխնիկական հանձնարարությունը կատարվել էր, Քինգն ու գործընկերները ձեռք են բերել մոտ 11 մլն պաշտոններ 85 տարբեր ենթատեքստ ունեցող թեմաներով, որոնցից յուրաքանչյուրը ստանձնել է զգայունության մակարդակ: Օրինակ, բարձր զգայունության թեման է դիացի նկարիչ Աի Վեյվեյը, միջին զգայունության թեման է արժեւորումը եւ արժեզրկումը չինական արժույթի, եւ ցածր զգայունության թեմա է աշխարհի գավաթը: Այս 11 մլն պաշտոններից մոտ 2 մլն մարդ գրաքննություն է իրականացրել: Մի փոքր զարմանալիորեն, Քինգը եւ գործընկերները պարզեցին, որ բարձր զգայուն թեմաներով գրառումներն ընդամենը մի քանի անգամ ավելի ցենսրացվել են, քան միջին եւ ցածր զգայունության թեմաներով գրառումներ: Այլ կերպ ասած, չինացի գրաքննիչները մոտենում են այնպիսի գրություն գրելու հավանականությանը, որը նշում է Ai Weiwei- ն որպես պաշտոն, որը նշում է աշխարհի գավաթը: Այս բացահայտումները չեն նպաստում այն գաղափարին, որ կառավարությունը գրավում է բոլոր պաշտոնները զգայուն թեմաներով:
Թեմաների միջոցով գրաքննության այս պարզ հաշվարկը կարող է մոլորության մեջ գցել: Օրինակ, կառավարությունը կարող է գրաքննություն անցկացնել, որոնք աջակցում են Ai Weiwei- ին, բայց թող հեռացնեն այն պաշտոնները, որոնք քննադատում են նրա մասին: Գրառումներից ավելի ուշադիր տարբերելու համար հետազոտողները պետք է չափեն յուրաքանչյուր պաշտոնի զգացմունքները : Ցավոք, չնայած մեծ աշխատանքին, նախընտրական բառարանների օգտագործմամբ զգացմունքների հայտնաբերման լիարժեք ավտոմատացված մեթոդները դեռեւս շատ լավ չեն (կարծում եմ, մինչեւ 2001 թ. Սեպտեմբերի 11-ը, 2.3.9-ում նկարագրված էմոցիոնալ ժամանակացույցի ստեղծման խնդիրները): Հետեւաբար, Քինգն ու գործընկերները պետք է իրենց 11 միլիոն սոցիալական լրատվամիջոցները նշեն, թե արդյոք նրանք (1) քննադատում են պետության, (2) պետության աջակցությունը, կամ (3) իրադարձությունների մասին ոչ պատշաճ կամ փաստական զեկույցները: Այս հնչում նման զանգվածային աշխատանքի, բայց դրանք լուծվում են այն, օգտագործելով հզոր հնարք, որը տարածված է տվյալների գիտության բայց համեմատաբար հազվադեպ հասարակագիտության: վերահսկվում ուսուցումը; տես 2.5-րդ կետը:
Նախ, նախեւառաջ, պրոցեսինգի կոչվող մի քայլի մեջ, հետազոտողները սոցիալական մեդիայի պաշտոնները վերածեցին փաստաթուղթ տերմինի մատրիցի , որտեղ յուրաքանչյուր փաստաթղթի համար մեկ տող կա, եւ մեկ սյունակ, որը արձանագրում էր, թե արդյոք այդ գրառումը պարունակում էր կոնկրետ բառեր (օրինակ, բողոքի կամ երթեւեկության) . Հետագայում մի խումբ հետազոտական օգնականներ ստորագրել են գրառումների նմուշառման զգացողությունը: Այնուհետեւ նրանք օգտագործեցին այս ձեռագրված տվյալները, մեքենա ուսուցման մոդելի ստեղծման համար, որը կարող էր դրսեւորել գրառումների զգացմունքները `հիմնված իր հատկանիշների վրա: Վերջապես, նրանք օգտագործում էին այս մոդելը `գնահատելու բոլոր 11 միլիոն գրառումների զգացումը:
Այսպիսով, ոչ թե ձեռքով կարդալ եւ պիտակավորել 11 միլիոն գրառում, ինչը տրամաբանորեն անհնար կլիներ: Քինգը եւ գործընկերները ձեռքով նշեցին մի շարք փոքրամասնություններ եւ այնուհետեւ կիրառեցին վերահսկվող ուսուցում `գնահատելու բոլոր գրառումների զգացումը: Այս վերլուծությունն ավարտելուց հետո նրանք կարողացան եզրակացնել, որ մի փոքր զարմանալիորեն, ջնջված գրառման հավանականությունը կապ չունի, թե արդյոք այն քննադատում է պետության կամ պետության աջակցությանը:
Ի վերջո, Քինգը եւ գործընկերները հայտնաբերեցին, որ միայն երեք տեսակի գրառումներ պարբերաբար գրաքննության են ենթարկվել. Պոռնոգրաֆիա, գրաքննության քննադատություն եւ հավաքական գործողությունների պոտենցիալ ունեցողներ (այսինքն լայնամասշտաբ բողոքների առաջացման հավանականություն): Դիտելով մեծ թվով հաղորդագրություններ, որոնք ջնջված էին եւ ջնջված գրառումները, Քինգը եւ գործընկերները կարողացան իմանալ, թե ինչպես են աշխատում գրաքննիչները, դիտելով եւ հաշվարկելով: Բացի այդ, նախորդ գիրքը, որը կանդրադառնա այս գիրքը, վերահսկվող ուսուցման մոտեցումը, որը նրանք օգտագործում էին, ձեռք բերելով որոշակի արդյունքներ եւ հետո կառուցելով մեքենաների ուսուցման մոդելը, նշելու համար մնացածը, պարզվում է, որ թվային տարիքում սոցիալական հետազոտության մեջ շատ տարածված է . Դուք կտեսնեք, որ պատկերները շատ նման են 2,5-րդ գլուխների 3-րդ աղյուսակներում (հարցեր) եւ 5-ը (զանգվածային համագործակցության ստեղծում); սա մի քանի գաղափարներից մեկն է, որոնք հայտնվում են բազմաթիվ գլուխներում:
Այս օրինակները, Նյու Յորքի տաքսու վարորդների աշխատանքային վարքը եւ Չինաստանի կառավարության սոցիալական լրատվամիջոցների գրաքննության վարքը, ցույց են տալիս, որ որոշ տվյալների դեպքում համեմատաբար պարզ տվյալների հաշվարկը կարող է հանգեցնել հետաքրքիր եւ կարեւոր հետազոտությունների: Երկու դեպքում էլ հետազոտողները ստիպված էին հետաքրքիր հարցեր բերել մեծ տվյալների աղբյուրին, ինքնությունը ինքնին բավարար չէր: