Կապելով ձեր հետազոտություն է թվային հետքերի կարող է լինել նման խնդրելով բոլորին ձեր հարցերին է բոլոր ժամանակներում:
Խնդրել, ընդհանուր առմամբ, գալիս է երկու հիմնական կատեգորիաների `ընտրանքային հետազոտությունների եւ մարդահամարների: Ընտրանքային հետազոտությունների, որտեղ դուք կարող եք մուտք գործել փոքր թվով մարդիկ, կարող են լինել ճկուն, ժամանակին, եւ համեմատաբար էժան. Սակայն, ընտրանքային հետազոտությունների, քանի որ նրանք են հիմնված է նմուշի համար, հաճախ սահմանափակվում է դրանց լուծման. հետ ընտրանքային հարցման, դա հաճախ դժվար է կատարել գնահատումներ կոնկրետ աշխարհագրական տարածքներում, կամ կոնկրետ ժողովրդագրական խմբերի համար: Մարդահամարների, մյուս կողմից, փորձում է հարցազրույց բոլորին բնակչության. Նրանք ունեն մեծ բանաձեւ, բայց դրանք ընդհանուր առմամբ թանկ է, նեղ ուշադրության կենտրոնում (նրանք միայն ներառում է մի փոքր շարք հարցեր), եւ ոչ թե ժամանակին (դրանք պատահում է սահմանված ժամանակացույցի, ինչպես, օրինակ, յուրաքանչյուր 10 տարի) (Kish 1979) : Հիմա պատկերացրեք, եթե հետազոտողները կարող համատեղել լավագույն հատկանիշները ընտրանքային հետազոտությունների եւ մարդահամարների, պատկերացրեք, եթե հետազոտողները կարող եք խնդրել է ամեն հարց բոլորին ամեն օր.
Ակնհայտ է, որ այս շարունակական, համատարած, միշտ-ին հարցման մի տեսակ սոցիալական գիտությունների ֆանտազիայի. Բայց, պարզվում է, որ մենք կարող ենք սկսել մոտավոր այս համատեղելով հետազոտության հարցերին մի փոքր թվով մարդկանց հետ թվային հետքերով բազմաթիվ մարդկանց: Ես կոչ եմ անում այս տեսակ համակցությամբ amplified հարցնում: Եթե արել է, ապա դա կարող է օգնել մեզ, նախատեսում է նախահաշիվը, որոնք ավելի տեղական (փոքր աշխարհագրական տարածքներում), ավելի հատիկավոր (կոնկրետ ժողովրդագրական խմբերի համար), եւ այլն ժամանակին.
Մեկ օրինակ amplified հարցնելով գալիս է աշխատանքի Ջոշուա Blumenstock, ով ցանկացել է հավաքել տվյալներ, որոնք կօգնեին ուղեցույց զարգացմանը աղքատ երկրներում. Ավելի կոնկրետ, Blumenstock ցանկացել է ստեղծել մի համակարգ է չափել հարստությունը եւ բարեկեցությունը, որը համակցված ամբողջականությունը մի մարդահամարի տվյալներով հետ ճկունություն եւ հաճախականության հարցման (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) : Ի դեպ, ես արդեն նկարագրված Blumenstock աշխատանքը համառոտ գլուխ 1:
Խումբը, Blumenstock համագործակցում խոշորագույն բջջային հեռախոսի մատակարարի Ռուանդայում: Ընկերությունը տրամադրել նրան անանուն գործարքի գրառումները մոտ 1.5 մլն հաճախորդների լուսաբանող վարքագիծը 2005 թ.-ից, եւ 2009 թ. Տեղեկամատյանները պարունակել տեղեկություններ յուրաքանչյուր զանգահարել եւ տեքստային հաղորդագրության, ինչպիսիք են բացելու ժամանակի, տեւողությունը եւ մոտավոր աշխարհագրական դիրքից, որ զանգահարողը եւ ընդունիչ. Մինչ մենք սկսում են խոսել այն մասին, վիճակագրական հարցերի, դա արժե մատնանշելով, որ սա առաջին քայլը կարող է լինել մեկը, որ ամենադժվար. Ինչպես նկարագրված է 2-րդ գլխում, առավել թվային հետքը տվյալները անհասանելի է հետազոտողների համար: Եվ, շատ ընկերություններ են արդարացիորեն տատանվում է կիսել իրենց տվյալները, քանի որ դա մասնավոր, այսինքն, իրենց հաճախորդները, հավանաբար, չէր սպասում, որ իրենց գրառումները կուղարկվեն-սորուն-ի հետ հետազոտողների. Այս դեպքում, հետազոտողները վերցրել զգույշ քայլեր է ձեռնարկել anonymize տվյալները եւ նրանց աշխատանքը կվերահսկվի կողմից երրորդ կողմի (այսինքն, նրանց irb): Սակայն, չնայած այդ ջանքերի, այդ տվյալները, հավանաբար, դեռ ճանաչելի եւ նրանք, ամենայն հավանականությամբ, պարունակում են զգայուն տեղեկատվական (Mayer, Mutchler, and Mitchell 2016; Landau 2016) : Ես կվերադառնամ այդ բարոյական հարցին 6-րդ գլխում.
Հիշեցնենք, որ Blumenstock հետաքրքրում էր չափման հարստություն եւ բարեկեցություն. Բայց, այդ հատկություններ չեն ուղղակիորեն զանգի գրառումների. Այլ կերպ ասած, այդ զանգերի գրառումները թերի են այս հետազոտության, հատկության թվային հետքերով, որը քննարկվում է մանրամասնորեն Գլուխ 2. Սակայն, կարծես հավանական է, որ զանգերի գրառումները, հավանաբար, պետք է որոշակի տեղեկություններ հարստության եւ բարեկեցության: Այնպես որ, մեկ ճանապարհ խնդրելով Blumenstock հարցը կարող է լինել: հնարավոր է կանխատեսել, թե ինչպես ինչ - որ մեկը կարձագանքի հարցման հիման վրա իրենց թվային հետք տվյալները: Եթե այդպես է, ապա խնդրելով մի քանի մարդկանց, մենք կարող ենք գուշակել պատասխանները բոլորի.
Գնահատել այս էմպիրիկ, Blumenstock եւ հետազոտական օգնականները ից Կիգալիի ինստիտուտի գիտության եւ տեխնոլոգիաների կոչվում է նմուշ մոտ հազար բջջային հեռախոսակապի բաժանորդների: Հետազոտողները բացատրեց նպատակները նախագծի մասնակիցներին, խնդրել են իրենց համաձայնությունը կապել հարցման պատասխանները զանգի գրառումների, եւ ապա հարցրեց, թե նրանց մի շարք հարցեր է չափել իրենց հարստությունը եւ բարեկեցությունը, ինչպես օրինակ, «Ինչ եք ունենալ մի ռադիո »եւ« Արդյոք դուք սեփական հեծանիվ »(տես նկարը 3.11 համար մասնակի ցուցակից): Բոլոր մասնակիցները հետազոտության փոխհատուցում ֆինանսապես.
Հաջորդը, Blumenstock օգտագործվում է երկու քայլ կարգը ընդհանուր տվյալների գիտության առանձնահատկությունն ինժեներական հաջորդում են վերստուգվող ուսուցման. Առաջին անգամ է, որ հատկությունը ինժեներական քայլ, բոլորի համար, որ հարցազրույց էր տվել, Blumenstock դարձի է Զանգեր դեպի մի շարք հատկանիշներով յուրաքանչյուր անձի մասին. տվյալների գիտնականները կարող են զանգահարել այդ հատկանիշները »հատկանիշներ» եւ հասարակագետները, որ զանգահարել նրանց «փոփոխականները:« Օրինակ, յուրաքանչյուր անձի համար, Blumenstock հաշվարկվում ընդհանուր թիվը օրերի գործունեության հետ, որ մի շարք առանձին մարդկանց անձը եղել է շփման, որ գումարը փողի վրա ծախսված եթերաժամի, եւ այլն: Քննադատորեն, լավ հատկությունը ինժեներական պահանջում է գիտելիքներ հետազոտական ընդլայնված. Օրինակ, եթե դա կարեւոր է տարբերակել ներքին եւ միջազգային զանգերի (մենք կարող ենք ակնկալել, որ մարդիկ, ովքեր կոչ են անում միջազգայնորեն լինել հարստանում), ապա դա պետք է արվի, որ հատկությունը ինժեներական քայլ: A գիտաշխատող քիչ հասկանալու Ռուանդայում չեն կարող ներառել այս հնարավորությունը, եւ ապա կանխատեսող կատարումը մոդելի կտուժի:
Հաջորդը, վերստուգվող ուսուցման քայլ, Blumenstock կառուցվել է վիճակագրական մոդել են կանխատեսել հետազոտության պատասխանը յուրաքանչյուր անձի հիման վրա իրենց հնարավորությունները. Այս դեպքում, Blumenstock օգտագործվում լոգիստիկ ռեգրեսիան 10 անգամ խաչ վավերացնող, սակայն նա կարող էր օգտագործվել մի շարք այլ վիճակագրական կամ մեքենա ուսուցման մոտեցումների:
Այսպիսով, ինչպես նաեւ Արդյոք դա աշխատում? Եղել Blumenstock ի վիճակի է կանխատեսել պատասխանները հետազոտության հարցերին, ինչպիսիք են «Դուք սեփական ռադիոն» եւ «Ինչ եք սեփական հեծանիվ», օգտագործելով հատկանիշները ստացված զանգի գրառումների. Տեսակ. Ճշգրտությունը կանխատեսումների բարձր էին որոշ հատկություններ (Նկար 3.11): Բայց, դա միշտ էլ կարեւոր է համեմատել համալիր կանխատեսման մեթոդը դեմ պարզ այլընտրանք. Այս դեպքում, մի պարզ այլընտրանք է կանխատեսել, որ բոլորն կտա առավել ընդհանուր պատասխանը: Օրինակ, 97.3% -ը սեփականության ռադիո այնպես որ, եթե Blumenstock կանխատեսել էր, որ բոլորն կզեկուցի սեփականության ռադիո, որ նա ունեցել է ճշգրտությունը 97.3% -ով, ինչը զարմանալիորեն նման է կատարման նրա ավելի բարդ ընթացակարգով (97,6% ճշտությամբ). Այլ կերպ ասած, բոլոր երեվակայություն տվյալները եւ մոդելավորման ավելացրել է ճշգրտությունը կանխատեսման ից 97.3% -ից մինչեւ 97,6%: Սակայն, այլ հարցերի հետ, ինչպիսիք են «Արդյոք Ձեզ պատկանող հեծանիվ», կանխատեսումներն բարելավվել է 54.4% -ից մինչեւ 67.6%: Ընդհանուր առմամբ, Նկար 3.12 ցույց է տալիս որոշ հատկություններ Blumenstock չի բարելավել շատ դուրս պարզապես դարձնելով պարզ բազային կանխատեսումը, սակայն, որ այլ հատկություններ կար որոշակի բարելավում:
Այս պահին դուք կարող է մտածել, որ այդ արդյունքները կարող են մի քիչ հիասթափեցնող է, բայց ընդամենը մեկ տարի անց, Blumenstock եւ երկու գործընկերները `Գաբրիել Cadamuro եւ Ռոբերտ On-հրատարակել մի թուղթ է գիտության էապես ավելի լավ արդյունքներ (Blumenstock, Cadamuro, and On 2015) , Կային երկու հիմնական տեխնիկական պատճառները բարելավման 1) նրանք, որոնք օգտագործվել են ավելի բարդ մեթոդներ (այսինքն, նոր մոտեցում է ցուցադրել տեխնիկական եւ ավելի բարդ մեքենա ուսուցման մոդելը) եւ 2), այլ ոչ թե փորձում է եզրակացնել պատասխանները առանձին հետազոտության հարցերի (օրինակ, «Ինչ եք սեփական ռադիոն»), նրանք փորձել են եզրակացնել մի կոմպոզիտային հարուստ ցուցանիշը:
Blumenstock եւ գործընկերները ցույց տվեց կատարումը իրենց մոտեցման երկու ձեւերով. Նախ, նրանք հայտնաբերել են, որ ժողովրդի համար իրենց ընտրանքում, որ նրանք կարող են անել, բավականին լավ աշխատանք կանխատեսելու իրենց հարստությունը ից զանգի գրառումների (Նկար 3.14): Երկրորդ, եւ շատ ավելի կարեւոր է, Blumenstock եւ գործընկերները ցույց տվեց, որ իրենց կարգը կարող է արտադրել բարձրորակ նախահաշիվները աշխարհագրական բաշխման հարստության Ռուանդայում: Ավելի կոնկրետ, նրանք օգտագործեցին իրենց մեքենայի ուսուցման մոդելը, որն պատրաստված է իրենց նմուշ մոտ 1000 մարդ, կանխատեսել հարստությունը բոլոր 1.5 միլիոն մարդ է զանգի գրառումների. Բացի այդ, ինչպես geospatial տվյալների ներդրված ցպահանջ տվյալները (հիշենք, որ կանչը տվյալները ներառում է գտնվելու վայրը, մոտակա բջջային աշտարակի յուրաքանչյուր զանգի), հետազոտողները կարողացել են գնահատել մոտավոր բնակության յուրաքանչյուր անձի: Դնելով այդ երկու նախահաշիվները միասին, հետազոտական արտադրվել նախահաշիվը աշխարհագրական բաշխման բաժանորդային հարստության չափազանց նուրբ տարածական granularity: Օրինակ, նրանք կարող են գնահատել միջին հարստությունը յուրաքանչյուրը Ռուանդայի ի 2148 բջիջների (ամենափոքր վարչական միավորը երկրի): Այս կանխատեսվող Wealth արժեքները այնքան էին հատիկավոր որ նրանք դժվար է ստուգել. Այնպես որ, հետազոտողները միավորվում իրենց արդյունքները արտադրել նախահաշիվները միջին հարստության Ռուանդայի 30 վարչական շրջաններում: Այս թաղամաս մակարդակի գնահատականները խորապես կապված է հաշվարկների մի ոսկե ստանդարտ ավանդական հարցման, Ռուանդայի Ժողովրդագրության եւ Առողջության հարցերի Հետազոտություն (Գծապատկեր 3.14): Չնայած նրան, որ հաշվարկները եկած երկու աղբյուրներից էին նման, հաշվարկները ից Blumenstock եւ գործընկերների էին մոտ 50 անգամ ավելի էժան է եւ 10 անգամ ավելի արագ, (երբ գինը չափվում է փոփոխական ծախսերը): Այս դրամատիկ նվազում արժեքի նշանակում է, որ ավելի շուտ, քան վարում մի քանի տարին, քանի ստանդարտ ժողովրդագրական եւ առողջության հարցերի հետազոտությունները-հիբրիդ փոքր հարցման զուգորդվում մեծ թվային հետք տվյալները կարող են առաջադրվել ամեն ամիս:
Եզրափակելով, Blumenstock ի amplified խնդրելով մոտեցումը զուգորդվում հարցման տվյալների թվային հետք տվյալները արտադրել նախահաշիվները համեմատելի ոսկու ստանդարտ հետազոտության գնահատականների: Սա մասնավորապես օրինակը նաեւ հստակեցվում որոշ առեւտրային խաղարկությանը միջեւ amplified խնդրելով եւ ավանդական հետազոտության մեթոդների. Նախ, amplified խնդրելով գնահատումները էին ավելի ճիշտ ժամանակին, էապես ավելի էժան, եւ ավելի հատիկավոր. Բայց, մյուս կողմից, այս պահին, չկա ուժեղ տեսական հիմքը այս տեսակի աճին հարցնելու. Այսինքն, այս մեկը օրինակը ցույց չի, երբ այն կարող է աշխատել, եւ երբ այն չի. Բացի այդ, amplified, խնդրելով մոտեցումը դեռեւս չունի լավ ուղիներ քանակական անորոշությունը շուրջ իր գնահատականներով: Սակայն, amplified խնդրելով ունի խոր կապեր երեք խոշոր տարածքների վիճակագրություն մակնիշի վրա հիմնված շերտավորում (Little 1993) , Ստվեր (Rubin 2004) , եւ փոքր տարածք գնահատման (Rao and Molina 2015) -եւ, այնպես որ ես ակնկալում եմ, որ առաջընթացը լինի արագ.
Amplified խնդրելով հետեւում է հիմնական բաղադրատոմսը, որը կարող է հարմարեցված է ձեր կոնկրետ իրավիճակում. Կան երկու բաղադրիչները եւ երկու քայլերը: Այս երկու բաղադրիչները են 1) թվային հետք dataset է, որ լայն, բայց բարակ (այսինքն, այն ունի շատ մարդկանց, բայց ոչ այն տեղեկությունները, որ դուք պետք միմյանց մասին անձանց) եւ 2), մի հետազոտություն, որը նեղ բայց հաստ (այսինքն, այն ունի ընդամենը մի քանի մարդ է, բայց այն ունի այն տեղեկությունները, որ դուք պետք է այդ մարդկանց մասին): Այնուհետեւ, կան երկու քայլերը. Նախ, այն մարդկանց համար, երկու տվյալների աղբյուրների, կառուցել մի մեքենա ուսուցման մոդել, որը օգտագործում է թվային հետք տվյալներ է կանխատեսել հետազոտության պատասխանները: Հաջորդը, օգտագործել այդ մեքենան ուսուցման մոդելը սեպեր հետազոտության պատասխանները բոլորի թվային հետքի տվյալները. Այսպիսով, եթե կա մի հարց, որ դուք ուզում եք հարցնել է բազմաթիվ մարդկանց, նայեք համար թվային հետք տվյալների այդ մարդկանց, որոնք կարող են օգտագործվել է կանխատեսել իրենց պատասխանը:
Համեմատելով Blumenstock առաջին եւ երկրորդ փորձը խնդրի նաեւ ցույց է տալիս, որ կարեւոր դաս մասին անցումը երկրորդ դարաշրջանի երրորդ ժամանակաշրջանի մոտեցումների հետազոտության հետազոտություն: սկիզբը վերջը չէ: Այսինքն, շատ անգամ, առաջին մոտեցումը չի լինի լավագույնը, բայց եթե հետազոտողները շարունակելով աշխատել, ամեն ինչ կարող է ստանալ ավելի լավ. Ընդհանուր առմամբ, երբ գնահատելու նոր մոտեցումներ սոցիալական հետազոտությունների թվային դարաշրջանում, դա կարեւոր է, որպեսզի երկու հստակ գնահատականներ `1) Որքանով է այս գործը այժմ եւ 2), ինչպես նաեւ կարող եք մտածել, որ դա կարող է աշխատել նաեւ ապագայում, քանի որ տվյալների լանդշաֆտի փոփոխություններ եւ քանի որ հետազոտողների նվիրել ավելի շատ ուշադրություն դարձնել խնդրին: Չնայած, հետազոտողները, որոնք վերապատրաստվել են կատարել առաջին տեսակի գնահատման (թե որքան լավ է, հատկապես այս կտոր հետազոտությունների), երկրորդը շատ հաճախ ավելի կարեւոր է: