հետագա մեկնաբանություն

Այս բաժինը նախատեսված է օգտագործվել որպես հղում, այլ ոչ թե պետք է կարդալ որպես պատմածից:

  • Ներածություն (Բաժին 2.1)

Մի տեսակ նկատելով, որ ընդգրկված չէ սույն գլխի ազգագրություն: For ավելի ազգագրության թվային տարածքների տեսնել, Boellstorff et al. (2012) , եւ ավելի շատ ազգագրության խառը թվային եւ ֆիզիկական տարածքների տեսնել, Lane (2016) :

  • Մեծ տվյալները (Բաժին 2.2)

Երբ դուք repurposing տվյալների, կան երկու հոգեկան հնարքներ, որոնք կարող են օգնել ձեզ հասկանալ, թե հնարավոր խնդիրները, որոնք դուք կարող եք հանդիպել: Նախ, դուք կարող եք փորձել է պատկերացնել, թե իդեալական dataset Ձեր խնդրին, եւ համեմատել այն է, dataset որ դուք օգտագործում. Ինչպես են նրանք նման են, եւ թե ինչպես են նրանք տարբերվում. Եթե ​​դուք չեք հավաքել ձեր տվյալները ինքներդ, կան հավանական է, որ տարբերությունը, թե ինչ եք ուզում, եւ այն, ինչ դուք պետք է. Սակայն, դուք պետք է որոշեք, թե եթե այդ տարբերություններն են, անչափահասի կամ խոշոր:

Երկրորդ, հիշում է, որ ինչ-որ մեկը ստեղծվել է եւ հավաքագրվել Ձեր տվյալները չգիտես ինչու: Դուք պետք է փորձեք հասկանալ նրանց դատողությունները. Այս տեսակ հակադարձ-ինժեներական կարող է օգնել ձեզ բացահայտել հնարավոր խնդիրները եւ շեղումներ Ձեր repurposed տվյալները.

Կա ոչ մի կոնսենսուս սահմանումը "մեծ տվյալների», բայց բազմաթիվ սահմանումներ, կարծես կենտրոնանալ 3 Vs: ծավալը, էստրադային, եւ արագություն (օրինակ, Japec et al. (2015) ): Ավելի շուտ, քան կենտրոնանալով հատկանիշներով տվյալների, իմ սահմանումը կենտրոնանում ավելի է, թե ինչու տվյալները ստեղծվել.

Իմ ընդգրկումը կառավարության վարչական տվյալների ներսում կատեգորիայի մեծ տվյալների, մի քիչ անսովոր: Մյուսները, ովքեր պատրաստվում են այս դեպքում, ներառում է Legewie (2015) , Connelly et al. (2016) , Եւ Einav and Levin (2014) : Համար ավելի մոտ արժեքի կառավարության վարչական տվյալների հետազոտության, տես Card et al. (2010) , Taskforce (2012) , եւ Grusky, Smeeding, and Snipp (2015) :

Համար տեսակետից վարչական հետազոտությունների իշխանության ներսում վիճակագրական համակարգի, մասնավորապես, ԱՄՆ-ի մարդահամարի բյուրոյի կողմից, տես Jarmin and O'Hara (2016) : Համար գրքույկ երկարությունը բուժման վարչական գրառումների հետազոտությունների Շվեդիայի վիճակագրական, տես Wallgren and Wallgren (2007) :

Ի գլխում, ես համառոտ համեմատ ավանդական հարցում, ինչպիսիք են ընդհանուր սոցիալական հետազոտության (GSS) մինչեւ սոցիալական լրատվամիջոցների տվյալների աղբյուր, ինչպիսիք են Twitter- ում: Համար մանրակրկիտ եւ զգույշ Համեմատության միջեւ ավանդական հարցումների եւ սոցիալական ԶԼՄ - ների տվյալների, տես Schober et al. (2016) :

  • Ընդհանուր բնութագիրը մեծ տվյալների (Բաժին 2.3)

Այս 10 բնութագրերը մեծ տվյալների արդեն նկարագրված է մի շարք տարբեր ձեւերով է մի շարք տարբեր հեղինակների. Գրելու, որ ազդել իմ մտածելակերպը այդ հարցերի ներառում: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , Եւ Goldstone and Lupyan (2016) :

Ողջ այս գլխի, ես օգտագործեց թվային հետքերը, ինչը, կարծում եմ, համեմատաբար չեզոք է. Մեկ այլ հայտնի է ժամկետ թվային հետքերով է թվային footprints (Golder and Macy 2014) , սակայն, ինչպես Hal Abelson, Քեն Ledeen, եւ Հարրի Լյուիսի (2008) նշում են, ավելի տեղին տերմին է, թերեւս, թվային մատնահետքերը: Երբ եք ստեղծել footprints, դուք տեղյակ են, թե ինչ է կատարվում, եւ ձեր footprints չի կարող ընդհանուր առմամբ նկատելի է ձեզ համար, անձամբ: Նույնը ճիշտ չէ, ձեր թվային հետքերով. Ի դեպ, դուք թողնելով հետքեր ամբողջ ժամանակ, որի մասին դուք շատ քիչ գիտելիքներ: Եվ, չնայած այդ հետքեր չեն ունենա ձեր անունը նրանց վրա, նրանք հաճախ կարող է կապված լինել ետ ձեզ. Այլ կերպ ասած, նրանք ավելի նման մատնահետքերը: անտեսանելի եւ անձամբ բացահայտման.

Մեծ

Համար ավելի է, թե ինչու խոշոր հավաքածուների, ցուցաբերել վիճակագրական թեստեր խնդրահարույց, տես Lin, Lucas, and Shmueli (2013) եւ McFarland and McFarland (2015) : Այս հարցերը պետք է հանգեցնի հետազոտողներին կենտրոնանալ գործնական նշանակություն, այլ ոչ թե վիճակագրական նշանակության:

Միշտ-ին

Երբ համարելով, մշտապես տվյալների, դա կարեւոր է հաշվի առնել, թե արդյոք դուք են համեմատելով ճշգրիտ նույն մարդիկ են ժամանակին, կամ թե արդյոք դուք են համեմատելով որոշակի փոխվում խումբ մարդկանց: տես, օրինակ, Diaz et al. (2016) :

Ոչ ռեակտիվ

Դասական գիրք ոչ ռեակտիվ միջոցառումների Webb et al. (1966) : Օրինակները է գրքի նախնական ամսաթվի թվային դարաշրջանում, բայց նրանք շարունակում են illuminating: For մարդկանց օրինակներ, փոխել են իրենց վարքագիծը, քանի որ ներկայության զանգվածային հսկողության, տես Penney (2016) Եւ Brayne (2014) :

թերի

Համար ավելի ռեկորդային Կարման, տես Dunn (1946) եւ Fellegi and Sunter (1969) (պատմական) եւ Larsen and Winkler (2014) (ժամանակակից): Նմանատիպ մոտեցել են նաեւ մշակվել է համակարգչային գիտության տակ անուններով, ինչպիսիք են տվյալների deduplication, ատյանի նույնականացման, անունը համընկնմամբ, կրկնակի հայտնաբերման, եւ կրկնօրինակ ռեկորդային հայտնաբերման (Elmagarmid, Ipeirotis, and Verykios 2007) : Կան նաեւ Գաղտնիության պահպանման մոտեցումներ է արձանագրել կապ որոնք չեն պահանջում փոխանցումը անձամբ բացահայտման տեղեկատվություն (Schnell 2013) : Facebook նաեւ մշակել է անցնել կապել իրենց գրառումները քվեարկության վարքագծի. դա արվել է գնահատել մի փորձարկմամբ, որ ես կասեմ քեզ մոտ 4-րդ գլխում (Bond et al. 2012; Jones et al. 2013) :

Համար ավելի Կառուցել վավերականության, տես Shadish, Cook, and Campbell (2001) , Գլուխ 3:

անհասանելի

Համար ավելի է AOL որոնման տեղեկամատյանի debacle, տես Ohm (2010) : Ես առաջարկում եմ խորհուրդ գործակցիլ ընկերությունների եւ կառավարությունների գլխի 4 Երբ ես նկարագրել, փորձարկումներ: Մի շարք հեղինակների են հայտնել մտահոգություններ հետազոտության, որ հենվում է անհասանելի տվյալների, տես Huberman (2012) եւ boyd and Crawford (2012) :

Մի լավ միջոց է համալսարանի հետազոտողները ձեռք բերել տվյալների հասանելիությունը է աշխատել մի ընկերության, որպես պրակտիկանտ կամ հայտնվելու գիտաշխատող: Ի լրումն հնարավորություն է տալիս տվյալների հասանելիության, այս գործընթացը կօգնի նաեւ հետազոտողը ավելին իմանալ այն մասին, թե ինչպես է տվյալները ստեղծվել է, ինչը կարեւոր է վերլուծության.

Ոչ ներկայացուցիչը

Ոչ-ներկայացուցչականությունը է լուրջ խնդիր է հետազոտողների եւ կառավարությունների, ովքեր ցանկանում են անել հայտարարություններ, որ ամբողջ բնակչության համար: Սա ավելի քիչ մտահոգիչ է այն ընկերությունների համար, որոնք, որպես կանոն, կենտրոնացած են իրենց օգտվողների. Համար ավելի է, թե ինչպես վիճակագրության Նիդեռլանդներ համարում է հարցը ոչ-ներկայացուցչականության բիզնես մեծ տվյալների, տես Buelens et al. (2014) :

3-րդ գլխում, ես նկարագրել, ընտրանքի եւ գնահատական ​​է շատ ավելի մանրամասն. Նույնիսկ եթե տվյալները չեն ոչ ներկայացուցիչ, որոշակի պայմաններում, նրանք կարող են կշռված արտադրել լավ նախահաշիվները:

կուտակումներ

Համակարգը ամպեր շատ դժվար է տեսնել, թե դրսից: Այնուամենայնիվ, MovieLens նախագիծը (քննարկեցին ավելի Գլուխ 4) արդեն առաջադրվել է ավելի քան 15 տարի է ակադեմիական հետազոտական ​​խմբի: Հետեւաբար, նրանք փաստագրված եւ կիսում է տեղեկատվություն մասին այնպես, որ այդ համակարգը դարձել է ժամանակի եւ ինչպես դա կարող է ազդեցությունների վերլուծության (Harper and Konstan 2015) :

Մի շարք գիտնականների կենտրոնացած է Կիտել Twitter- ում: Liu, Kliman-Silver, and Mislove (2014) եւ Tufekci (2014) :

ալգորիթմիկ անիծված

Ես առաջին անգամ լսեցի, որ տերմինը «ալգորիթմիկ անիծված» կողմից օգտագործվում Ջոն Kleinberg է զրույցի. Հիմնական գաղափարը ետեւում performativity այն է, որ որոշ Հասարակական գիտություններ տեսություններ են «շարժիչներ ոչ թե Ֆոտոխցիկներ» (Mackenzie 2008) : Այսինքն, նրանք, ըստ էության, ձեւավորում են աշխարհը, այլ ոչ թե պարզապես գրավել այն.

կեղտոտ

Կառավարական վիճակագրական գործակալությունների զանգահարել տվյալների մաքրումը, վիճակագրական տվյալների խմբագրում. De Waal, Puts, and Daas (2014) նկարագրելու վիճակագրական տվյալների խմբագրում տեխնիկան մշակված է հետազոտության տվյալների եւ քննել, թե որքանով է կիրառելի են մեծ տվյալների աղբյուրների եւ Puts, Daas, and Waal (2015) ներկայացնում է որոշ նույն գաղափարների համար ավելի ընդհանուր լսարանի.

Որոշ օրինակների ուսումնասիրությունների վրա կենտրոնացած պետք է գրանցվեք Twitter- ում, Clark et al. (2016) Եւ Chu et al. (2012) : Վերջապես, Subrahmanian et al. (2016) Նկարագրում արդյունքները DARPA Twitter Bot Challenge:

զգայուն

Ohm (2015) Վերանայում վաղ հետազոտությունները գաղափարի վրա զգայուն տեղեկատվության եւ առաջարկում է մի բազմաբնակարան գործոնի քննությունը: Չորս գործոնները Նա առաջարկում են հավանականությունը, վնասի. հավանականությունը վնասի. ներկայությունը գաղտնի հարաբերությունների; եւ արդյոք ռիսկի արտացոլում են մեծամասնական մտահոգությունները:

  • Հաշվելով բաներ (Բաժին 2.4.1)

Farber ի ուսումնասիրությունը տաքսիների Նյու Յորքում հիմնված էր ավելի վաղ ուսումնասիրության Camerer et al. (1997) Որը օգտագործվում է երեք տարբեր հարմարության նմուշներ թղթի ուղեգրերը-թղթի ձեւերով, որոնք օգտագործվում են վարորդներին արձանագրել ուղեւորություն սկսելու ժամանակը, վերջում, եւ ուղեվարձը. Այս Ավելի վաղ ուսումնասիրությունը պարզել է, որ վարորդները, թվում էր, պետք է նպատակային earners: Նրանք աշխատել քիչ օր, որտեղ իրենց աշխատավարձը բարձր է

Kossinets and Watts (2009) բեւեռված էր ծագման homophily սոցիալական ցանցերում: Տես Wimmer and Lewis (2010) համար այլ մոտեցում է նույն խնդրի, որը օգտագործում է տվյալներ Facebook.

Հետագա աշխատանքում, King ու գործընկերները ավելի ուսումնասիրված օնլայն գրաքննությունը Չինաստանում (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) : Համար հարակից մոտեցման չափման օնլայն գրաքննությունը Չինաստանում, տես Bamman, O'Connor, and Smith (2012) : For ավելի վիճակագրական մեթոդների, ինչպիսիք են մեկը օգտագործվող King, Pan, and Roberts (2013) գնահատելու նպատակով տրամադրությունների 11 մլն հաղորդագրությունների, տես, Hopkins and King (2010) : Համար ավելի վերահսկվողի ուսուցման, տես James et al. (2013) (Ոչ պակաս, տեխնիկական) եւ Hastie, Tibshirani, and Friedman (2009) (ավելի տեխնիկական):

  • Կանխատեսելով (Բաժին 2.4.2)

Կանխատեսում է մեծ մասն արդյունաբերական տվյալները գիտության (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) : Մի տեսակ կանխատեսման, որոնք սովորաբար կատարվում են սոցիալական հետազոտողների ժողովրդագրական կանխատեսումների, օրինակ Raftery et al. (2012) :

Google գրիպի միտումները չէր առաջին ծրագիրն է օգտագործել որոնման տվյալները, nowcast Գրիպի տարածվածությունը: Ի դեպ, հետազոտողները Միացյալ Նահանգների (Polgreen et al. 2008; Ginsberg et al. 2009) եւ Շվեդիայի (Hulth, Rydevik, and Linde 2009) գտել են, որ որոշ որոնման պայմանները (օրինակ, «գրիպը») - կանխատեսեց ազգային հանրային առողջության հսկողություն տվյալները առաջ էր ազատ արձակվել: Հետագայում շատ, շատ այլ ծրագրեր, որոնք փորձել են օգտագործել թվային հետք տվյալներ հիվանդությունների վերահսկողության հայտնաբերման, տես Althouse et al. (2015) Համար վերանայման.

Ի լրումն, օգտագործելով թվային հետք տվյալներ է կանխատեսել առողջական արդյունքները, առկա է եղել նաեւ մի հսկայական աշխատանք օգտագործելով Twitter տվյալներ է կանխատեսել ընտրությունների արդյունքները: համար ակնարկներ է տեսնել Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7) եւ Huberty (2015) :

Օգտագործելով որոնման տվյալները, գուշակում Գրիպի տարածվածությունը եւ օգտագործելով Twitter տվյալներ է կանխատեսել ընտրություններն են երկու օրինակներից օգտագործման որոշակի թվային հետք է կանխատեսել որոշակի իրադարձության ամբողջ աշխարհում: Կան հսկայական թվով ուսումնասիրություններ, որոնք ունեն այս ընդհանուր կառուցվածքը: Աղյուսակ 2.5 ներառում է մի քանի այլ օրինակներ:

Աղյուսակ 2.5. Մասնակի ցանկը ուսումնասիրությունների օգտագործել որոշ թվային հետք է կանխատեսել որոշակի իրադարձություն.
Թվային հետքը արդյունք հիշատակություն
ծլվլոց Box գրասենյակը եկամուտը ֆիլմերի է ԱՄՆ Asur and Huberman (2010)
Որոնել տեղեկամատյանները Վաճառքի ֆիլմերի, երաժշտության, գրքեր, եւ տեսախաղերի ԱՄՆ-ում Goel et al. (2010)
ծլվլոց Dow Jones արդյունաբերական միջին (ԱՄՆ ֆոնդային շուկա) Bollen, Mao, and Zeng (2011)
  • Համապատասխանեցնում փորձարկումները (Բաժին 2.4.3)

Հանդեսը PS Քաղաքական գիտության ուներ սիմպոզիում մեծ տվյալների, պատճառահետեւանքային հետեվություն, եւ ձեւական տեսության եւ Clark and Golder (2015) Ամփոփում յուրաքանչյուր ներդրում: Հանդեսի վարույթի Ազգային գիտությունների ակադեմիայի Միացյալ Նահանգների ուներ սիմպոզիում պատճառահետեւանքային եզրակացությունների եւ մեծ տվյալները, եւ Shiffrin (2016) Ամփոփում յուրաքանչյուր ներդրում:

Առումով բնական փորձերի, Dunning (2012) ապահովում է գերազանց Հյուրատետր երկարությունը բուժում: Ավելի շատ օգտագործելու Վիետնամ նախագիծը վիճակախաղի որպես բնական փորձարկմամբ, տես Berinsky and Chatfield (2015) : For մեքենա ուսուցման մոտեցումների, որոնք փորձում են ինքնաբերաբար բացահայտել բնական փորձեր ներսում մեծ տվյալների աղբյուրների, տես Jensen et al. (2008) Եւ Sharma, Hofman, and Watts (2015) :

Առումով համընկնմամբ, որպես լավատեսական վերանայման, տես Stuart (2010) , եւ հոռետեսական վերանայման տեսնել, Sekhon (2009) : Համար ավելի համապատասխանող որպես տեսակ pruning, տես Ho et al. (2007) : Գրքեր, որոնք ապահովում գերազանց բուժում համապատասխանող, տես Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , իսկ Imbens and Rubin (2015) :