[ ,, ] Ալգորիթմային խառնաշփոթը Google Flu Trends- ի հետ կապված խնդիր էր: Կարդացեք թուղթը Lazer et al. (2014) , եւ գրեք կարճ, հստակ էլեկտրոնային փոստով Google- ին, որը բացատրում է Google- ին, խնդրելով բացատրելով այն, թե ինչպես կարելի է ամրագրել այն:
[ ] Bollen, Mao, and Zeng (2011) պնդում են, որ Twitter- ի տվյալները կարող են օգտագործվել կանխատեսելու ֆոնդային շուկան: Այս եզրակացությունը հանգեցրեց հեջի հիմնադրամի ստեղծմանը, Derwent Capital Market- ը `Ֆոնդային շուկայում ներդրումներ կատարելու համար` Twitter- ից հավաքված տվյալների հիման վրա (Jordan 2010) : Ինչ ապացույցներ կցանկանայիք տեսնել, նախքան ձեր գումարը այդ ֆոնդի մեջ դնելը:
[ ] Թեեւ որոշ հասարակական առողջապահական փաստաբանները էլեկտրոնային ծխախոտները համարում են ծխելու դադարեցման արդյունավետ օգնությունը, մյուսները զգուշացնում են այնպիսի ռիսկերի մասին, ինչպիսիք են նիկոտինի բարձր մակարդակը: Պատկերացրեք, որ հետազոտողը որոշում է ուսումնասիրել էլեկտրոնային ծխախոտի վերաբերյալ հասարակական կարծիքը, էլեկտրոնային ծխախոտի հետ կապված գրառումները հավաքելու եւ զգացմունքների վերլուծության միջոցով:
[ ] 2009 թ. Նոյեմբերին Twitter- ը հարցին փոխեց «Ինչ եք անում» հաղորդաշարի վանդակում, «Ինչ է կատարվում» (https://blog.twitter.com/2009/whats-happening):
[ ] «Retweets» - ը հաճախ օգտագործվում է Twitter- ում ազդեցության եւ տարածման ազդեցությունը չափելու համար: Սկզբում օգտագործողները ստիպված էին պատճենել եւ տեղադրել իրենց նախընտրած տիտղոսը, տեքստը գրել բնագիր հեղինակը իր գրառման տակ եւ ձեռք բերել «RT» տիտղոսից առաջ `նշելու համար, որ դա ռեյտել է: Այնուհետեւ, 2009-ին, Twitter- ը ավելացրեց «retweet» կոճակը: 2016 թ. Հունիսին Twitter- ը հնարավորություն տվեց օգտագործողներին վերբեռնել սեփական թվիթերը (https://twitter.com/twitter/status/742749353689780224): Կարծում եք, այդ փոփոխությունները պետք է ազդեն, թե ինչպես եք օգտագործում «ռեստուեթներ» ձեր հետազոտության մեջ: Ինչու կամ ինչու չէ:
[ ,, ,, ,, ] Ընդհանուր առմամբ քննարկված թղթի վրա Միշելը եւ գործընկերները (2011) Վերլուծել են ավելի քան հինգ միլիոն թվայնացված գրքերի բովանդակությունը `փորձելով բացահայտել երկարաժամկետ մշակութային միտումները: Տվյալները, որոնք նրանք օգտագործել են, այժմ ազատվել են որպես Google NGrams տվյալների հավաքածու, եւ մենք կարող ենք օգտագործել այն տվյալները, որպեսզի դրանք վերարտադրվեն եւ ընդլայնեն իրենց աշխատանքը:
Թղթի վրա շատ արդյունքներից մեկը, Միշելը եւ գործընկերները պնդում էին, որ մենք մոռանում ենք ավելի արագ եւ արագ: Մասնավոր տարիների համար ասեք «1883», նրանք հաշվարկել են 1875-1975 թվականների միջեւ ընկած ժամանակահատվածում հրապարակված 1 գրամի համամասնությունը, որոնք «1883» էին: Նրանք կարծում էին, որ այդ համամասնությունը չափազանց մեծ հետաքրքրություն է այն տարիներին տեղի ունեցած իրադարձությունների նկատմամբ: Դրանց թվով 3 ա, նրանք օգտագործում էին երեք տարիների օգտագործման ուղիները `1883, 1910 եւ 1950 թվականները: Այս երեք տարիները կիսում են մի ընդհանուր օրինակ` փոքրիկ օգտագործումը մինչեւ այդ տարի, ապա ցատկ, այնուհետեւ անկում: Հաջորդը, յուրաքանչյուր տարվա համար քայքայելու համար Michel- ը եւ գործընկերները հաշվարկել են յուրաքանչյուր տարվա համար «տարվա կեսը» 1875-1975 թվականներին: Ձեւ 3 ա (ներդիր), ցույց են տվել, որ յուրաքանչյուրի կես կյանքը տարի նվազում է, եւ նրանք պնդում էին, որ դա նշանակում է, որ մենք մոռանում ենք անցյալը ավելի արագ եւ արագ: Նրանք օգտագործեցին անգլերեն լեզվի կորպուսի 1-ին տարբերակը, սակայն հետագայում Google- ը հրապարակեց կորպուսի երկրորդ տարբերակը: Խնդրում ենք կարդալ հարցի բոլոր մասերը, նախքան կոդավորումը սկսեք:
Այս գործունեությունը հնարավորություն կտա գրելու պրակտիկային վերամշակման կոդ, թարգմանման արդյունքներ եւ տվյալների շեղում (օրինակ, անհարմար ֆայլերի հետ աշխատելը եւ անհայտ բացակայող տվյալները վարելը): Այս գործունեությունը կօգնի նաեւ վերադառնալ եւ վազել հարուստ եւ հետաքրքիր տվյալների հավաքածուով:
Ստացեք հումքային տվյալները Google Գրքերի NGram հեռուստադիտողի կայքից: Մասնավորապես, դուք պետք է օգտագործեք անգլերեն լեզվի կորպուսի 2-րդ տարբերակը, որը թողարկվել է 2012 թ. Հուլիսի 1-ին: Uncompressed, այս ֆայլը 1.4GB է:
Վերահաստատում է Michel et al. (2011) նկար 3 ա-ի հիմնական մասը Michel et al. (2011) : Այս պատկերը վերստեղծելու համար ձեզ հարկավոր է երկու ֆայլ `այն հատվածը, որը ներբեռնվում է մասամբ (ա) եւ« ընդհանուր հաշիվները »ֆայլը, որը կարող եք օգտագործել հումքի հաշվարկները համամասնությունների փոխակերպելու համար: Նշենք, որ ընդհանուր հաշվի ֆայլը ունի մի կառույց, որը կարող է դժվարությամբ կարդալ այն: ՆԳՐԱՄ-ի տվյալների 2-րդ տարբերակը նման արդյունքներ է տալիս, օրինակ, Michel et al. (2011) , որոնք հիմնված են տարբերակ 1-ի տվյալների վրա:
Այժմ ստուգեք ձեր գրաֆիկը NGram հեռուստադիտողի կողմից ստեղծված գրաֆիկի դեմ:
Կրկնել գործիչ 3 ա (հիմնական գործիչը), բայց փոխել \(y\) -axis- ը հում նշման հաշվարկը (ոչ թե հիշատակված չափը):
Արդյոք բ) եւ (դ) միջեւ եղած տարբերությունը հանգեցնում է վերափոխելու Michel et al. (2011): Ինչու կամ ինչու չէ:
Այժմ օգտագործելով հիշատակումների մասնաբաժինը, կրկնել 3a- ի նկարը: Այսինքն, 1875-1975 թվականների միջեւ յուրաքանչյուր տարվա համար հաշվարկեք այդ տարվա կեսը: Կես կյանքը որոշվում է այն տարիների թիվը, որ անցնում է մինչեւ նշումների համամասնությունը հասնում է իր գագաթնակետին: Հիշեցնենք, որ Michel et al. (2011) , ավելի բարդ գործեր կատարելու, կես կյանքը գնահատելու համար, օժանդակող օնլայն տեղեկատվության III.6 բաժինը, սակայն պնդում են, որ երկու մոտեցումները նույն արդյունքներն են բերում: NGram- ի տվյալների 2-րդ տարբերակը նման արդյունքներ է տալիս Michel et al. (2011) , որոնք հիմնված են տարբերակ 1-ի տվյալների վրա: (Ահազանգ: Մի զարմացեք, եթե դա չի գործում):
Արդյոք այն տարիներ եղել են այնպիսի տարիներ, որոնք տարիներ են, որոնք մոռացան հատկապես արագ կամ հատկապես դանդաղ: Համառոտ նկարագրեք այդ մոդելի հնարավոր պատճառների մասին եւ բացատրեք, թե ինչպես եք հայտնաբերել արտածումը:
Այժմ NGrams- ի 2-րդ տարբերակի համար այս արդյունքը կրկնօրինակեք չինարեն, ֆրանսերեն, գերմաներեն, եբրայերեն, իտալերեն, ռուսերեն եւ իսպաներեն:
Համեմատելով բոլոր լեզուներով, եղել են այնպիսի տարիներ, որոնք արտասահմանյան էին, օրինակ, տարիներ, որոնք մոռացան հատկապես արագ կամ հատկապես դանդաղ: Կարճ ասեմ, որ այդ մոդելի հնարավոր պատճառները:
[ ,, ,, ,, ] Penney (2016) ուսումնասիրել է, թե արդյոք NSA / PRISM- ի վերահսկողության մասին (այսինքն `Սնոուդենի բացահայտումները) 2013 թվականի հունիսին լայն տարածում է գտել, կապված Վիքիպեդիայի հոդվածների երթեւեկության սուր եւ անսպասելի նվազման հետ, որոնք բարձրացնում են գաղտնիության մտահոգությունները: Եթե այդպես է, վարքագծի այս փոփոխությունը կհամապատասխանի զանգվածային հսկողության արդյունքում առաջացող ցնցող ազդեցությանը: Penney (2016) մոտեցումը երբեմն կոչվում է ընդհատված ժամանակի շարքերի նախագծում, եւ դա կապված է 2.4.3-ում նկարագրված մոտեցումների հետ:
Թեմայի հիմնաբառեր ընտրելիս, Փենինն անդրադարձել է ԱՄՆ-ի Հայրենիքի անվտանգության դեպարտամենտի կողմից սոցիալական մեդիայի հետեւման եւ վերահսկման համար օգտագործվող ցանկին: DHS- ի ցանկը դասակարգում է որոշակի որոնման պայմանները մի շարք հարցերի, այսինքն `« Առողջապահական կոնցեռն »,« Ենթակառուցվածքի անվտանգություն »եւ« Ահաբեկչություն »: Ուսումնասիրության խմբի համար Penney- ն օգտագործեց« ահաբեկչության »հետ կապված 48 հիմնաբառեր (տես հավելված 8 ): Այնուհետեւ Wikipedia- ի հոդվածի դիտարկումը ամսեկան հաշվարկվում է համապատասխան 48 Վիքիպեդիայի հոդվածների համար 32 ամսվա ընթացքում, 2012 թ. Հունվարի սկզբից մինչեւ 2014 թ. Օգոստոսի վերջը: Իր փաստարկը ամրապնդելու համար նա նաեւ ստեղծել է մի քանի համեմատական խմբակներ, հետեւելով article views այլ թեմաներով:
Այժմ, դուք պատրաստվում եք կրկնել եւ երկարացնել Penney (2016) : Բոլոր հումքի տվյալները, որոնք դուք կպահանջեք այս գործունեության համար, հասանելի է Վիքիպեդիայում: Կամ դուք կարող եք ստանալ այն R-package wikipediatrend- ից (Meissner and R Core Team 2016) : Երբ դուք գրեք ձեր պատասխանները, խնդրում ենք նշել, թե որ տվյալների աղբյուրը եք օգտագործել: (Նշենք, որ նույն գործունեությունը նույնպես հայտնվում է գլուխ 6-ում): Այս գործունեությունը ձեզ հնարավորություն կտա տվյալների շեղում եւ մտածում բնական տվյալների հիման վրա փորձարկումների մասին: Այն նաեւ կստիպի ձեզ եւ հետագայում ծրագրեր առաջարկել պոտենցիալ հետաքրքիր տվյալների աղբյուրով:
[ Efrati (2016) տեղեկացնում է, որ գաղտնի տեղեկատվության հիման վրա Facebook- ի «ընդհանուր փոխանակումը» նվազել է մոտ 5,5% -ով, մինչդեռ «սկզբնական հեռարձակումն» տարեսկզբի համեմատ նվազել է 21% -ով: Այս անկումը հատկապես սուր էր Facebook- ի օգտագործողների 30 տարեկանից: Զեկույցը նվազեցրել է երկու գործոն: Մեկն այն է, որ Facebook- ում «ընկերներ» ունեցող մարդկանց թիվն աճում է: Մյուսը այն է, որ որոշ հաղորդակցման գործունեությունը տեղափոխվել է հաղորդագրությունների եւ մրցակիցների, ինչպիսիք են Snapchat- ը: Զեկույցը նաեւ բացահայտեց մի քանի մարտավարություն, Facebook- ը փորձեց խթանել փոխանակումը, այդ թվում News Feed ալգորիթմային թվիթերը, որոնք ավելի շատ հայտնի են բնօրինակ գրառումները, ինչպես նաեւ «Այս օրը» ֆունկցիայի հետ պարբերական հիշեցումներ: Ինչպիսի հետեւանքներ, եթե այդպիսիք կան, անում են այն հետազոտողները, ովքեր ցանկանում են օգտվել Facebook- ից որպես տվյալների աղբյուր:
[ ] Ինչ է տարբերությունը սոցիոլոգի եւ պատմաբանի միջեւ: Գոլդթորպեի (1991) Համաձայն, հիմնական տարբերությունը հսկողությունն է տվյալների հավաքագրման համար: Պատմաբանները ստիպված են օգտագործել մասունքները, մինչդեռ սոցիոլոգները կարող են հարմարեցնել իրենց տվյալների հավաքումը կոնկրետ նպատակների համար: Կարդացեք Goldthorpe (1991) : Ինչպես է տարբերվում սոցիոլոգիայի եւ պատմության տարբերությունները, որոնք վերաբերում են customades եւ readyymades գաղափարին:
[ ] Այս կառուցվածքը նախորդ հարցաքննության վրա է: Goldthorpe (1991) նկարահանել է մի շարք քննադատական պատասխաններ, այդ թվում մեկը Nicky Hart (1994) որը վիճարկում էր Goldthorpe- ի նվիրվածությունը հարմարեցված տվյալների համար: Հստակեցնելու հարմարեցված տվյալների պոտենցիալ սահմանափակումները, Հարտը նկարագրել է Բարելավված աշխատողի նախագիծը, մեծ հետազոտություն, որը գնահատելու է սոցիալական դասի եւ քվեարկության միջեւ փոխհարաբերությունը, որը վարում էր Goldthorpe- ի եւ գործընկերների կողմից 1960-ականների կեսերին: Ինչպես կարելի է ակնկալել գիտնականից, որը գտել է տվյալների հիման վրա մշակված տվյալների մասին, «Բարեկեցված աշխատող» ծրագիրը հավաքել է տվյալներ, որոնք հարմարեցված են վերջերս առաջարկվող տեսականին, սոցիալական դասի ապագայի մասին, աճող կենսամակարդակի դարաշրջանում: Սակայն, Goldthorpe- ը եւ գործընկերները ինչ-որ կերպ «մոռացել են» տեղեկություններ հավաքել կանանց քվեարկության վարքագծի վերաբերյալ: Ահա թե ինչպես Nicky Hart (1994) ամփոփեց ամբողջ դրվագը.
«... դժվար է խուսափել այն եզրակացությունից, որ կանայք բացակայում էին, քանի որ այս« դերձակ »կազմել է դադարի պարադիգմատիկ տրամաբանությամբ, որը բացառեց կին փորձը: Դասական գիտակցության տեսական տեսլականով եւ արական սեռական գործողություններով առաջնորդված ... Goldthorpe- ը եւ նրա գործընկերները կառուցել են մի շարք փորձարարական ապացույցներ, որոնք կերակրել եւ կերտել են իրենց տեսական ենթադրությունները, փոխարենը նրանց համապատասխան վավեր փորձարկման համար »:
Հարտը շարունակեց.
«Բարեկեցված աշխատողի ծրագրի իմպերիալ արդյունքները մեզ ավելի շատ են պատմում միջնադարյան սոցիոլոգիայի masculinist արժեքների մասին, քան նրանք տեղեկացնում են շերտավորման, քաղաքականության եւ նյութական կյանքի գործընթացների մասին»:
Կարող եք մտածել այլ օրինակների մասին, որտեղ անհատական տվյալների հավաքագրումը ներառում է տվյալների հավաքիչի կողմնակալությունները: Ինչպես է դա համեմատվում ալգորիթմիկ խառնաշփոթի հետ: Ինչպիսի հետեւանքներ կարող է ունենալ, երբ հետազոտողները պետք է օգտագործեն պատրաստուկները եւ երբ նրանք պետք է օգտագործեն customades:
[ ] Այս գլխում ես հակասում եմ հետազոտողների կողմից հավաքագրված տվյալները ընկերությունների եւ կառավարությունների կողմից ստեղծված վարչական գրանցումների հետ: Որոշ մարդիկ այս վարչական գրառումները անվանում են «գտած տվյալներ», որոնք հակադրվում են «նախագծված տվյալների» հետ: Ճիշտ է, վարչական ռեգիստրները գտնում են հետազոտողները, բայց դրանք նաեւ բարձր նախագծված են: Օրինակ, ժամանակակից տեխնոլոգիաների ընկերությունները շատ դժվարացնում են իրենց տվյալների հավաքագրման եւ վերահսկման համար: Այսպիսով, այդ վարչական գրանցումները հայտնաբերված են եւ նախագծված են, դա պարզապես կախված է ձեր տեսանկյունից (Նկար 2.12):
Տրամադրել տվյալների աղբյուրը, որտեղ տեսնելը, թե հայտնաբերված եւ նախագծված է, օգտակար է տվյալ տվյալների աղբյուրը հետազոտության համար:
[ ] Քննադատական շարադրանքում Քրիստոնյա Սանդվին եւ Էզեց Հարգիթթին (2015) բաժանեցին թվային հետազոտությունները երկու լայն կատեգորիաներ `կախված նրանից, թե արդյոք թվային համակարգը« գործիք »է կամ« ուսումնական օբյեկտ »: Առաջին տեսակի օրինակ, որտեղ համակարգը գործիքը, Բենթսսոնի եւ գործընկերների ուսումնասիրությունը (2011) , 2010 թ. Հաիթիում տեղի ունեցած երկրաշարժից հետո միգրացիայի վերահսկման համար բջջային հեռախոսի տվյալների օգտագործման մասին: Երկրորդ տեսակի օրինակ, որտեղ համակարգը հանդիսանում է ուսումնասիրության օբյեկտ, ուսումնասիրում է Ջենսենը (2007) , ինչպես նաեւ բջջային հեռախոսների ներդրումը Kerala- ի (Հնդկաստան) ամբողջությամբ ազդել ձկների շուկայի գործարկման վրա: Ես գտնում եմ այս տարբերությունը օգտակար, քանի որ այն պարզեցնում է, որ թվային տվյալների աղբյուրները օգտագործելով ուսումնասիրությունները կարող են տարբեր նպատակներ ունենալ, նույնիսկ եթե նրանք օգտագործում են նույն տեսակի տվյալների աղբյուրը: Այս տարբերակման հետագա հստակեցման համար նկարագրեք չորս ուսումնասիրություններ, որոնք դուք տեսել եք `երկուսը, որոնք օգտագործում են թվային համակարգը որպես գործիք եւ երկուսը, որոնք օգտագործում են թվային համակարգ` որպես ուսումնական օբյեկտ: Դուք կարող եք օգտագործել այս գլխից օրինակներ, եթե ցանկանում եք: