Բանալի:
[ , ] Ալգորիթմական զարմանալի էր մի խնդիր Google Flu միտումները: Կարդացեք թուղթը կողմից Lazer et al. (2014) , եւ գրել կարճ, հստակ նամակ է ինժեներ Google- ի բացատրելով խնդիրը եւ առաջարկում է պատկերացում, թե ինչպես ամրագրել խնդիրը.
[ ] Bollen, Mao, and Zeng (2011) պնդում է, որ տվյալները Twitter- ից կարող են օգտագործվել է կանխատեսել ֆոնդային շուկան: Այս եզրակացությունը հանգեցրեց ստեղծման մի ցանկապատ ֆոնդի-Derwent Կապիտալի շուկաները-են ներդրումներ կատարել ֆոնդային շուկայում հիման վրա տվյալների հավաքագրված Twitter (Jordan 2010) : Ինչ ապացույցներ, որ դուք ուզում եք տեսնել, նախքան դնելով ձեր գումար այդ հիմնադրամում:
[ Մինչդեռ որոշ հասարակական առողջապահական փաստաբանները կարկուտը էլեկտրոնային ծխախոտներ, որպես արդյունավետ օգնություն ծխելու դադարեցման, մյուսները զգուշացնում են այն մասին, որ հնարավոր ռիսկերը, ինչպիսիք են բարձր մակարդակներում նիկոտինի: Պատկերացրեք, որ մի հետազոտող որոշում է ուսումնասիրել հանրային կարծիքը նկատմամբ Էլեկտրոնային ծխախոտ է հավաքում էլեկտրոնային ծխախոտները-ի հետ կապված Twitter հաղորդագրություններ եւ անցկացման տրամադրություններ վերլուծություն:
[ ] 2009-ի նոյեմբերին, Twitter փոխվել այն հարցին ի Tweet վանդակում է «Ինչ եք անում?" To "Ինչ է կատարվում» (https://blog.twitter.com/2009/whats-happening):
[ ] Kwak et al. (2010) Վերլուծվում 41.7 մլն օգտվողի պրոֆիլներ, 1.47 մլրդ հասարակական հարաբերությունների 4262 trending թեմաներ, եւ 106 մլն թվիթ հունիսի 6-ին եւ հունիսի 31-ին, 2009 թ. Հիմնվելով այս վերլուծության Նրանք եզրակացրել են, որ Twitter սպասարկում է ավելի, որպես նոր միջին տեղեկատվության փոխանակման, քան սոցիալական ցանց.
[ «ReTweets» հաճախ օգտագործվում է չափել ազդեցությունը եւ տարածել վրա ազդեցության Twitter. Սկզբում, օգտվողները ստիպված էր պատճենեք եւ տեղադրեք ծլվլոց նրանք դուր եկավ, պիտակների բնօրինակը հեղինակին իր / իր բռնակի, եւ ձեռքով մուտքագրել «RT» նախքան միանալ ցույց են տալիս, որ դա մի retweet. Այնուհետեւ, 2009 թ. Twitter ավելացրել է «retweet» կոճակը: Ի 2016, Twitter համար հնարավոր դարձրեց օգտվողները retweet իրենց սեփական Թվիթեր (https://twitter.com/twitter/status/742749353689780224): Ինչ եք կարծում, այդ փոփոխությունները պետք է ազդի, ինչպես եք դուք օգտագործում "ReTweets" Ձեր հետազոտության. Ինչու կամ ինչու ոչ:
[ , , ] Michel et al. (2011) կառուցվել է կորպուսի ձեւավորվող Google- ի ջանքերի թվայնացնելու գրքեր. Օգտագործելով առաջին տարբերակը կորպուսի, որը հրապարակվել է 2009 թ., Եւ պարունակում էր շուրջ 5 միլիոն թվայնացված գրքերի, հեղինակները վերլուծել են բառերի գործածությունը հաճախականությունը հետաքննել լեզվական փոփոխություններ եւ մշակութային միտումները: Շուտով Google Books Corpus հայտնի դարձավ տվյալների աղբյուրը հետազոտողների համար, եւ 2-րդ տարբերակը մասնակի ազատ էր արձակվել 2012 թ.
Սակայն, Pechenick, Danforth, and Dodds (2015) զգուշացրեց, որ հետազոտողները պետք է լիարժեք բնութագրել ընտրանքի գործընթացը կորպուսի օգտագործելուց առաջ այն նկարելու լայն եզրակացություններ: Հիմնական խնդիրն այն է, որ կորպուսը է գրադարանը նման, որը պարունակում է մեկ յուրաքանչյուր գրքի: Արդյունքում, անհատի, բեղմնավոր հեղինակ կարող է նկատելիորեն տեղադրեք նոր արտահայտություններ մեջ Google Books բառապաշար: Ավելին, գիտական տեքստեր կազմում է ավելի էական մասը կորպուսի ողջ 1900. Բացի այդ, համեմատելով երկու տարբերակները անգլերեն գեղարվեստական գրականության տվյալների, Pechenick et al. գտել վկայում է, որ ոչ բավարար զտիչ օգտագործվել է արտադրում առաջին տարբերակը: Բոլոր տվյալները համար անհրաժեշտ գործունեության հասանելի է այստեղ: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) Հետազոտում, թե արդյոք համատարած հրապարակայնությունը մասին NSA / պրիզմայով հսկողության (այսինքն, Սնոուդենը բացահայտումներից) 2013 թվականի հունիսին, որը կապված է կտրուկ եւ անսպասելի նվազման երթեւեկության Վիքիպեդիայի հոդվածներում, թեմաների, որոնք բարձրացնում գաղտնիության մտահոգությունները: Եթե այդպես է, այս փոփոխությունը վարքի կլինի համահունչ է chilling effect արդյունքում զանգվածային հսկողության. Մոտեցումը Penney (2016) , Որը երբեմն կոչվում է ընդհատված ժամանակային շարքերի դիզայն եւ կապված է մոտեցումների գլխում մոտ մոտեցնել փորձեր է դիտողական տվյալների (Բաժին 2.4.3):
Ընտրել թեմա հիմնաբառեր, Penney անդրադարձել է ցուցակում, որն օգտագործվում է ԱՄՆ դեպարտամենտի Հայրենիքի անվտանգության համար հետեւել եւ մոնիտորինգի սոցիալական լրատվամիջոցների. The DHS ցանկը դասակարգում որոշակի փնտրման տերմինները մեջ մի շարք հարցերի շուրջ, այսինքն, «Առողջություն կոնցեռն», «Ենթակառուցվածքի անվտանգության» եւ «ահաբեկչության դեմ:« Հանուն ուսումնասիրության խմբի, Penney օգտագործվում է քառասունութ հիմնաբառերից կապված «Ահաբեկչությունը» (տես Աղյուսակ 8 Հավելված): Նա այնուհետեւ ընդհանրացվել Վիքիպեդիայի դիտեք ակնկալում է ամսական կտրվածքով համար համապատասխան քառասունութ Վիքիպեդիայի հոդվածներում ավելի քան երեսուն երկու ամսվա ընթացքում, սկսած հունվարի սկզբին 2012 թ. Օգոստոսի վերջին 2014 թ-ից ամրապնդել իր փաստարկը, նա նաեւ ստեղծել է մի քանի համեմատություն խմբերի հետեւել հոդված տեսակետները այլ թեմաների շուրջ:
Այժմ, դուք պատրաստվում են վերարտադրելու եւ ընդլայնել Penney (2016) : Բոլոր հում տվյալները, որ դուք պետք է այս գործունեության հասանելի է Վիքիպեդիայից (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Կամ դուք կարող եք ստանալ այն R փաթեթի wikipediatrend (Meissner and Team 2016) : Երբ եք գրել մինչեւ ձեր պատասխանները, խնդրում ենք նկատի ունենալ, ինչը տվյալների աղբյուրը եք օգտագործել. (Նշում: Այս նույն գործունեությամբ նաեւ հայտնվում է 6-րդ գլխում)
[ ] Efrati (2016) Հաշվետվությունները, հիման վրա գաղտնի տեղեկությունները, որ «ընդհանուր փոխանակում» Facebook- ում նվազել էր մոտ 5.5 տոկոսով, իսկ «օրիգինալ հեռարձակումը փոխանակում» էր ներքեւ 21 տոկոսով: Այս անկումը եղել հատկապես սուր հետ Facebook- ի օգտատերերի ներքո 30 տարեկանից: Զեկույցում վերագրվում անկումը երկու գործոններով: Դրանցից մեկն այն է, որ աճը թվի «ընկերների» մարդիկ ունենք Facebook. Մյուսը, որ ինչ-որ փոխանակման ակտիվությունը տեղափոխվել հաղորդագրությունների եւ մրցակիցների, ինչպիսիք են SnapChat: Զեկույցում նաեւ բացահայտեց մի քանի մարտավարությունը Facebook փորձել է խթանել փոխանակման, այդ թվում, Լրահոս ալգորիթմ tweaks, որոնք կազմում օրիգինալ հաղորդագրություններ ավելի հայտնի, ինչպես նաեւ պարբերաբար հիշեցումներ օրիգինալ գրառումները օգտվողների «Այս օրը» մի քանի տարի առաջ: Ինչ հետեւանք, եթե այդպիսիք կան, արդյոք այդ արդյունքները պետք է հետազոտողներին, ովքեր ցանկանում են օգտագործել Facebook որպես տվյալների աղբյուր.
[ ] Tumasjan et al. (2010) Հաղորդում է, որ համամասնությամբ Թվիթեր նշելով քաղաքական կուսակցություն համապատասխանում համամասնությամբ ձայների այդ կուսակցությունն ստացել է գերմանական խորհրդարանական ընտրություններին 2009 թ. (Նկար 2.9). Այլ կերպ ասած, պարզվել է, որ դուք կարող եք օգտագործել Twitter- ը կանխատեսել ընտրություններում: Միեւնույն ժամանակ, այս ուսումնասիրությունը հրապարակվել էր, որ այն համարվում էր չափազանց հետաքրքիր է, քանի որ թվում էր, առաջարկել արժեքավոր օգտագործման համար միասնական աղբյուր մեծ տվյալների.
Հաշվի առնելով վատ հատկանիշները մեծ տվյալների, սակայն, դուք պետք է անմիջապես թերահավատ այս արդյունքը: Գերմանացիները Twitter- ում 2009 թ բավական ոչ ներկայացուցիչ խումբը, եւ կողմնակիցները մեկ կուսակցության կարող է միանալ քաղաքականության մասին ավելի հաճախ: Այսպիսով, թվում է, զարմանալի է, որ բոլոր հնարավոր շեղումներ, որոնք դուք կարող եք պատկերացնել, որ ինչ-որ կերպ չեղյալ են: Ի դեպ, արդյունքները Tumasjan et al. (2010) Պարզվեց, որ շատ լավ է, որ ճշմարիտ է: Իրենց թուղթ, Tumasjan et al. (2010) Համարվում է վեց քաղաքական կուսակցություններ `քրիստոնյա դեմոկրատները (CDU), Քրիստոնեա-սոցիալական դեմոկրատները (CSU), SPD, ազատականները (FDP), ձախ (Die Linke) եւ Կանաչների կուսակցության (Grune): Սակայն, առավել նշված գերմանական քաղաքական on Twitter այդ ժամանակ էր, Pirate Party (Piraten), մի կողմ է, որ պայքարում է կառավարության կարգավորումը Ինտերնետում: Երբ է ծովահեն կուսակցությունը ներառվել է վերլուծության, Twitter նշում է դառնում սարսափելի predictor ընտրությունների արդյունքների (Նկար 2.9) (Jungherr, Jürgens, and Schoen 2012) :
Հետագայում, այլ հետազոտողներ ամբողջ աշխարհում օգտագործվող գիտակ մեթոդներ, ինչպիսիք են `օգտագործելով տրամադրությունները վերլուծություն է տարբերակել դրական եւ բացասական նշում է, որ կուսակցությունների, որպեսզի բարելավել ունակությունը Twitter տվյալների կանխատեսել մի շարք տարբեր տեսակի ընտրությունների (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) : Ահա թե ինչպես Huberty (2015) Ամփոփել է այդ փորձերի է կանխատեսել ընտրություններ:
«Բոլոր հայտնի կանխատեսման մեթոդների վրա հիմնված սոցիալական լրատվամիջոցների չի հաջողվել, երբ ենթարկվել պահանջներին ճշմարիտ շրջահայաց ընտրական կանխատեսումների. Այս անհաջողությունները հայտնվել է պայմանավորված հիմնարար հատկությունների սոցիալական մեդիայի, այլ ոչ թե մեթոդաբանական կամ ալգորիթմիկ դժվարություններին: Կարճ ասած, սոցիալական լրատվամիջոցները չեն, եւ, հավանաբար, երբեք չի, առաջարկում է կայուն, անաչառ, ներկայացուցչական պատկեր է ընտրազանգվածի, եւ հարմարության նմուշները սոցիալական մեդիայի չունեն բավարար տվյալներ է ամրագրել այդ խնդիրները փակցնել hoc »:
Կարդացեք որոշ հետազոտությունների, որոնք հանգեցնում Huberty (2015) Այդ եզրակացության, եւ գրել մեկ էջանոց հուշագիր է քաղաքական թեկնածուի նկարագրելով, եթե, եւ թե ինչպես Twitter պետք է օգտագործվի կանխատեսել ընտրություններ:
[ ] Որն է տարբերությունը սոցիոլոգ եւ պատմաբան: Ըստ Goldthorpe (1991) , Հիմնական տարբերությունն սոցիոլոգ եւ պատմաբան է վերահսկողությունն տվյալների հավաքագրման. Պատմաբանները ստիպված են օգտագործել մասունքները, իսկ սոցիոլոգները կարող եք հարմարեցնել իրենց տվյալների հավաքագրումը կոնկրետ նպատակներով. Կարդալ Goldthorpe (1991) : Ինչպես է տարբերությունը սոցիոլոգիայի եւ պատմության հետ կապված գաղափարին Custommades եւ մոդայիկ?
[ ] Հիմնվելով նախորդ հարցին, Goldthorpe (1991) Ոչ-ոքի է մի շարք քննադատական արձագանքներ, այդ թվում մեկը Nicky Hart (1994) Որոնք սպառնում Goldthorpe ի նվիրվածությունը դերձակ կազմել տվյալները: Է հստակեցնել հնարավոր սահմանափակումները մշակված տվյալների, Hart նկարագրեց բարեկեցիկ Worker ծրագիրը, մեծ հետազոտություն է չափել փոխհարաբերությունները սոցիալական խավի եւ քվեարկության, որը վարում Goldthorpe եւ գործընկերների 1960-ականների կեսին: Ինչ կարելի է ակնկալել մի գիտնական, որը արտոնված մշակված տվյալներ հայտնաբերվել տվյալների, բարեկեցիկ գործիչ Ծրագրի հավաքագրված տվյալների, որը հարմարեցված է անդրադառնալ վերջերս առաջարկված տեսությունը մասին ապագայի սոցիալական խավի է դարաշրջանում բարձրացման կենսամակարդակի: Բայց, Goldthorpe եւ գործընկերները ինչ-որ կերպ «մոռացել» է հավաքել տեղեկատվություն մասին քվեարկության վարքագծի կանանց. Ահա թե ինչպես Nicky Hart (1994) ամփոփումներ ամբողջ դրվագ:
" , , այն [is] դժվար է խուսափել այն եզրակացության, որ կանայք են բաց թողնվել, քանի որ այս «դերձակ կազմել 'dataset սահմանափակվել է մի պարադիգմային տրամաբանությամբ, որը բացառված իգական փորձ: Պայմանավորված է մի տեսական տեսլականով դասի գիտակցության եւ գործողության որպես արական preoccupations: , , , Goldthorpe եւ նրա գործընկերները կառուցվել է մի շարք էմպիրիկ ապացույցների, որոնք սնվում եւ սնուցվի սեփական տեսական ենթադրությունները փոխարեն Արմեն նրանց վավեր քննության ադեկվատության »:
Hart շարունակեց.
«Այն էմպիրիկ բացահայտումները վտակ բանվորական նախագծի պատմել մեզ մասին ավելի masculinist արժեքների կեսերին-րդ դարի սոցիոլոգիայի, քան նրանք տեղեկացնում գործընթացները շերտավորումը քաղաքականության եւ նյութական կյանքում»:
Կարող եք կարծում, այլ օրինակներ, որտեղ անպաճույճ տվյալների հավաքագրման ունի biases է տվյալների կոլեկցիոներ կառուցված մեջ այն. Ինչպես է դա համեմատել ալգորիթմական Խառը. Ինչ հետեւանք կարող է դա անհրաժեշտ, երբ հետազոտողները պետք է օգտագործել, մոդայիկ եւ, երբ նրանք պետք է օգտագործեն Custommades.
[ ] Այս գլխում, ես հակադրել տվյալները հավաքված են հետազոտողների համար հետազոտողների հետ վարչական գրանցումների ստեղծած ընկերությունների եւ կառավարությունների: Որոշ մարդիկ անվանում են այդ վարչական արձանագրություններ «գտել տվյալներով,« որը նրանք հակադարձելով », որոնք նախատեսված տվյալները.« Դա ճիշտ է, որ վարչական գրառումները հայտնաբերվել են, ըստ հետազոտողների, բայց նրանք նաեւ բարձր մշակված: Օրինակ, ժամանակակից տեխնոլոգիական ընկերությունները ծախսում հսկայական քանակությամբ ժամանակ եւ ռեսուրսներ հավաքել եւ համադրելու իրենց տվյալները: Այսպիսով, այդ վարչական արձանագրություններ են, այնպես էլ հայտնաբերվել եւ նախագծված, դա պարզապես կախված է ձեր տեսանկյունից (Նկար 2.10):
Օրինակ տվյալների աղբյուր, որտեղ տեսնելով այն, այնպես էլ որպես հայտնաբերվել եւ մշակված օգտակար է, երբ, օգտագործելով այդ տվյալների աղբյուրը հետազոտության.
[ ] Ի մտախոհ շարադրություն, Christian Sandvig եւ Eszter Hargittai (2015) Նկարագրել երկու տեսակի թվային հետազոտությունների, որտեղ թվային համակարգը "գործիքի» կամ «օբյեկտ ուսումնասիրության.« Օրինակ առաջին տեսակի ուսումնասիրության, որտեղ Bengtsson եւ գործընկերները (2011) , որն օգտագործվում բջջային հեռախոս տվյալների է հետեւել միգրացիայի երկրաշարժից հետո Հայիթիում 2010 թ. Որպես օրինակ երկրորդ տեսակի, որտեղ Jensen (2007) ուսումնասիրությունները, թե ինչպես է ներդրումը բջջային հեռախոսների ողջ Kerala, Հնդկաստանը ազդեցություն գործունեությունը շուկայում ձուկ. Ես գտնում եմ, որ այս օգտակար է, քանի որ պարզաբանում է, որ ուսումնասիրությունները օգտագործելով թվային տվյալների աղբյուրները կարող են ունենալ միանգամայն տարբեր նպատակներ, նույնիսկ այն դեպքում, եթե նրանք օգտագործում են նույն տեսակի տվյալների աղբյուր: Որպեսզի հետագայում պարզել այս տարբերակում, նկարագրելու չորս ուսումնասիրություններ, որ դու տեսել երկու, որ օգտագործել թվային համակարգի, որպես գործիքի, իսկ երկու օգտագործել թվային համակարգի, որպես օբյեկտ ուսումնասիրության. Դուք կարող եք օգտագործել օրինակներ այս գլխում, եթե դուք ուզում եք.