Gakoa:
[ , ] Algoritmikoa nahastarazterainoko Google Gripearen joerak arazo bat izan zen. Irakurri by paper Lazer et al. (2014) , eta, arazoa azalduz eta arazoa nola konpondu ideia bat eskainiz Google ingeniariak behar email argi labur bat idatzi.
[ ] Bollen, Mao, and Zeng (2011) aldarrikatu Twitter-etik datu hori burtsa iragartzeko erabil daitezke. Aurkikuntza honek bat hedge fund-Derwent Capital Merkatuak-burtsa inbertitzeko oinarritutako Twitter bildutako datuak on sortzea ekarri zuen (Jordan 2010) . Zer froga litzateke zure dirua jarriz fondo hori aurretik ikusi nahi dituzu?
[ ] Zenbait osasun publikoaren defendatzaileak kazkabarra e-zigarroak bitartean erretzeari uzteko laguntzak eraginkor gisa, besteen balizko arriskuak, hala nola txarra goi-mailetan bezala buruz ohartarazteko. Imajinatu ikertzaile duten e-zigarroak aldera iritzi publikoa aztertzeko e-zigarroak erlazionatutako Twitter mezu biltzeko eta sentimendu analisia eginez erabakitzen.
[ ] 2009ko azaroan, Twitter auzia aldatu tweet-koadroko "Zer egiten ari zara?" Ra "Zer ari da gertatzen?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) aztertu 41,7 milioi erabiltzaile profilak, 1,47 milioi gizarte harremanak, 4262 trending topics, eta 106 milioi ekainaren 6an eta ekainaren 31ra bitartean tweets, 2009. Azterketa honek Twitter hori baino partekatzen informazio baliabide berri bat bezala gehiago balio ondorioztatu dute gizarte sarea.
[ ] "Txertatu" askotan eragina neurtzeko erabiltzen dira, eta eragin Twitterren zabaldu. Hasieran, erabiltzaile kopiatu tweet dute gustatu, bere / bere heldulekua jatorrizko egilearen etiketatzeko, eta eskuz "RT" tweet aurretik retweet bat dela adierazteko izan. Gero, 2009an, Twitter gehitu "retuiteatzea" botoia. 2016ko ekainean, Twitter egin erabiltzaileek beren tweets egin retweet (https://twitter.com/twitter/status/742749353689780224) posible da. Ez aldaketa horiek "retweet" nola erabili zure ikerketan duzun eragina izango duela uste duzu? Zergatik ez?
[ , , ] Michel et al. (2011) eraiki Google ahalegina liburuak digitalizatzeko hasi berri diren corpus bat. corpus du, eta horrek 2009an argitaratu eta 5 milioi digitalizatuta liburu baino gehiago jasotzen zen lehen bertsioa erabiliz, egileek aztertu hitza erabileraren maiztasuna hizkuntz aldaketa eta kultur joerak ikertzeko. Laster Google Books Corpus datuak ikertzaile iturria ezaguna bihurtu zen, eta 2an datu-basearen bertsio bat 2012an kaleratu zen.
Hala ere, Pechenick, Danforth, and Dodds (2015) ohartarazi ikertzaileak erabat karakterizatzeko laginketa corpus-prozesua hura erabiltzen ondorioen zabala marrazteko aurretik behar. Gai nagusia da corpus hori liburutegi-bezalakoa da, liburu bakoitzeko bat daukan. Ondorioz, pertsona bat bezala, Idazle oparo esaldi berriak nabarmen txertatu Google Books lexikoari sartu ahal da. Gainera, testu zientifiko 1900s zehar corpus-zati gero eta substantibo bat osatzen dute. Horrez gain, bi ingeles Narratiba datu multzoak Pechenick et al bertsioak alderatuz. aurkitutako froga nahikoak iragazketa duten lehen bertsioa ekoizteko erabili zen. jarduera egiteko beharrezkoak diren datu guztiak eskuragarri dago hemen: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) buruzko NSA / PRISM zaintza (hau da, Snowden errebelazio) 2013ko ekainean hedatuago publizitate trafikoaren beherakada handia eta bat-batean Wikipedia artikuluen gaiak pribatutasuna kezka goratzen duten on lotutako ote da esploratzen. Hala bada, portaera aldaketa honek masa zaintza ondoriozko eragin chilling bat koherentea izango litzateke. Planteamendua Penney (2016) da, batzuetan, eten denbora serie diseinua deritzo, eta planteamendu zerikusia kapituluan esperimentu hurbiltzen datuak behaketa (2.4.3 atala) tik buruz.
Gai keywords aukeratzeko, Penney US Batuetako Segurtasun sailak erabilitako jarraipen eta social media jarraipena egiteko zerrendan aipatzen. DHS zerrendan sailkatu zenbait bilaketa-terminoak gaiak, hau da, "Osasun kezka," "Azpiegitura Segurtasuna," eta "Terrorismoaren. Sorta bat sartu" ikerketa talde baterako, Penney erabiltzen berrogeita zortzi keywords lotutako "Terrorismoaren" (ikus 8. taula eranskina). gero agrega He Wikipedia Artikuluari dagokion berrogeita zortzi Wikipedia hogeita bi hilabeteko epean artikulu for hilero, 2012ko urtarrilaren hasieran 2014. abuztuaren bukaera arte bere argudioa indartzeko, zenbait konparazio halaber sortu zuen artikulu aldiz segimendua beste gaiei buruzko talde.
Orain, errepikatzeko eta zabaltzeko zoazen Penney (2016) . gordinak datu guztiak erabiltzen jarduera horretarako izango duzu behar da Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/) eskuragarri. Edo bertan eskuratu ahal izango duzu R paketea wikipediatrend batetik (Meissner and Team 2016) . Noiz idatzi-up duzu zure erantzunak, kontuan izan zein datu iturria erabiltzen dituzu. (Oharra: jarduera hori bera 6. kapituluan agertzen)
[ ] Efrati (2016) txostenak, informazio konfidentziala, "guztira partekatzea" Facebook-en arabera,% 5,5 inguru urtean jaitsi zen urte baino gehiago "jatorrizko difusio partekatzea", berriz, behera urtean baino% 21 urtean. Beherakada hau bereziki 30 urtetik beherako Facebook erabiltzaile batzuekin akutua izan zen. Txostenak gainbehera egotzitako bi arrazoi. One "lagun" Jende Facebooken dute kopuruaren hazkundea da. Bestea da partekatzea jarduera batzuk ditu mezularitza eta, besteak beste, SnapChat lehiakide pasa. Txostena ere agerian hainbat taktika Facebook partekatzea sustatzeko saiatu zela, News Feed algoritmoa Tweaks jatorrizko mezu gehiago destacados egin duten, baita mezu jatorrizko erabiltzaile "egun honetan" Duela zenbait urte abisuak aldizkako barne. Zein ondorio, baldin badago, ez du aurkikuntza horiek Facebook datuak iturri gisa erabili nahi duten ikertzaileentzat dute?
[ ] Tumasjan et al. (2010) du tweets alderdi politiko bat aipatzea proportzio hori datorren boto party, Alemaniako hauteskunde parlamentario jaso zuen 2009an (2.9 irudia) proportzioa. Beste era batera esanda, Twitter erabil ditzakezun hauteskunde iragartzeko agertu da. denboraren azterketa hau argitaratu zen At jotzen zen oso zirraragarria big datuak iturri komun bat erabiltzeko baliotsua iradokitzen zirudien delako.
Emandako datuak big ezaugarri txarrak, ordea, berehala izango Emaitza honen eszeptikoa behar duzu. Twitterren alemanak 2009 urtean nahiko ez adierazgarri taldea izan da, eta festa bat aldekoak politikari buruz tweet maizago. Horrela, harrigarria badirudi ere imajinatu ahal izango duzu, ahalik eta lodirik guztiak, nolabait, hori luketela. Izan ere, emaitzak Tumasjan et al. (2010) aktibatuta too ona izan egia izan. Bere paper batean, Tumasjan et al. (2010) jotzen sei alderdi politikoak: Christian demokratak (CDU), Christian Social demokraten (CSU), SPD, liberalek (FDP), Ezker (Die Linke), eta Green Party (Grüne). Hala ere, gehien aipatutako German alderdiaren politiko Twitterren garai hartan Pirate Party (Piraten), festa bat gobernuak Internet arautzeko borroka zela. Noiz Pirate Alderdi azterketatik kanpo utzi zuten, Twitter aipamen terrible emaitzak hauteskunde (2.9 irudia) predictor bat bihurtzen (Jungherr, Jürgens, and Schoen 2012) .
Ondoren, mundu osoko beste ikertzaileek erabili duten fancier metodo-hala nola sentimendu analisia erabiliz positiboak eta negatiboak artean bereizteko gisa aipatzen ordena Twitter datuen gaitasuna hauteskunde motei hainbat iragartzea hobetzeko alderdi-en (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Hona nola Huberty (2015) laburbildu Saiakera horiek hauteskundeetan iragartzeko emaitzak:
"Oinarritutako hedabide sozialetan guztiak ezagutzen aurreikuspeneko sistema huts egin du benetako etorkizunera begira hauteskunde aurreikuspena eskaerei jasaten. porrotak horiek agertzen social media oinarrizko propietate, baizik eta zailtasun metodologiko edo algoritmikoak baino ondorioz izan da. Laburbilduz, social media, ez egin, eta ziurrenik inoiz izango,, inpartziala, ordezkari hautesleak irudi egonkor bat eskaintzen; eta erosotasuna social media laginak arazo horiek idazteko hoc konpondu behar adinako datuak falta. "
Irakurri ikerketa eramango duten batzuk Huberty (2015) ondorio horretara, eta orri bat ohar bat idatzi hautagai politiko bat Twitter erabili behar bada, eta nola hauteskundeetan aurreikustea deskribatzeko.
[ ] Zer da soziologo eta historialari baten arteko aldea? Goldthorpe dioenez (1991) , soziologo eta historialari baten arteko ezberdintasun nagusia datu bilketa kontrolatzea. Historialariek behartutako erlikiak erabili soziologoak, berriz, beren datu bilketa neurrira, helburu jakin bat. Irakurri Goldthorpe (1991) . Nola soziologia eta historia arteko aldea Custommades eta Readymades ideia lotuta dago?
[ ] Aurreko galderan eraikitzea, Goldthorpe (1991) Drew erantzunak kritikoa kopuru bat, inork Nicky Hart barne (1994) Goldthorpe en debozio desafioa egin duten datuak neurrira. neurrira egindako datu mugak potentziala argitzeko, Hart affluent Langileen Project, inkesta handi bat klase sozial eta boto arteko harremana zela Goldthorpe eta lankideek zuzendaritzapean 1960ko hamarkadaren erdialdean hasi neurtzeko deskribatu. scholar bat Favorecidas diseinatu aurkitutako datuen gaineko datuak ditzakeela, espero bezala, aberats Langileen Project bildutako hori egokitutako zen duela gutxi proposatu klase sozialaren etorkizunari buruzko teoria bat aurre egiteko bizimodu maila handituz garai batean datuak. Baina, Goldthorpe eta lankideek nolabait "ahaztua" emakumeen boto portaera buruzko informazioa biltzeko. Hemen da Nicky Hart nola (1994) osoa pasartea laburpenak:
". . . Zaila egiten [da] ondorioztatu emakumeak ez dira agertzen honek 'neurrira egindako' multzoaren zen logika paradigmatikoa zein emakumezkoak esperientzia baztertuen mugatzen delako saihesteko. Klase kontzientzia eta ekintza gizonezkoa kezka gisa ikuspen teoriko bat bultzatuta. . . , Goldthorpe eta bere lankideek eraiki froga enpirikoak zein elikatzen eta beren hipotesi teoriko propioak elikatu ordez horiek agerian uzten baliozko egokitasun-proba bat egiteko multzo bat. "
Hart jarraitu:
"Affluent Langileen Project aurkikuntza enpiriko digute erdialdean mendeko soziologia balioak masculinist buruz gehiago estratifikazioa, politika eta material bizitza prozesuak informatzeko baino."
Ezin beste adibide non neurrira egindako datu bilketa barneratzen datuak biltzen du lodirik du uste duzu? Nola hau alderatu algoritmikoak nahastarazterainoko den? Zer ondorio horixe denean ikertzaileek Readymades erabili beharko dute eta noiz Custommades erabili behar dira?
[ ] Kapitulu honetan, administrazio-erregistroak enpresen eta gobernuen sortu dituzten ikertzaileentzat ikertzaileek bildutako datuak kontrastatu dut. Batzuek deitu administrazio-erregistro horiek "aurkitutako datuak," horrek kontrastatu dute "diseinatu datuak." Egia da administrazio-erregistroak, ikertzaileek aurkitu dira, baina aldi berean oso diseinatuta daude. Adibidez, teknologiako enpresa modernoak pasatzeko denbora kantitate eta baliabide izugarria bildu eta euren datuak komisario. Horrela, administrazio-erregistro horiek biak topatu eta diseinatu zuen, besterik gabe, zure ikuspegitik (2.10 irudia) araberakoa.
Datu iturria adibide bat eskaintzea non ikusten topatu eta diseinatu lagungarria da, bai, datu-ikerketako iturriak erabiltzean.
[ ] Pentsakor saiakera batean, Christian Sandvig eta Eszter Hargittai (2015) bi ikerketa digitala, non sistema digital "tresna" edo da mota deskribatzeko "ikerketa objektu." Ikasketen lehenengo mota adibide bat da non Bengtsson eta lankideek (2011) telefono mugikorraren datuen erabilitako migrazio jarraitzeko Haitiko lurrikararen ondoren 2010ean bigarren motako adibide bat da, non Jensen (2007) ikasketak nola Kerala osoan telefono mugikorrak sarrera, India arrain merkatuan funtzionamendua eragin. zaio hau aurkitu dut datu digital iturriak erabiliz ikasketak helburuak oso desberdinak Datu-iturri mota bera erabiltzen ari bada ere, izan daiteke argitzen duelako. bi sistema digital bat erabiltzen duten tresna gisa, eta bi sistema digital bat erabiltzen duten ikerketa objektu bat bezala: ordena, argiago bereizketa honetan, lau ikasketak duzula ikusi deskribatzeko. Adibide erabil dezakezu kapitulu honetan nahi baduzu.