Ŝlosilo:
[ , ] Algoritma konfuzante estis problemo kun Google Flu Trends. Legi la papero de Lazer et al. (2014) , kaj skribi mallongan, klaran retpoŝto al inĝeniero ĉe Google klarigas la problemon kaj proponante ideo de kiel ripari la problemon.
[ ] Bollen, Mao, and Zeng (2011) asertas ke datumoj de Twitter povas esti uzata por antaŭdiri la borso. Tiu trovo kaŭzis la kreadon de heĝo fonduso-Derwent Capital Markets-investi en la proviza merkato bazita sur datumoj kolektitaj de Twitter (Jordan 2010) . Kio evidentigas vi volas vidi antaŭ meti vian monon en tiu fondaĵo?
[ ] Dum kelkaj publika sano pledantoj hajlo elektronika cigaredoj kiel efika helpo por fumado ĉeso, aliaj avertas pri la eblaj riskoj, kiel ekzemple la alta niveloj de nikotino. Imagu ke esploristo decidas studi publika opinio al elektronika cigaredojn kolektante elektronika cigaredoj-rilataj Twitter afiŝojn kaj faranta senton analizo.
[ ] En novembro 2009, Twitter ŝanĝis la demando en la tuit skatolo el "Kion vi faras?" Al "Kio okazas?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analizis 41.7 milionoj uzanto profiloj, 1.47 miliardoj sociaj rilatoj, 4262 trending topics, kaj 106 milionoj de tweets inter junio 6a kaj junio 31, 2009. Bazita sur ĉi analizo finis ke Twitter funkcias pli kiel nova meza de informo dividanta ol socia reto.
[ ] "Retweets" estas ofte uzita por mezuri influo kaj disvastigi influon en Twitter. Komence, uzantoj devis kopii kaj almeti la tweet ili ŝatis, donu la originala aŭtoro kun lia / ŝia anso, kaj permane tajpi "RT" antaŭ la tweet por indiki ke ĝi estas retweet. Tiam, en 2009 Twitter aldonis "retweet" butonon. En junio 2016, Twitter ebligis uzantoj retweet ilian propran tweets (https://twitter.com/twitter/status/742749353689780224). Ĉu vi pensas ĉi tiujn ŝanĝojn devus influi kiel vi uzas "retweets" en via esploro? Kial aŭ kial ne?
[ , , ] Michel et al. (2011) konstruis corpus travivinte Google penon diĝitigi libroj. Uzante la unua versio de la korpuso, kiu estis eldonita en 2009 kaj enhavis super 5 milionoj digitalizado libroj, la aŭtoroj analizis vorto uzado ofteco esplori lingvajn ŝanĝojn kaj kulturaj tendencoj. Baldaŭ la Google Books Tekstaro iĝis populara datumfonto por esploristoj kaj 2nd versio de la datumbazo estis liberigita en 2012.
Tamen Pechenick, Danforth, and Dodds (2015) avertis ke esploristoj devas plene karakterizi la muestreo procezo de la korpuso antaŭ uzi ĝin por desegni larĝajn konkludojn. La ĉefa afero estas, ke la tekstaro estas biblioteko-simila, enhavanta unu el ĉiu libro. Kiel rezulto, individuo, fekunda aŭtoro povas rimarkinde enmeti novajn frazojn en la Google Books leksikon. Cetere, sciencaj tekstoj konsistigas ĉiufoje substantiva parto de la korpuso tra la 1900-aj jaroj. Krome, komparante ambaŭ versioj de la angla Fikcio datumaroj Pechenick et al. trovis indicon ke nesufiĉa filtrado estis uzita en produktado de la unua versio. Ĉiujn datumojn bezonis por aktiveco estas havebla ĉi tie: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) esploras ĉu la ĝeneraligitan diskonigo pri LSA / PRISM viglado (te la Snowden riveloj) en junio 2013 estas asociita kun akra kaj subita malkresko en trafiko al Vikipedio artikolojn pri temoj kiuj levi privateco konzernojn. Se jes, tiu ŝanĝo en konduto estus kohera kun escalofriante efekto rezultanta de maso viglado. La alproksimiĝo de Penney (2016) estas iam nomita interrompita tempo serio dezajno kaj estas rilatigita kun la aliroj en la ĉapitro pri aproksimanta eksperimentoj de observaj datumoj (Sekcio 2.4.3).
Elekti la temon ŝlosilvortoj, Penney referita al la lerta uzita de Usono Sekcio de Ŝtatsekureco por spurado kaj monitoranta socia amaskomunikilaro. La DHS listo klasifikas certaj serĉvorton en gamo da temoj, te "Sano Zorgiga" "Infrastrukturo Sekureco" kaj "terorismo". Por la grupo de studo, Penney uzata la kvardek-ok ŝlosilvortoj rilataj al "terorismo" (vidu Tabelon 8 apendico). Li tiam agregita Vikipedia artikolo vido havas monata bazo por la responda kvardek ok Vikipedio artikoloj super tridek du monata periodo, de la komenco de januaro 2012 ĝis la fino de aŭgusto 2014. Por fortigi lian argumenton, li ankaŭ kreis plurajn komparo grupoj de sekvado artikolo opiniojn pri aliaj temoj.
Nun, vi tuj repliki kaj etendi Penney (2016) . Ĉiuj krudaj datumoj kiuj vi bezonos por tiu aktiveco estas havebla de Vikipedio (https://dumps.wikimedia.org/other/pagecounts-raw/). Aŭ vi povas akiri ĝin de la R pakaĵo wikipediatrend (Meissner and Team 2016) . Kiam vi skribas-supre via respondojn, bonvolu noti ke datumfonto vi uzis. (Noto: Ĉi tiu aktiveco ankaŭ aperas en ĉapitro 6)
[ ] Efrati (2016) raportoj, bazita sur konfidenca informo, ke "totala sharing" en Facebook malkreskis de proksimume 5.5% jaron sur jaro dum "originala elsendo sharing" subiris 21% jaro sur jaro. Tiu malkresko estis aparte akra kun Facebook uzantoj sub 30 jaroj de aĝo. La raporto atribuis la malkreskon al du faktoroj. Unu estas la kresko en la nombro de "amikoj" homoj havas en Facebook. La alia estas, ke kelkaj interŝanĝo aktiveco delokis al messaging kaj competidores kiel Snapchat. La raporto ankaŭ rivelis la pluraj taktikoj Facebook provis akceli sharing, inkluzive Novaĵoj Feed algoritmo retuŝojn kiuj originalan afiŝojn pli elstaraj, krom fojfoja recordatorios de la originala afiŝojn uzantoj "Sur tiu tago" pluraj jaroj. Kio implikaĵoj, se entute, ne tiuj trovoj havas por esploristoj kiuj volas uzi Facebook kiel datumfonto?
[ ] Tumasjan et al. (2010) raportis ke proporcio de tweets mencianta politika partio egalita la proporcio de voĉdonoj kiujn partio ricevis en la germana parlamenta balotado en 2009 (Figuro 2.9). Alivorte, ĝi aperis ke vi povis uzi Twitter por antaŭdiri la elekto. Tiutempe tiu studo estis eldonita konsideris ege ekscita ĉar ĝi ŝajnis sugesti valoran uzon por komuna fonto de grandaj datumoj.
Donita la malbona karakterizaĵoj de grandaj datumoj, tamen, vi devas tuj esti skeptika de ĉi tiu rezulto. Germanoj sur Twitter en 2009 estis sufiĉe ne-reprezentan grupon, kaj subtenantoj de unu partio povus tweet pri politiko pli ofte. Tiel, ŝajnas surprize, ke ĉiuj eblaj antaŭjuĝoj kiujn vi povus imagi iel nuligas. Fakte, la rezultoj en Tumasjan et al. (2010) rezultis esti tro bona esti vera. En sia papero, Tumasjan et al. (2010) konsiderita ses politikaj partioj: kristandemokratoj (CDU), kristana Socialdemokratoj (CSU), SPD, Liberaluloj (FDP), La Maldekstra (Die Linke), kaj la Verda Partio (Grüne). Tamen, la plej menciita germana politika partio sur Pepi tiutempe estis la Piratpartio (Piraten), partio kiu batalo registaro regulado de Interreto. Kiam la Piratpartio estis inkluditaj en la analizo, Twitter mencioj fariĝas terura antaŭdiron de balotrezultoj (Figuro 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Poste, aliaj esploristoj tutmonde uzis amatoro metodoj -kiel uzante sento analizo distingi inter pozitiva kaj negativa mencioj de la partioj-por plibonigi la kapablon de Twitter datumoj antaŭdiri gamon da malsamaj specoj de elektoj (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Jen kiel Huberty (2015) resumis la rezultojn de tiuj provoj antaŭdiri elektoj:
"Ĉiuj scias prognozanta metodoj bazitaj sur socia amaskomunikilaro malsukcesis kiam submetita al la postuloj de vera antaŭen-aspekta voĉdona prognozanta. Tiuj fiaskoj ŝajnas esti pro fundamentaj propraĵoj de sociaj rimedoj, prefere ol al metodika aŭ algoritma malfacilaĵoj. Mallonge, sociaj amaskomunikiloj ne, kaj probable neniam estos, proponi stabila, nedekliva, reprezenta bildo de la balotantaro; kaj oportuneco specimenoj de sociaj amaskomunikiloj mankis sufiĉaj datumoj por fiksi tiujn problemojn afiŝi hoc. "
Legi iuj de la esploro kiu kondukas Huberty (2015) al tiu konkludo, kaj skribi unu paĝo memo al politika kandidato priskribanta se kaj kiom Twitter uziĝu prognozi elektoj.
[ ] Kio estas la diferenco inter sociologo kaj historiisto? Laŭ Goldthorpe (1991) , la ĉefa diferenco inter sociologo kaj historiisto estas kontrolon super datumoj kolekto. Historiistoj estas devigataj uzi relikvoj dum sociologoj povas adapti ilian datenkolektado por specifaj celoj. Legi Goldthorpe (1991) . Kiamaniere la diferenco inter sociologio kaj historio rilatigita kun la ideo de Custommades kaj Readymades?
[ ] Konstruante sur la antaŭa demando, Goldthorpe (1991) tiris kelkaj kritikaj respondoj, inkludante unu el Nicky Hart (1994) , kiu defiis Goldthorpe devoteco tajlori faris datumoj. Klarigi la eblajn limojn de tajloro-farita datumoj, Hart priskribis la alfluanto Worker Projekto, granda enketo por mezuri la rilaton inter socia klaso kaj balotado kiu estis kondukita fare Goldthorpe kaj kolegoj en la mez-1960-aj jaroj. Kiel oni povus atendi de erudiciulo kiu favoris desegnita datumoj super trovis datumojn, la alfluanto Worker Projekto kolektita datumo kiu estis adaptita por trakti ĵus proponis teorion pri la estonteco de socia klaso en epoko de kreskantaj vivniveloj. Sed, Goldthorpe kaj kolegoj iel "forgesis" kolekti informojn pri la balotado konduto de virinoj. Jen kiel Nicky Hart (1994) Resumoj la tuta epizodo:
". . . ĝi [estas] malfacile eviti la konkludon ke virinoj estis preterlasita pro tiu 'tajloro faris' dataset estis ligitaj per paradigmática logiko kiu ekskludis ino sperto. Pelita de teoria vizio klaso konscio kaj ago kiel viraj maltrankviloj. . . , Goldthorpe kaj liaj kolegoj konstruis aron de empiriaj pruvoj kiuj nutris kaj nutris sian propran teorian supozoj anstataŭ elmontri ilin al valida provo de taŭgeco. "
Hart daŭrigis:
"La empiriaj rezultoj de la alfluanto Worker Projekto diras nin pli sur la masculinist valoroj de mezjarcento sociologio ol informi la procezoj de tavoliĝo, politiko kaj materiala vivo."
Povas vin pensas de aliaj ekzemploj kie tajloro-farita datenkolektado havas la antaŭjuĝoj de la datumoj kolektanto konstruita en ĝin? Kiel ĉi kompari al algoritma konfuzante? Kio implikaĵoj cxu tio havas por kiam esploristoj devus uzi Readymades kaj kiam ili devus uzi Custommades?
[ ] En ĉi tiu ĉapitro, mi kontrastis datumoj kolektitaj de esploristoj por esploristoj kun administraj registroj kreita de entreprenoj kaj registaroj. Kelkaj homoj nomas tiujn administrajn rekordojn "trovis datumojn," kiun ili kontrastas kun "desegnita datumojn." Estas vere, ke administraj registroj estas trovita de esploristoj, sed ili estas ankaŭ tre desegnita. Ekzemple, moderna teknologio kompanioj elspezi enormajn kvantojn de tempo kaj rimedoj por kolekti kaj helppastro liajn datumojn. Tiel, tiuj administraj registroj estas ambaŭ trovitaj kaj desegnita, Ĝi nur dependas sur via perspektivo (Figuro 2.10).
Provizas ekzemplon de datumfonto kie vidas ŝin kaj kiel trovi kaj desegnitaj estas helpema uzinte ke datumfonto por esplorado.
[ ] En pensema eseo, kristanaj Sandvig kaj Eszter Hargittai (2015) priskribi du specoj de ciferecaj esploro, kie la cifereca sistemo estas "instrumento" aŭ "objekto de studo." Ekzemplo de la unua speco de studo kie Bengtsson kaj kolegoj (2011) uzita poŝtelefono datumoj spuri migradon post la tertremo en Haitio en 2010. ekzemplo de la dua speco estas kie Jensen (2007) studoj kiel la enkonduko de moveblaj telefonoj tra Kerala, Hindio efikis la funkciadon de la merkato por fiŝoj. Mi trovas helpema ĉar ĝi klarigas ke studojn uzante ciferecaj datumoj fontoj povas havi tute malsamajn celojn eĉ se ili uzas la saman tipon de datumoj fonto. Por pliaj klarigi tiun distingon, priskribas kvar studoj kiuj vi jam vidis: du kiuj uzas ciferecan sistemon kiel instrumenton kaj du kiuj uzas ciferecan sistemon kiel objekto de studo. Vi povas uzi ekzemplojn el tiu ĉapitro, se vi volas.