[ , ] Algoritmiskā sajaukšana bija problēma ar Google gripas tendencēm. Lasiet papīru Lazer et al. (2014) un rakstiet īsu, skaidru e-pasta ziņojumu, kurā Google inženieris paskaidro problēmu un piedāvā ideju, kā to novērst.
[ ] Bollen, Mao, and Zeng (2011) apgalvo, ka Twitter datus var izmantot, lai prognozētu akciju tirgu. Šis konstatējums izraisīja riska ieguldījumu fondu - Derwent Capital Markets - ieguldīšanu akciju tirgū, pamatojoties uz datiem, kas iegūti no čivināt (Jordan 2010) . Kādus pierādījumus jūs vēlētos redzēt, pirms jūsu nauda tiek iekļauta šajā fondā?
[ ] Kaut arī daži sabiedrības veselības aizsardzības ieteikumi uzskata, ka e-cigaretes ir efektīvs atbalsts smēķēšanas pārtraukšanai, citi brīdina par iespējamiem riskiem, piemēram, par augstu nikotīna līmeni. Iedomājieties, ka pētnieks nolemj izpētīt sabiedrisko domu par e-cigaretēm, vācot ar e-cigaretēm saistītās čivināt ziņas un veicot sentimentu analīzi.
[ ] 2009. gada novembrī Twitter mainīja jautājumu cilnē "Ko jūs darāt?" Uz "Kas notiek?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" bieži tiek izmantoti, lai izmērītu ietekmes un izplatīšanās ietekmi uz čivināt. Sākotnēji lietotājiem bija jāpieskaņo un jāpielīmē viņiem patika čivināšana, atzīmējiet oriģinālu autori ar savu roku un manuāli ierakstiet "RT" pirms čivināt, lai norādītu, ka tas ir retweet. Tad 2009. gadā Twitter pievienoja pogu "retweet". 2016. gada jūnijā čivināšana ļāva lietotājiem atkārtoti izlasīt savus tweets (https://twitter.com/twitter/status/742749353689780224). Vai jūs domājat, ka šīm izmaiņām vajadzētu ietekmēt to, kā savā pētījumā izmantojat "retweets"? Kāpēc vai kāpēc ne?
[ , , , ] Plaši aplūkotā dokumentā Michel un viņa kolēģi (2011) analizēja vairāk nekā piecu miljonu digitalizēto grāmatu saturu, mēģinot noteikt ilgtermiņa kultūras tendences. Dati, kurus viņi izmantoja, tagad ir izlaisti kā Google NGrams datu kopums, tāpēc mēs varam izmantot datus, lai atkārtotu un paplašinātu daļu no viņu darba.
Vienā no daudzajiem rezultātiem rakstā Michel un viņa kolēģi apgalvoja, ka mēs aizmirstam ātrāk un ātrāk. Konkrētā gada laikā teiksim "1883. gadā", viņi aprēķināja proporciju 1 gramos, kas katru gadu tika publicēti laikā no 1875. līdz 1975. gadam, kas bija "1883". Viņi pamatoja, ka šī proporcija ir interese par notikumiem, kas notika tajā gadā. To 3.a attēlā viņi uzzīmēja izmantošanas trajektorijas trīs gadus: 1883, 1910 un 1950. Šiem trim gadiem ir kopīgs modelis: mazliet izmantojams pirms šī gada, tad smaile, tad sabrukums. Tālāk, lai noteiktu katra gada sabrukšanas ātrumu, Michel un viņa kolēģi aprēķināja katra gada "pussabrukšanas periodu" visu gadu laikā no 1875. gada līdz 1975. gadam. Savā 3.a attēlā (inset) viņi parādīja, ka katra pussabrukšanas periods gads samazinās, un viņi apgalvoja, ka tas nozīmē, ka mēs aizmirstam pagātni ātrāk un ātrāk. Viņi izmantoja angļu valodas korpusa 1. versiju, bet pēc tam Google izlaidusi otro korpusa versiju. Pirms sākat kodēšanu, lūdzu, izlasiet visas jautājuma daļas.
Šī aktivitāte ļaus jums rakstīt atkārtoti lietojamu kodu, interpretēt rezultātus un apstrādāt datus (piemēram, strādājot ar nepatīkamiem failiem un apstrādājot trūkstošos datus). Šī aktivitāte arī palīdzēs jums piepildīt un darboties ar bagātīgu un interesantu datu kopu.
Iegūstiet neapstrādātus datus no Google grāmatu NGram skatītāja tīmekļa vietnes. Jo īpaši jums vajadzētu izmantot angļu valodas korpusa 2. versiju, kas tika izlaista 2012. gada 1. jūlijā. Neuzspiežot šo failu, tas ir 1,4 GB.
Atjaunojiet Michel et al. (2011) 3.a attēla galveno daļu Michel et al. (2011) . Lai atkal izveidotu šo skaitli, jums būs vajadzīgi divi faili: viens, ko lejupielādējāt daļēji (a) un fails "kopējais skaits", kuru varat izmantot, lai pārveidotu izejvielu skaitu proporcijās. Ievērojiet, ka kopējam failu failam ir struktūra, kas to padara mazliet grūti lasīt. Vai NGram datu 2. versija rada tādus pašus rezultātus kā Michel et al. (2011) , kas balstās uz 1. versijas datiem?
Tagad pārbaudiet savu grafiku pret diagrammu, kuru izveidojis NGram Viewer.
Atkārtoti izveidojiet 3.a zīmējumu (galvenais attēls), bet mainiet \(y\) -slīpu kā neapstrādātu norāžu skaitu (nevis pieminēšanas ātrumu).
Vai atšķirība starp (b) un (d) noved pie tā, ka jūs no jauna novērtējat kādu no Michel et al. Rezultātiem? (2011). Kāpēc vai kāpēc ne?
Tagad, izmantojot iezīmēto proporciju, atkārtojiet 3.a zīmējuma ieliktni. Tas nozīmē, ka katru gadu no 1875. līdz 1975. gadam aprēķina šī gada pusperiodu. Pusspūšanas periods tiek definēts kā gadu skaits, kas tiek nodots, pirms pamatu daļa sasniedz pusi no maksimālās vērtības. Ņemiet vērā, ka Michel et al. (2011) veic kaut ko sarežģītāku, lai novērtētu pusperiodu - skatīt Atbalsta tiešsaistes informācijas sadaļu III.6., Taču viņi apgalvo, ka abas pieejas rada līdzīgus rezultātus. Vai NGram datu 2. versija rada tādus pašus rezultātus kā Michel et al. (2011) , kas balstās uz 1. versijas datiem? (Padoms: nebrīstiet, ja tā nav.)
Vai bija kādi gadi, kas bija pārspīlēti, piemēram, gadi, kas tika aizmirsti īpaši ātri vai īpaši lēni? Īsumā domājiet par iespējamiem šī modeļa iemesliem un paskaidrojiet, kā jūs identificējāt novirzes.
Tagad atkārtojiet šo rezultātu par NGrams datu 2. versiju ķīniešu, franču, vācu, ebreju, itāļu, krievu un spāņu valodā.
Vai salīdzinājumā ar visām valodām bija kādi gadi, kas bija pārspīlēti, piemēram, gadi, kas tika aizmirsti īpaši īpaši ātri vai īpaši lēni? Īsumā spekulējiet par iespējamiem šī modeļa iemesliem.
[ , , , ] Penney (2016) izpētīja, vai plaša publikācija par NSA / PRISM uzraudzību (ti, Snowden atklāsmes) 2013. gada jūnijā bija saistīta ar strauju un pēkšņu satiksmes samazināšanos uz Wikipedia rakstiem par tēmām, kas rada problēmas saistībā ar privātumu. Ja tā, tad šī uzvedības maiņa atbilstu atdzesēšanas efektam, kas radies masveida uzraudzības rezultātā. Penney (2016) pieeju dažreiz sauc par pārtraukto laika rindu dizainu, un tas ir saistīts ar 2.4.3. Iedaļā aprakstītajām metodēm.
Lai izvēlētos tēmu atslēgvārdus, Penney atsaucās uz sarakstu, ko ASV Iekšzemes drošības departaments izmantoja sociālo mediju izsekošanai un uzraudzībai. DHS sarakstā kategorizē dažus meklēšanas vienumus dažādos jautājumos, piemēram, "Veselības problēma", "Infrastruktūras drošība" un "Terorisms". Izpētes grupai Penney izmantoja 48 atslēgvārdus, kas saistīti ar "terorismu" (sk. Pielikuma 8. tabulu ) Pēc tam viņš apkopoja Vikipēdijas rakstu skatījumu ik mēnesi par atbilstošajiem 48 rakstiem Vikipēdijas 32 mēnešu periodā no 2012. gada janvāra sākuma līdz 2014. gada augusta beigām. Lai stiprinātu savu argumentu, viņš arī izveidoja vairākas salīdzināšanas grupas, izsekojot raksts viedokli par citām tēmām.
Tagad jūs gatavojaties atkārtot un paplašināt Penney (2016) . Visi sākotnējie dati, kas jums būs nepieciešami šai aktivitātei, ir pieejami Wikipēdijā. Vai arī jūs varat to saņemt no R-paketes wikipediatrend (Meissner and R Core Team 2016) . Kad jūs uzrakstiet savas atbildes, lūdzu, ņemiet vērā, kuru datu avotu izmantojāt. (Ņemiet vērā, ka šī pati darbība parādās arī 6. nodaļā.) Šī aktivitāte ļaus jums izmēģināt datu vingrināšanu un domāt par dabas eksperimentiem lielos datu avotos. Tas arī palīdzēs jums izveidot un darboties ar potenciāli interesantu datu avotu turpmākajiem projektiem.
[ ] Efrati (2016) , pamatojoties uz konfidenciālu informāciju, ziņoja, ka kopējais Facebook koplietošanas apjoms gada laikā ir samazinājies par aptuveni 5,5%, savukārt "oriģinālais apraide" gada laikā samazinājās par 21%. Šis samazinājums bija īpaši akūts ar Facebook lietotājiem, kas jaunāki par 30 gadiem. Ziņojumā šis samazinājums tika attiecināts uz diviem faktoriem. Viens no tiem ir Facebook draugu skaita pieaugums. Otrs ir tas, ka daži koplietošanas pasākumi ir pārgājuši uz ziņojumapmaiņu un tādiem konkurentiem kā Snapchat. Ziņojumā atklājās arī vairāki taktika, ar kuriem Facebook mēģināja veicināt koplietošanu, tostarp ziņu avota algoritma tweaks, kas padara oriģinālus ziņojumus pamanāmākus, kā arī periodiskus atgādinājumus par oriģinālajiem ziņojumiem ar funkciju "Par šo dienu". Kādas sekas, ja tādas ir, vai šie secinājumi ir pieejami pētniekiem, kas vēlas izmantot Facebook kā datu avotu?
[ ] Kāda ir atšķirība starp sociologu un vēsturnieku? Saskaņā ar Goldthorpe (1991) datiem galvenā atšķirība ir datu vākšanas kontrole. Vēsturnieki ir spiesti izmantot reliktus, savukārt sociologi var pielāgot datu vākšanu konkrētiem mērķiem. Lasiet Goldthorpe (1991) . Kā atšķiras socioloģija un vēsture, kas saistīta ar custommades un readymade ideju?
[ ] Tas pamatojas uz iepriekšējo jautājumu. Goldthorpe (1991) pievērsa virkni kritisku atbildi, tostarp vienu no Nicky Hart (1994) kas apstrīdēja Goldthorpe dievbijību pielāgotus datus. Lai noskaidrotu potenciālos ierobežotos datus par pielāgotajiem datiem, Harts aprakstīja Strādājošo darba ņēmēju projektu - lielu aptauju sociālo grupu un balsošanas attiecību noteikšanai, kuru Goldthorpe un viņa kolēģi veica 1960. gadu vidū. Kā varētu sagaidīt no pētnieka, kurš atbalstīja izstrādātos datus par atklātajiem datiem, Strādājošo strādnieku projekts apkopoja datus, kuri bija pielāgoti, lai risinātu nesen ierosinātās teorijas par sociālās klases nākotni pieaugošā dzīves līmeņa laikmetā. Bet Goldthorpe un viņa kolēģi kaut kā "aizmirsa" apkopot informāciju par sieviešu balsošanas izturēšanos. Lūk, kā Nicky Hart (1994) apkopoja visu epizodi:
"... ir grūti izvairīties no secinājuma, ka sievietes tika izlaistas, jo šo" pielāgoto "datu kopu ierobežoja paradigmātiska loģika, kas izslēdz sieviešu pieredzi. Balstoties uz teorētisko redzi par klases apziņu un rīcību kā vīriešu uzmanību ... Goldthorpe un viņa kolēģi uzbūvēja empīrisku pierādījumu kopumu, kas baroja un uzturēja savus teorētiskos pieņēmumus, nevis pakļaujot viņiem derīgu atbilstības pārbaudi. "
Hart turpināja:
"Stratēģiskā darbinieka projekta empīriskie atklājumi sniedz mums vairāk par gadsimta vidus socioloģijas masculinist vērtībām nekā viņi informē stratifikācijas, politikas un materiālās dzīves procesus."
Vai jūs varat iedomāties citus piemērus, kuros pielāgotai datu vākšanai ir iebūvēti datu vākšanas aizspriedumi? Kā tas salīdzina ar algoritmisko sajukumu? Kādas sekas tam varētu būt, ja pētniekiem būtu jāizmanto gatavošanas darbi un kad viņiem vajadzētu izmantot pasūtījuma darbus?
[ ] Šajā nodaļā esmu pretstatījis pētnieku savāktos datus pētniekiem ar administratīviem ierakstiem, kurus izveidojuši uzņēmumi un valdības. Daži cilvēki šos administratīvos ierakstus sauc par "atrasti dati", kuri ir pretrunā ar "izstrādātajiem datiem". Ir taisnība, ka pētnieki atrod administratīvos ierakstus, taču tie ir arī ļoti izstrādāti. Piemēram, moderno tehnoloģiju uzņēmumi ļoti strādā, lai savāktu un apkopotu savus datus. Tādējādi šie administratīvie ieraksti ir atrodami un izstrādāti, tas vienkārši ir atkarīgs no jūsu perspektīvas (2.12. Attēls).
Norādiet datu avota piemēru, ja to, ka atrodat un izveidojat, ir noderīgi, ja izmantojat šo datu avotu pētniecībai.
[ Pārdomātai esejai Christian Sandvig un Eszter Hargittai (2015) sadalīja digitālās izpētes divās plašās kategorijās atkarībā no tā, vai digitālā sistēma ir "instruments" vai "mācību objekts". Pirmā veida piemērs, kurā sistēma ir instruments ir Bengtssona un kolēģu (2011) pētījums par mobilo tālruņu datu izmantojumu, lai izsekotu migrāciju pēc 2010. gadā notikušās zemestrīces Haiti. Otrā veida piemērs, kurā sistēma ir pētījumu objekts, ir Jensena pētījums (2007) par to, kā mobilo tālruņu ieviešana visā Kerala, Indijā, ietekmēja zivju tirgus darbību. Es uzskatu, ka šī atšķirība ir noderīga, jo tā paskaidro, ka pētījumos, kuros izmantoti ciparu datu avoti, var būt diezgan atšķirīgi mērķi, pat ja tie izmanto tāda paša veida datu avotu. Lai tālāk precizētu šo atšķirību, aprakstiet četrus pētījumus, kurus esat redzējis: divi, kas izmanto digitālo sistēmu kā instrumentu, un divi, kas kā mācību objektu izmanto digitālo sistēmu. Jūs varat izmantot piemērus no šīs nodaļas, ja vēlaties.