aktiwiteite

Hierdie vertaling is geskep deur 'n rekenaar. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

aktiwiteite

sleutel:

moeilikheidsgraad: maklik , medium , hard , baie hard
vereis wiskunde ( $vereis wiskunde$ )
vereis kodering ( )
data-insameling ( )
my Gunstelinge ( )

[ , ] Algorithmic confounding was 'n probleem met Google Flu Trends. Lees die vraestel deur Lazer et al. (2014) , en skryf 'n kort, duidelike e-pos aan 'n ingenieur by Google verduidelik die probleem en die aanbied van 'n idee van hoe om die probleem op te los.
[ ] Bollen, Mao, and Zeng (2011) beweer dat data van Twitter kan gebruik word om die aandelemark te voorspel. Hierdie bevinding het gelei tot die skepping van 'n heining fonds-Derwent Kapitaalmarkte-om te belê in die aandelemark gebaseer op data wat versamel is van Twitter (Jordan 2010) . Watter bewyse sou jy wil sien voordat jou geld in daardie fonds?
[ ] Terwyl sommige openbare gesondheid advokate hael e-sigarette as 'n doeltreffende hulpmiddel vir ophou rook, ander waarsku oor die moontlike risiko's, soos die hoë-vlak van nikotien. Stel jou voor dat 'n navorser besluit om die openbare mening in die rigting van e-sigarette te bestudeer deur die versameling van e-sigarette-verwante Twitter poste en die uitvoer van sentiment analise.
1. Wat is die drie moontlike vooroordele wat jy die meeste bekommerd oor wat in hierdie studie?
2. Clark et al. (2016) het net so 'n studie. In die eerste plek hulle 850,000 tweets wat-e-sigaret verwante dokumente van Januarie 2012 gebruik deur middel van Desember 2014. By nadere ondersoek ingesamel, het hulle besef dat baie van hierdie tweets is outomatiese (dit wil sê, nie deur die mens) en baie van hierdie outomatiese tweets was in wese spots. Hulle ontwikkel 'n mens Detection Algoritme om outomatiese tweets skei van organiese tweets. Die gebruik van hierdie Human spoor Algoritme hulle bevind dat 80% van tweets is outomatiese. Maak hierdie bevinding verander jou antwoord om deel (a)?
3. Toe hulle die sentiment in organiese en outomatiese tweets in vergelyking hulle gevind dat die outomatiese tweets is meer positief as organiese tweets (6.17 teenoor 5.84). Maak hierdie bevinding verander jou antwoord op (b)?
[ ] In November 2009, Twitter verander die vraag in die tweet boks van "Wat doen jy?" Na "Wat gaan aan?" (Https://blog.twitter.com/2009/whats-happening).
1. Hoe dink jy die verandering van aanwysings sal beïnvloed wat tweet en / of wat hulle tweet?
2. Noem een navorsingsprojek waarvoor jy sou die vinnige verkies "Wat doen jy?" Verduidelik waarom.
3. Noem een navorsingsprojek waarvoor jy sou die vinnige verkies "Wat gaan aan?" Verduidelik waarom.
[ ] Kwak et al. (2010) ontleed 41.700.000 gebruikers profiles, 1470000000 sosiale verhoudings, 4262 trending onderwerpe, en 106000000 tweets tussen 6 Junie en 31 Junie 2009. Op grond van hierdie analise hulle die gevolgtrekking gekom dat Twitter vir meer as 'n nuwe medium van die deel van inligting as 'n sosiale netwerk.
1. Oorweging bevinding Kwak et al se, watter tipe navorsing sou jy doen met Twitter data? Watter tipe navorsing sal jy nie doen met Twitter data? Hoekom?
2. In 2010, Twitter bygevoeg 'n Wie Om Volg diens maak maat voorstel vir gebruikers. Drie aanbevelings word getoon op 'n slag op die hoofblad. Aanbevelings word dikwels uit 'n mens se "vriende-van-vriende," en wedersydse kontak word ook vertoon in die aanbeveling. Gebruikers kan verfris 'n nuwe stel van aanbevelings sien of besoek 'n bladsy met 'n lang lys van aanbevelings. Dink jy hierdie nuwe funksie sal jou antwoord om deel 'n verandering)? Hoekom of hoekom nie?
3. Su, Sharma, and Goel (2016) geëvalueer die effek van Wie Om Volg diens en bevind dat terwyl gebruikers regoor die gewildheid spektrum voordeel getrek het uit die aanbevelings, die gewildste gebruikers voordeel aansienlik meer as die gemiddelde. Maak hierdie bevinding verander jou antwoord om deel b)? Hoekom of hoekom nie?
[ ] "Retweets" word dikwels gebruik om invloed te meet en te versprei van invloed op Twitter. Aanvanklik, gebruikers het om te kopieer en plak die tweet hulle graag, merk die oorspronklike skrywer met sy / haar handvatsel, en met die hand tik "RT" voor die tweet om aan te dui dat dit 'n retweet. Toe, in 2009 Twitter bygevoeg 'n "retweet" knoppie. In Junie 2016, Twitter het dit moontlik gemaak vir gebruikers om hul eie tweets Retweet (https://twitter.com/twitter/status/742749353689780224). Dink jy hierdie veranderinge moet beïnvloed hoe jy "retweets" gebruik in jou navorsing? Hoekom of hoekom nie?
[ , , ] Michel et al. (2011) gebou 'n corpus na vore kom uit Google se poging om boeke te digitaliseer. Die gebruik van die eerste weergawe van die corpus, wat in 2009 gepubliseer is en wat meer as 5 miljoen gedigitaliseerde boeke, die skrywers ontleed woord gebruiksfrekwensie taalkundige veranderinge en kulturele tendense te ondersoek. Gou het die Google Books Corpus n gewilde databron vir navorsers, en 'n 2-weergawe van die databasis is vrygestel in 2012.

Maar Pechenick, Danforth, and Dodds (2015) het gewaarsku dat navorsers nodig om ten volle te karakteriseer die monsterneming proses van die corpus voordat dit gebruik word vir 'n breë gevolgtrekkings. Die grootste probleem is dat die corpus is biblioteek-agtige, wat een van elke boek. As gevolg hiervan, 'n individu, produktiewe skrywer in staat is om merkbaar voeg nuwe frases in die Google Books leksikon. Verder, wetenskaplike tekste vorm 'n toenemend substantiewe gedeelte van die corpus regdeur die 1900's. Daarbenewens word deur vergelyking van twee weergawes van die Engelse fiksie datastelle, Pechenick et al. bewyse gevind dat onvoldoende filter gebruik in die vervaardiging van die eerste weergawe. Al die data wat nodig is vir aktiwiteit is hier beskikbaar: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. In Michel et al. Oorspronklike papier (2011) , gebruik hulle die 1ste weergawe van die Engelse datastel, geplot die frekwensie van gebruik van die jaar "1880", "1912" en "1973", en die gevolgtrekking gekom dat "ons is vergeet ons verlede vinniger met elke jaar wat verbygaan "(Fig. 3A, Michel et al.). Herhaal dieselfde plot met behulp van 1) 1 weergawe van die corpus, Engels dataset (dieselfde as Fig. 3A, Michel et al.)
2. Nou herhaal dieselfde plot met die 1ste weergawe, Engels fiksie dataset.
3. Nou herhaal dieselfde plot met die 2de weergawe van die corpus, Engels dataset.
4. Ten slotte, herhaal dieselfde plot met die 2de weergawe, Engels fiksie dataset.
5. Beskryf die verskille en ooreenkomste tussen hierdie vier erwe. Stem jy saam met se Michel et al. Oorspronklike interpretasie van die waargeneem tendens? (Wenk: c) en d) moet dieselfde as Figuur 16 in Pechenick et al).
6. Jy het nou hierdie een bevinding het herhaal met behulp van verskillende Google Books korpora, kies 'n ander taal verandering of kultuurverskynsels in se Michel et al. Oorspronklike papier. Stem jy saam met die interpretasie daarvan in die lig van die inligting wat in Pechenick et al beperkings.? Om jou argument sterker te maak, probeer herhaal dieselfde grafiek gebruik te maak van verskillende weergawes van data soos hierbo uiteengesit.
[ , , , ] Penney (2016) ondersoek of die wydverspreide publisiteit oor NSA / PRISM toesig (dit wil sê, die Snowden onthullings) in Junie 2013 is wat verband hou met 'n skerp en skielike afname in verkeer na Wikipedia artikels oor onderwerpe wat privaatheid opper. Indien wel, sou hierdie verandering in gedrag in ooreenstemming met 'n verlammende effek as gevolg van massa toesig wees. Die benadering van Penney (2016) word soms 'n onderbroke tydreekse ontwerp en verband hou met die benaderings in die hoofstuk oor benader eksperimente uit waarneming data (Afdeling 2.4.3).

Om van te kies die onderwerp sleutelwoorde, verwys Penney die lys gebruik deur die Amerikaanse Departement van Binnelandse Veiligheid vir die dop en monitering van sosiale media. Die DHS lys kategoriseer sekere soekterme in 'n verskeidenheid van onderwerpe, naamlik "Gesondheid Kommer," "Infrastruktuur Sekuriteit," en "terrorisme." Vir die studiegroep, Penney gebruik die agt en veertig sleutelwoorde wat verband hou met "terrorisme" (sien tabel 8 bylaag). Hy het daarna saamgevoeg Wikipedia artikel kyktellings op 'n maandelikse basis vir die ooreenstemmende agt en veertig Wikipedia artikels oor 'n tydperk twee en dertig maande, vanaf die begin van Januarie 2012 tot die einde van Augustus 2014. Om sy argument te versterk, hy het ook 'n paar vergelyking groepe deur die dop standpunte artikel oor ander onderwerpe.

Nou, gaan jy herhaal en uit te brei Penney (2016) . Al die rou data wat jy nodig het vir hierdie aktiwiteit is beskikbaar by Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Of jy kan dit kry van die R-pakket wikipediatrend (Meissner and Team 2016) . Wanneer jy skryf-up jou antwoorde, asseblief daarop let wat databron wat jy gebruik. (Let wel: Dit is dieselfde aktiwiteit verskyn ook in Hoofstuk 6)
1. Lees Penney (2016) en herhaal Figuur 2, wat die page views vir "terrorisme" -verwante bladsye voor en na die Snowden openbaring toon. Interpreteer die bevindinge.
2. Volgende, herhaal Fig 4A, wat die studie groep ( "terrorisme" -verwante artikels) vergelyk met 'n vergelyker groep met behulp van sleutelwoorde gekategoriseer onder "DHS & ander agentskappe" uit die lys DHS (sien Bylaag Tabel 10). Interpreteer die bevindinge.
3. In deel b) in vergelyking jy die studiegroep een vergelyker groep. Penney ook in vergelyking met twee ander vergelyker groepe: "Infrastruktuur Security" -verwante artikels (Aanhangsel Tabel 11) en populêre Wikipedia bladsye (Aanhangsel Tabel 12). Kom saam met 'n alternatiewe vergelyker groep, en toets of die bevindinge van Deel B) is bewus van jou keuse van vergelyker groep. Watter keuse van vergelyker groep maak die meeste sin? Hoekom?
4. Die skrywer verklaar dat dokumente wat verband hou met "terrorisme" is gebruik om die Wikipedia artikels kies omdat die Amerikaanse regering aangehaal terrorisme as 'n belangrike rede vir sy aanlyn toesig praktyke. As 'n tjek van hierdie 48 "terrorisme" -verwante sleutelwoorde, Penney (2016) het ook 'n opname oor MTurk vra respondente om elk van sleutelwoorde eiendomsbelasting kragtens Regering Trouble, privaatheid sensitiewe, en vermyding (Aanhangsel Tabel 7 en 8). Herhaal die opname op MTurk en vergelyk jou resultate.
5. Op grond van die resultate in Deel D) en jou lees van die artikel, stem jy saam met keuse van die skrywer se van onderwerp sleutelwoorde in die studie groep? Hoekom of hoekom nie? Indien nie, wat sou jy eerder voorstel?
[ ] Efrati (2016) verslae, gebaseer op vertroulike inligting, wat "totale sharing" op Facebook meer as jaar gedaal met sowat 5,5% jaar, terwyl "oorspronklike uitsending deel" was af 21% jaar meer as jaar. Hierdie afname was veral akute met Facebook gebruikers jonger as 30 jaar oud. Die verslag skryf die afname aan twee faktore. Een daarvan is die groei in die aantal "vriende" mense het op Facebook. Die ander is dat sommige deel aktiwiteit verskuif na boodskappe en om mededingers soos Snapchat. Die verslag het ook getoon die verskillende taktiek Facebook het probeer om deel te versterk, insluitende Nuusvoer algoritme tweaked dat oorspronklike poste meer prominent te maak, sowel as periodieke aanmanings van die oorspronklike poste gebruikers "Op hierdie dag" 'n paar jaar gelede. Watter implikasies, indien enige, het hierdie bevindinge het vir navorsers wat wil Facebook te gebruik as 'n databron?
[ ] Tumasjan et al. (2010) berig dat deel van tweets te noem 'n politieke party wat ooreenstem met die persentasie van stemme daardie party ontvang in die Duitse parlementêre verkiesing in 2009 (Figuur 2.9). Met ander woorde, het dit geblyk dat jy Twitter kan gebruik om die verkiesing te voorspel. Ten tyde van hierdie studie was gepubliseer dit was beskou as uiters opwindend, want dit was 'n waardevolle gebruik vir 'n gemeenskaplike bron van groot data stel.

Gegewe die slegte eienskappe van die groot data egter jy moet onmiddellik skepties oor hierdie resultaat wees. Duitsers op Twitter in 2009 was nogal 'n nie-verteenwoordigende groep, en ondersteuners van die een party dalk meer dikwels tweet oor politiek. So, dit lyk verbasend dat al die moontlike vooroordele wat jy kon dink een of ander manier sou kanselleer. Trouens, die resultate in Tumasjan et al. (2010) blyk te goed te wees om waar te wees. In hul papier, Tumasjan et al. (2010) beskou ses politieke partye: Christen-Demokrate (CDU), Christian Sosiale Demokrate (CSU), SPD, liberale (FDP), links (Die Linke), en die Groen Party (Grüne). Maar die meeste genoemde Duitse politieke party op Twitter op daardie tydstip was die Pirate Party (Piraten), 'n party wat die regering regulering van die internet veg. Wanneer die Pirate Party is ingesluit in die analise, Twitter noem word 'n verskriklike voorspeller van verkiesingsuitslae (Figuur 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Figuur 2.9: Twitter noem verskyn om die resultate van die Duitse verkiesing 2009 voorspel (Tumasjan et al. 2010) , Maar die resultaat blyk afhanklik te wees van 'n paar arbitrêre en ongegrond keuses (Jungherr, Jürgens, and Schoen 2012) .

Daarna het ander navorsers regoor die wêreld gebruik liefhebber metodes-soos die gebruik van sentiment analise om te onderskei tussen positiewe en negatiewe noem van die partye-om die vermoë van Twitter data om 'n verskeidenheid van verskillende soorte verkiesings voorspel verbeter (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Hier is hoe Huberty (2015) opgesom die resultate van hierdie pogings om verkiesings te voorspel:

"Al bekend voorspelling metodes gebaseer op sosiale media het misluk wanneer dit aan die vereistes van ware toekomsgerigte verkiesings vooruitskatting. Hierdie mislukkings verskyn as gevolg van fundamentele eienskappe van sosiale media, eerder as om metodologiese of algoritmiese probleme te wees. In kort, sosiale media nie, en waarskynlik nooit sal bied 'n stabiele, onbevooroordeelde, verteenwoordigende beeld van die kiesers, en gerief monsters van sosiale media nie voldoende data te los hierdie probleme post hoc. "

Lees 'n paar van die navorsing wat lei Huberty (2015) tot die gevolgtrekking, en skryf 'n mens bladsy memorandum aan 'n politieke kandidaat beskryf of en hoe Twitter moet gebruik word om die verkiesings te voorspel.
[ ] Wat is die verskil tussen 'n sosioloog en 'n historikus? Volgens Goldthorpe (1991) , die grootste verskil tussen 'n sosioloog en 'n historikus is beheer oor data-insameling. Geskiedkundiges is gedwing om oorblyfsels gebruik terwyl sosioloë hul data-insameling kan aanpas om 'n spesifieke doel. Lees Goldthorpe (1991) . Hoe is die verskil tussen sosiologie en geskiedenis wat verband hou met die idee van Custommades en Readymades?
[ ] Die bou op die vorige vraag, Goldthorpe (1991) het 'n aantal kritiese response, insluitend een van Nicky Hart (1994) wat Goldthorpe se toewyding uitgedaag om gemaak data op maat. Om die potensiaal beperkinge van pasgemaakte data te verduidelik, Hart beskryf die ryk Werker Projek, 'n groot opname om die verhouding tussen sosiale klas en stem wat deur Goldthorpe en kollegas in die middel-1960's meet. Soos 'n mens kan verwag van 'n skolier wat ten gunste ontwerp data oor gevind data, die ryk Werker Projek ingesamelde data wat op maat van 'n onlangs voorgestel teorie oor die toekoms van die sosiale klas aan te spreek in 'n era van toenemende lewenstandaarde. Maar, Goldthorpe en kollegas een of ander manier "vergeet" om inligting oor die stem gedrag van vroue in te samel. Hier is hoe Nicky Hart (1994) som die hele episode:

". . . dit [is] moeilik om die gevolgtrekking gekom dat vroue uitgelaat omdat dit 'maat' dataset was beperk deur 'n paradigmatiese logika wat vroulike ervaring uitgesluit te vermy. Gedryf deur 'n teoretiese visie van klas bewussyn en optrede as manlike bekommernis. . . , Goldthorpe en sy kollegas gebou 'n stel van empiriese bewyse wat gevoed en gekoester hul eie teoretiese aannames in plaas van hulle bloot te stel aan 'n geldige toets van toereikendheid. "

Hart het voortgegaan:

"Die empiriese bevindinge van die ryk Werker Projek vertel ons meer oor die maskulinistiese waardes van die middel-eeuse sosiologie as hulle die prosesse van stratifikasie, politiek en materiële lewe in te lig."

Kan jy dink aan ander voorbeelde waar versameling pasgemaakte data het die vooroordele van die data versamelaar gebou in dit? Hoe vergelyk dit met algoritmiese confounding? Watter implikasies kan dit hê vir wanneer navorsers Readymades moet gebruik en wanneer hulle Custommades moet gebruik?
[ ] In hierdie hoofstuk het ek in teenstelling data deur navorsers vir navorsers met administratiewe rekords geskep deur maatskappye en regerings ingesamel. Sommige mense noem hierdie administratiewe rekords "gevind data," wat hulle kontras met "ontwerp data." Dit is waar dat administratiewe rekords gevind deur navorsers, maar hulle is ook baie ontwerp. Byvoorbeeld, moderne tegnologie maatskappye bestee enorme bedrae van tyd en hulpbronne in te samel en hulle data kapelaan. So, hierdie administratiewe rekords is albei gevind en ontwerp, is dit net hang af van jou perspektief (Figuur 2.10).

Figuur 2.10: Die foto is beide 'n eend en 'n haas; wat jy sien, hang af van jou perspektief. Regering en besigheid administratiewe rekords is albei gevind en ontwerp; wat jy sien, hang af van jou perspektief. Byvoorbeeld, is die oproep data rekords deur 'n selfoon maatskappy ingesamel gevind data vanuit die perspektief van 'n navorser. Maar, is dit presies dieselfde rekords ontwerp data perspektief van iemand wat in die faktuur departement van die telefoon maatskappy. Bron: Wikipedia

Gee 'n voorbeeld van die data bron waar dit sien beide as gevind en ontwerp is nuttig wanneer die gebruik van die data bron vir navorsing.
[ ] In 'n deurdagte essay, Christelike Sandvig en Eszter Hargittai (2015) beskryf twee soorte digitale navorsing, waar die digitale stelsel is "instrument" of "doel van die studie." 'N Voorbeeld van die eerste soort studie is waar Bengtsson en kollegas (2011) gebruik selfoon data migrasie te spoor ná die aardbewing in Haiti in 2010. 'n voorbeeld van die tweede soort is waar Jensen (2007) studie hoe die bekendstelling van selfone in die hele Kerala, Indië beïnvloed die funksionering van die mark vir vis. Ek vind dit nuttig, want dit maak dit duidelik dat studies met behulp van digitale data bronne heel anders doelwitte selfs al is hulle met behulp van dieselfde soort data bron kan hê. Ten einde hierdie onderskeid verder te verduidelik, beskryf vier studies wat jy gesien: twee wat 'n digitale stelsel gebruik as 'n instrument en twee wat 'n digitale stelsel gebruik as 'n voorwerp van studie. Jy kan voorbeelde uit hierdie hoofstuk as jy wil.