activiteiten

Deze vertaling werd gemaakt door een computer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

activiteiten

Key:

moeilijkheidsgraad: easy , medium , harde , heel moeilijk
vereist wiskunde ( $vereist wiskunde$ )
vereist codering ( )
het verzamelen van gegevens ( )
mijn favorieten ( )

[ , ] Algorithmic verstorende was een probleem met Google Grieptrends. Lees het artikel van Lazer et al. (2014) , en schrijf een korte, duidelijke e-mail naar een ingenieur bij Google waarin het probleem en het aanbieden van een idee van hoe het probleem op te lossen.
[ ] Bollen, Mao, and Zeng (2011) beweert dat de gegevens van Twitter kan gebruikt worden om de beurs te voorspellen. Deze bevinding leidde tot de oprichting van een hedge fund-Derwent Capital Markets-om te investeren in de aandelenmarkt op basis van gegevens die zijn verzameld van Twitter (Jordan 2010) . Welk bewijs zou je willen zien voordat u uw geld in dat fonds?
[ ] Terwijl sommige volksgezondheid advocaten hagel e-sigaretten als een effectief hulpmiddel voor het stoppen met roken, anderen waarschuwen voor de mogelijke risico's, zoals de hoge niveaus van nicotine. Stel je voor dat een onderzoeker besluit om de publieke opinie in de richting van e-sigaretten te bestuderen door het verzamelen van e-sigaretten-gerelateerde Twitter berichten en het uitvoeren van sentiment analyse.
1. Wat zijn de drie mogelijke vooroordelen die je het meest bezorgd over de in dit onderzoek?
2. Clark et al. (2016) liep zo'n studie. Ten eerste, zij 850.000 tweets die-e-sigaret gerelateerde zoekwoorden vanaf januari 2012 gebruikt tot en met december 2014. Bij nader inzien verzameld, beseften ze dat veel van deze tweets werden geautomatiseerde (dat wil zeggen, niet door de mens), en veel van deze geautomatiseerde tweets waren hoofdzakelijk commercials. Ze ontwikkelden een Human Detection algoritme om geautomatiseerde tweets te scheiden van organische tweets. Met behulp van deze Human Detect Algorithm zij vonden dat 80% van de tweets werden geautomatiseerd. Betekent deze bevinding verander je antwoord op een deel (a)?
3. Toen ze het sentiment in de biologische en geautomatiseerde tweets vergeleken ze vonden dat de geautomatiseerde tweets zijn positiever dan organische tweets (6,17 versus 5,84). Betekent deze bevinding verander je antwoord op (b)?
[ ] In november 2009, Twitter veranderde de vraag in de tweet box van "Wat doe je?" Tot "Wat gebeurt er? '(Https://blog.twitter.com/2009/whats-happening).
1. Hoe denk je dat de verandering van prompts is van invloed op die tweet en / of wat ze tweet?
2. Noem een onderzoeksproject waarvoor u de prompt liever "Wat doe je? 'Leg uit waarom.
3. Noem een onderzoeksproject waarvoor u de prompt liever "Wat gebeurt er?" Leg uit waarom.
[ ] Kwak et al. (2010) analyseerde 41,7 miljoen gebruikersprofielen, 1470000000 sociale relaties, 4262 trending topics, en 106 miljoen tweets tussen 6 juni en 31 juni 2009. Op basis van deze analyse concludeerden zij dat Twitter bedient meer als een nieuw medium van het delen van informatie dan een sociaal netwerk.
1. Gezien bevinding Kwak et al, wat voor soort onderzoek zou je doen met Twitter data? Wat voor soort onderzoek zou je niet doen met Twitter data? Waarom?
2. In 2010, Twitter voegde een Who To Follow dienst maken op maat suggestie voor gebruikers. Drie aanbevelingen worden getoond in een tijd op de hoofdpagina. Aanbevelingen zijn vaak afkomstig uit de eigen 'vrienden-van-vrienden, "en onderlinge contacten worden ook weergegeven in de aanbeveling. Gebruikers kunnen vernieuwen om een nieuwe reeks van aanbevelingen te zien of een bezoek aan een pagina met een langere lijst van aanbevelingen. Denkt u dat deze nieuwe functie zou je antwoord op een deel van een te veranderen)? Waarom of waarom niet?
3. Su, Sharma, and Goel (2016) evalueerde het effect van Who To Follow service en vond dat terwijl gebruikers over de populariteit spectrum geprofiteerd van de aanbevelingen, de meest populaire gebruikers profiteerde aanzienlijk meer dan gemiddeld. Betekent deze bevinding verander je antwoord op onderdeel b)? Waarom of waarom niet?
[ ] "Retweets" wordt vaak gebruikt om de invloed te meten en uitstralende werking op Twitter. Aanvankelijk moesten gebruikers Kopieer en plak de tweet ze graag, taggen de oorspronkelijke auteur met zijn / haar greep, en handmatig invoeren "RT" voor de tweet om aan te geven dat het een retweet. Dan, in 2009 Twitter voegde een 'retweet' knop. In juni 2016, Twitter maakte het mogelijk voor gebruikers om hun eigen tweets retweet (https://twitter.com/twitter/status/742749353689780224). Denkt u dat deze veranderingen moet invloed hebben op hoe je 'retweets' te gebruiken in uw onderzoek? Waarom of waarom niet?
[ , , ] Michel et al. (2011) construeerde een corpus die uit Google's poging om boeken te digitaliseren. Met behulp van de eerste versie van het corpus, die werd gepubliceerd in 2009 en bevatte meer dan 5 miljoen gedigitaliseerde boeken, de auteurs geanalyseerd woordgebruik frequentie taalkundige veranderingen en culturele trends te onderzoeken. Al snel werd de Google Books Corpus een populaire gegevensbron voor onderzoekers, en een 2e versie van de database werd uitgebracht in 2012.

Echter, Pechenick, Danforth, and Dodds (2015) waarschuwde dat de onderzoekers nodig hebben om volledig te karakteriseren de bemonstering van het corpus alvorens het te gebruiken voor een brede conclusies te trekken. Het belangrijkste probleem is dat het corpus is bibliotheek-achtige, die één van elk boek. Als gevolg hiervan, een individu, productief schrijver is in staat om duidelijk te voegen nieuwe zinnen in het Google Books lexicon. Bovendien, wetenschappelijke teksten vormen een steeds inhoudelijke deel van het corpus gedurende de jaren 1900. Bovendien, door het vergelijken van twee versies van het Engels fictie datasets, Pechenick et al. aanwijzingen gevonden dat onvoldoende filtering werd toegepast in de productie van de eerste versie. Alle gegevens die nodig zijn voor de activiteit is hier beschikbaar: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. In de wereld van Michel et al. Originele papieren (2011) , gebruikten ze de 1e versie van het Engels dataset, uitgezet de frequentie van het gebruik van het jaar "1880", "1912" en "1973", en concludeerde dat "we zijn vergeten ons verleden sneller met elk voorbijgaand jaar "(Fig. 3A, Michel et al.). Repliceren hetzelfde perceel middels 1) 1ste versie van het corpus, Engels dataset (zelfde als fig. 3A, Michel et al.)
2. Nu repliceren hetzelfde perceel met de 1e versie, Engels fictie dataset.
3. Nu repliceren hetzelfde perceel met de 2e versie van het corpus, Engels dataset.
4. Tot slot, repliceren hetzelfde perceel met de 2e versie, Engels fictie dataset.
5. Beschrijf de verschillen en overeenkomsten tussen deze vier percelen. Bent u het eens met Michel et al. Originele interpretatie van de waargenomen trend? (Hint: c) en d) moet dezelfde zijn als Figuur 16 in Pechenick et al).
6. Nu dat je deze bevinding hebben gerepliceerd met behulp van verschillende Google Books corpora, kies een andere taal te wijzigen of culturele fenomenen die in de Michel et al., Originele papieren. Bent u het eens met de interpretatie in het licht van de in Pechenick et al beperkingen.? Om uw argument sterker te maken, proberen te repliceren dezelfde grafiek met behulp van verschillende versies van de gegevens zoals hierboven uiteengezet.
[ , , , ] Penney (2016) onderzoekt of de wijdverspreide publiciteit over NSA / PRISM surveillance (dat wil zeggen, de Snowden onthullingen) in juni 2013 wordt in verband gebracht met een scherpe en plotselinge daling van het verkeer naar Wikipedia artikelen over onderwerpen die de privacy rijzen. Als dat zo is, zou deze verandering in het gedrag consistent met een chilling effect als gevolg van de massa surveillance zijn. De aanpak van Penney (2016) wordt ook wel een onderbroken tijdreeks ontwerp en is gerelateerd aan de aanpak in het hoofdstuk over de onderlinge aanpassing van experimenten uit waarnemingen (paragraaf 2.4.3).

Voor het kiezen van het onderwerp trefwoorden, aangeduid Penney aan de lijst wordt gebruikt door Amerikaanse Department of Homeland Security voor het volgen en monitoren van sociale media. De DHS lijst categoriseert bepaalde zoektermen in een scala van onderwerpen, dat wil zeggen "Health Concern ',' Infrastructure Security" en "terrorisme". Voor de studiegroep, Penney gebruikte de achtenveertig zoekwoorden die verband houden met "terrorisme" (zie Tabel 8 Bijlage). Hij vervolgens geaggregeerd Wikipedia artikel uitzicht rekent op een maandelijkse basis voor de overeenkomstige achtenveertig Wikipedia-artikelen over een periode van tweeëndertig maanden, vanaf het begin van januari 2012 tot eind augustus 2014. Om zijn argument te versterken, hij creëerde ook een aantal vergelijking groepen door het bijhouden van uitzicht artikel over andere onderwerpen.

Nu, ga je om te repliceren en uit te breiden Penney (2016) . Al de ruwe gegevens die je nodig hebt voor deze activiteit is verkrijgbaar bij Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Of u kunt het krijgen van de R-pakket wikipediatrend (Meissner and Team 2016) . Als je schrijft-up van uw antwoorden, dan kunt u er rekening mee welke gegevens bron die u gebruikt. (Let op: Dit dezelfde activiteit wordt ook weergegeven in hoofdstuk 6)
1. Lees Penney (2016) en repliceren Figuur 2 waarin de pageviews voor "terrorisme" -gerelateerde pagina's voor en na de Snowden openbaring laat zien. Interpreteer de bevindingen.
2. Vervolgens repliceren figuur 4A, waarbij de werkgroep ( "Terrorisme" gerelateerde artikelen) vergelijkt met een vergelijkende groep met behulp van trefwoorden gecategoriseerd onder "DHS en andere instanties" uit de lijst DHS (zie bijlage tabel 10). Interpreteer de bevindingen.
3. In deel b) ten opzichte van de studiegroep een vergelijkingsgroep. Penney ook in vergelijking met twee andere vergelijkende groep: "Infrastructure Security" gerelateerde artikelen (Appendix 11) en de populaire Wikipedia pagina's (Appendix 12). Kom met een alternatieve vergelijkingsgroep, en testen of de bevindingen uit deel b) is gevoelig voor uw keuze van de vergelijkingsgroep. Welke keuze van de vergelijkingsgroep meest zinvol? Waarom?
4. De auteur verklaarde dat zoekwoorden in verband met "terrorisme" werden gebruikt om de Wikipedia-artikelen te selecteren, omdat de Amerikaanse regering het terrorisme genoemd als een belangrijke rechtvaardiging voor zijn online surveillance praktijken. Ter controle van deze 48 "Terrorisme" -gerelateerde zoekwoorden, Penney (2016) heeft ook een enquête over MTurk vragen respondenten aan elk van zoekwoorden kunnen waarderen in termen van de regering Trouble, privacygevoelige en Avoidance (Appendix 7 en 8). Een kopie van de enquête over MTurk en vergelijk je resultaten.
5. Op basis van de resultaten in deel d), en uw lezing van het artikel, bent u het eens met de keuze van de auteur van het onderwerp zoekwoorden in de studiegroep? Waarom of waarom niet? Zo niet, wat zou u in plaats daarvan voorstellen?
[ ] Efrati (2016) rapporten, op basis van vertrouwelijke informatie, dat "de totale sharing" op Facebook over jaar was gedaald met ongeveer 5,5% jaar, terwijl "oorspronkelijke uitzending sharing" was een daling van 21% jaar-op-jaar. Deze daling was vooral acuut met Facebook gebruikers jonger dan 30 jaar. Het rapport schreef de daling aan twee factoren. Een daarvan is de groei van het aantal "vrienden" mensen hebben op Facebook. De andere is dat sommige delen van de activiteit is verschoven naar messaging en concurrenten zoals Snapchat. Het rapport bleek ook de verschillende tactiek Facebook had geprobeerd om het delen te stimuleren, met inbegrip van News Feed algoritme tweaks die oorspronkelijke berichten meer op de voorgrond te maken, evenals periodieke herinneringen van de oorspronkelijke berichten gebruikers "Op deze dag" enkele jaren geleden. Wat eventuele gevolgen, heeft deze bevindingen hebben voor onderzoekers die willen Facebook gebruiken als gegevensbron?
[ ] Tumasjan et al. (2010) rapporteerde dat deel van de tweets noemen van een politieke partij paste het aandeel van de stemmen die partij kreeg in de Duitse parlementsverkiezingen in 2009 (Figuur 2.9). Met andere woorden, het bleek dat Twitter je zou kunnen gebruiken om de verkiezing te voorspellen. Op het moment dat deze studie werd gepubliceerd werd beschouwd als uiterst spannend, omdat het leek een waardevolle toepassing voor een gemeenschappelijke bron van big data suggereren.

Gezien de slechte eigenschappen van big data, echter, moet u onmiddellijk sceptisch over dit resultaat. Duitsers op Twitter in 2009 waren een niet-representatieve groep, en aanhangers van een partij kunnen vaker tweet over politiek. Het lijkt er dus verrassend dat alle mogelijke vooroordelen die je zou kunnen voorstellen een of andere manier zou opheffen. In feite, de resultaten in Tumasjan et al. (2010) bleek te mooi om waar te zijn. In hun paper, Tumasjan et al. (2010) beschouwd als zes politieke partijen: christen-democraten (CDU), Christian sociaal-democraten (CSU), SPD, liberalen (FDP), The Links (Die Linke) en de Groene Partij (Grüne). Echter, de meest genoemde Duitse politieke partij op Twitter op dat moment was de Piratenpartij (Piraten), een partij die de overheid regulering van het internet bestrijdt. Toen de Piratenpartij is opgenomen in de analyse, Twitter vermeldt wordt een verschrikkelijke voorspeller van verkiezingsresultaten (Figuur 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Figuur 2,9: Twitter vermeldt lijken de resultaten van de Duitse verkiezingen 2009 voorspellen (Tumasjan et al. 2010) , Maar dit resultaat blijkt af te hangen van een willekeurig en ongerechtvaardigde keuzes (Jungherr, Jürgens, and Schoen 2012) .

Vervolgens andere onderzoekers over de hele wereld hebben melker methoden-zoals het gebruik stemmingsanalyses onderscheid tussen positieve en negatieve vermeldingen van de partijen in om het vermogen van Twitter gegevens naar een verscheidenheid van verschillende soorten verkiezingen voorspellen verbetering (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Hier is hoe Huberty (2015) een samenvatting van de resultaten van deze pogingen om verkiezingen te voorspellen:

"Alle bekende forecasting methoden op basis van social media hebben gefaald wanneer het wordt blootgesteld aan de eisen van echte toekomstgerichte electorale prognoses. Deze fouten lijken te wijten aan fundamentele eigenschappen van social media, in plaats van methodologische of algoritmische moeilijkheden te zijn. Kortom, social media niet, en waarschijnlijk nooit zal bieden een stabiele, onpartijdige, representatief beeld van de kiezers; en het gemak monsters van social media niet over voldoende gegevens op te lossen deze problemen post hoc. "

Lees deel van het onderzoek die leiden Huberty (2015) tot die conclusie, en schrijf een één pagina memo aan een politieke kandidaat te beschrijven of en hoe Twitter gebruikt moeten worden om de verkiezingen te voorspellen.
[ ] Wat is het verschil tussen een socioloog en historicus? Volgens Goldthorpe (1991) , het belangrijkste verschil tussen een socioloog en historicus is controle over het verzamelen van gegevens. Historici worden gedwongen om relieken te gebruiken terwijl sociologen hun het verzamelen van gegevens kunnen aanpassen aan specifieke doeleinden. Lees Goldthorpe (1991) . Hoe is het verschil tussen de sociologie en de geschiedenis met betrekking tot het idee van Custommades en Readymades?
[ ] Voortbouwend op de vorige vraag, Goldthorpe (1991) trok een aantal kritische reacties, waaronder één van Nicky Hart (1994) die Goldthorpe toewijding uitgedaagd om gemaakte gegevens op maat. Om de mogelijke beperkingen van op maat gemaakte data te verduidelijken, Hart beschreef de Affluent Worker Project, een groot onderzoek naar de relatie tussen sociale klasse en hun stem uitbrengen, dat werd uitgevoerd door Goldthorpe en collega's in het midden van de jaren 1960 te meten. Zoals men zou verwachten van een geleerde die zijn gunstiger ontworpen data over data gevonden, het welvarende Worker Project verzamelde gegevens die werd aangepast aan een recent voorgestelde theorie over de toekomst van de sociale klasse te pakken in een tijdperk van toenemende levensstandaard. Maar, Goldthorpe en collega's een of andere manier "vergeten" om informatie over het stemgedrag van vrouwen te verzamelen. Hier is hoe Nicky Hart (1994) samenvattingen van de hele episode:

". . . Het [is] moeilijk om de conclusie dat vrouwen werden weggelaten, omdat deze 'maatwerk' dataset werd beperkt door een paradigmatische logica die vrouwelijke ervaring uitgesloten te voorkomen. Gedreven door een theoretische visie van klassenbewustzijn en handelen als mannelijke bezigheden. . . , Goldthorpe en zijn collega's bouwde een set van empirische bewijzen die gevoed en gekoesterd hun eigen theoretische aannames in plaats van ze bloot te stellen aan een geldige test van geschiktheid. "

Hart vervolgde:

"De empirische bevindingen van de rijke Worker Project vertelt ons meer over de masculiene waarden van het midden van de eeuw de sociologie dan dat ze de processen van gelaagdheid, de politiek en het materiële leven op de hoogte."

Kan je denken aan andere voorbeelden waar de collectie op maat gemaakte data heeft de vooroordelen van de data collector in het wordt gebouwd? Hoe verhoudt dit zich tot algoritmische verstorende? Welke gevolgen kan dit hebben voor toen de onderzoekers Readymades moet gebruiken en wanneer ze Custommades moet gebruiken?
[ ] In dit hoofdstuk heb ik in contrast gegevens door onderzoekers voor onderzoekers met administratieve gegevens die door bedrijven en overheden verzameld. Sommige mensen noemen deze administratie "gevonden data", die zij contrasteren met "ontworpen data." Het is waar dat de administratieve records worden gevonden door onderzoekers, maar ze zijn ook zeer ontworpen. Bijvoorbeeld, moderne tech bedrijven besteden enorme hoeveelheden tijd en middelen te verzamelen en hun gegevens curator. Zo, deze administratie zijn beide gevonden en ontworpen, het net hangt af van uw perspectief (Figuur 2.10).

Figuur 2.10: Het beeld is zowel een eend en een konijn; wat je ziet is afhankelijk van uw perspectief. Overheid en bedrijfsleven administratie zijn beide gevonden en ontworpen; wat je ziet is afhankelijk van uw perspectief. Zo worden de call records door een gsm-bedrijf verzamelde gevonden gegevens vanuit het perspectief van een onderzoeker. Maar, zijn deze exact dezelfde platen ontworpen data perspectief van iemand die werkzaam zijn in de facturatie-afdeling van het telefoonbedrijf. Bron: Wikimedia Commons

Geef een voorbeeld van gegevensbron, waar het zien zowel als gevonden en ontworpen is nuttig bij het gebruik van die gegevens bron voor onderzoek.
[ ] In een doordachte essay, Christian Sandvig en Eszter Hargittai (2015) beschrijven twee soorten digitale onderzoek, waarbij het digitale systeem is "instrument" of "object van studie." Een voorbeeld van de eerste soort van de studie is de plaats waar Bengtsson en collega's (2011) gebruikte mobiele telefoon data migratie te volgen na de aardbeving in Haïti in 2010. Een voorbeeld van de tweede soort is waar Jensen (2007) onderzoekt hoe de introductie van mobiele telefoons in heel Kerala, India impact op de werking van de markt voor vis. Ik vind dit nuttig omdat het verduidelijkt dat studies met behulp van digitale data bronnen heel verschillende doelen, zelfs als ze met behulp van dezelfde soort gegevensbron kan hebben. Om dit onderscheid te verduidelijken, beschrijven vier studies die je hebt gezien: twee die een digitaal systeem te gebruiken als een instrument en twee die een digitaal systeem te gebruiken als een object van studie. U kunt voorbeelden te gebruiken van dit hoofdstuk als je wilt.