Key:
[ , ] Algorithmic verstorende was een probleem met Google Grieptrends. Lees het artikel van Lazer et al. (2014) , en schrijf een korte, duidelijke e-mail naar een ingenieur bij Google waarin het probleem en het aanbieden van een idee van hoe het probleem op te lossen.
[ ] Bollen, Mao, and Zeng (2011) beweert dat de gegevens van Twitter kan gebruikt worden om de beurs te voorspellen. Deze bevinding leidde tot de oprichting van een hedge fund-Derwent Capital Markets-om te investeren in de aandelenmarkt op basis van gegevens die zijn verzameld van Twitter (Jordan 2010) . Welk bewijs zou je willen zien voordat u uw geld in dat fonds?
[ ] Terwijl sommige volksgezondheid advocaten hagel e-sigaretten als een effectief hulpmiddel voor het stoppen met roken, anderen waarschuwen voor de mogelijke risico's, zoals de hoge niveaus van nicotine. Stel je voor dat een onderzoeker besluit om de publieke opinie in de richting van e-sigaretten te bestuderen door het verzamelen van e-sigaretten-gerelateerde Twitter berichten en het uitvoeren van sentiment analyse.
[ ] In november 2009, Twitter veranderde de vraag in de tweet box van "Wat doe je?" Tot "Wat gebeurt er? '(Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analyseerde 41,7 miljoen gebruikersprofielen, 1470000000 sociale relaties, 4262 trending topics, en 106 miljoen tweets tussen 6 juni en 31 juni 2009. Op basis van deze analyse concludeerden zij dat Twitter bedient meer als een nieuw medium van het delen van informatie dan een sociaal netwerk.
[ ] "Retweets" wordt vaak gebruikt om de invloed te meten en uitstralende werking op Twitter. Aanvankelijk moesten gebruikers Kopieer en plak de tweet ze graag, taggen de oorspronkelijke auteur met zijn / haar greep, en handmatig invoeren "RT" voor de tweet om aan te geven dat het een retweet. Dan, in 2009 Twitter voegde een 'retweet' knop. In juni 2016, Twitter maakte het mogelijk voor gebruikers om hun eigen tweets retweet (https://twitter.com/twitter/status/742749353689780224). Denkt u dat deze veranderingen moet invloed hebben op hoe je 'retweets' te gebruiken in uw onderzoek? Waarom of waarom niet?
[ , , ] Michel et al. (2011) construeerde een corpus die uit Google's poging om boeken te digitaliseren. Met behulp van de eerste versie van het corpus, die werd gepubliceerd in 2009 en bevatte meer dan 5 miljoen gedigitaliseerde boeken, de auteurs geanalyseerd woordgebruik frequentie taalkundige veranderingen en culturele trends te onderzoeken. Al snel werd de Google Books Corpus een populaire gegevensbron voor onderzoekers, en een 2e versie van de database werd uitgebracht in 2012.
Echter, Pechenick, Danforth, and Dodds (2015) waarschuwde dat de onderzoekers nodig hebben om volledig te karakteriseren de bemonstering van het corpus alvorens het te gebruiken voor een brede conclusies te trekken. Het belangrijkste probleem is dat het corpus is bibliotheek-achtige, die één van elk boek. Als gevolg hiervan, een individu, productief schrijver is in staat om duidelijk te voegen nieuwe zinnen in het Google Books lexicon. Bovendien, wetenschappelijke teksten vormen een steeds inhoudelijke deel van het corpus gedurende de jaren 1900. Bovendien, door het vergelijken van twee versies van het Engels fictie datasets, Pechenick et al. aanwijzingen gevonden dat onvoldoende filtering werd toegepast in de productie van de eerste versie. Alle gegevens die nodig zijn voor de activiteit is hier beschikbaar: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) onderzoekt of de wijdverspreide publiciteit over NSA / PRISM surveillance (dat wil zeggen, de Snowden onthullingen) in juni 2013 wordt in verband gebracht met een scherpe en plotselinge daling van het verkeer naar Wikipedia artikelen over onderwerpen die de privacy rijzen. Als dat zo is, zou deze verandering in het gedrag consistent met een chilling effect als gevolg van de massa surveillance zijn. De aanpak van Penney (2016) wordt ook wel een onderbroken tijdreeks ontwerp en is gerelateerd aan de aanpak in het hoofdstuk over de onderlinge aanpassing van experimenten uit waarnemingen (paragraaf 2.4.3).
Voor het kiezen van het onderwerp trefwoorden, aangeduid Penney aan de lijst wordt gebruikt door Amerikaanse Department of Homeland Security voor het volgen en monitoren van sociale media. De DHS lijst categoriseert bepaalde zoektermen in een scala van onderwerpen, dat wil zeggen "Health Concern ',' Infrastructure Security" en "terrorisme". Voor de studiegroep, Penney gebruikte de achtenveertig zoekwoorden die verband houden met "terrorisme" (zie Tabel 8 Bijlage). Hij vervolgens geaggregeerd Wikipedia artikel uitzicht rekent op een maandelijkse basis voor de overeenkomstige achtenveertig Wikipedia-artikelen over een periode van tweeëndertig maanden, vanaf het begin van januari 2012 tot eind augustus 2014. Om zijn argument te versterken, hij creëerde ook een aantal vergelijking groepen door het bijhouden van uitzicht artikel over andere onderwerpen.
Nu, ga je om te repliceren en uit te breiden Penney (2016) . Al de ruwe gegevens die je nodig hebt voor deze activiteit is verkrijgbaar bij Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Of u kunt het krijgen van de R-pakket wikipediatrend (Meissner and Team 2016) . Als je schrijft-up van uw antwoorden, dan kunt u er rekening mee welke gegevens bron die u gebruikt. (Let op: Dit dezelfde activiteit wordt ook weergegeven in hoofdstuk 6)
[ ] Efrati (2016) rapporten, op basis van vertrouwelijke informatie, dat "de totale sharing" op Facebook over jaar was gedaald met ongeveer 5,5% jaar, terwijl "oorspronkelijke uitzending sharing" was een daling van 21% jaar-op-jaar. Deze daling was vooral acuut met Facebook gebruikers jonger dan 30 jaar. Het rapport schreef de daling aan twee factoren. Een daarvan is de groei van het aantal "vrienden" mensen hebben op Facebook. De andere is dat sommige delen van de activiteit is verschoven naar messaging en concurrenten zoals Snapchat. Het rapport bleek ook de verschillende tactiek Facebook had geprobeerd om het delen te stimuleren, met inbegrip van News Feed algoritme tweaks die oorspronkelijke berichten meer op de voorgrond te maken, evenals periodieke herinneringen van de oorspronkelijke berichten gebruikers "Op deze dag" enkele jaren geleden. Wat eventuele gevolgen, heeft deze bevindingen hebben voor onderzoekers die willen Facebook gebruiken als gegevensbron?
[ ] Tumasjan et al. (2010) rapporteerde dat deel van de tweets noemen van een politieke partij paste het aandeel van de stemmen die partij kreeg in de Duitse parlementsverkiezingen in 2009 (Figuur 2.9). Met andere woorden, het bleek dat Twitter je zou kunnen gebruiken om de verkiezing te voorspellen. Op het moment dat deze studie werd gepubliceerd werd beschouwd als uiterst spannend, omdat het leek een waardevolle toepassing voor een gemeenschappelijke bron van big data suggereren.
Gezien de slechte eigenschappen van big data, echter, moet u onmiddellijk sceptisch over dit resultaat. Duitsers op Twitter in 2009 waren een niet-representatieve groep, en aanhangers van een partij kunnen vaker tweet over politiek. Het lijkt er dus verrassend dat alle mogelijke vooroordelen die je zou kunnen voorstellen een of andere manier zou opheffen. In feite, de resultaten in Tumasjan et al. (2010) bleek te mooi om waar te zijn. In hun paper, Tumasjan et al. (2010) beschouwd als zes politieke partijen: christen-democraten (CDU), Christian sociaal-democraten (CSU), SPD, liberalen (FDP), The Links (Die Linke) en de Groene Partij (Grüne). Echter, de meest genoemde Duitse politieke partij op Twitter op dat moment was de Piratenpartij (Piraten), een partij die de overheid regulering van het internet bestrijdt. Toen de Piratenpartij is opgenomen in de analyse, Twitter vermeldt wordt een verschrikkelijke voorspeller van verkiezingsresultaten (Figuur 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Vervolgens andere onderzoekers over de hele wereld hebben melker methoden-zoals het gebruik stemmingsanalyses onderscheid tussen positieve en negatieve vermeldingen van de partijen in om het vermogen van Twitter gegevens naar een verscheidenheid van verschillende soorten verkiezingen voorspellen verbetering (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Hier is hoe Huberty (2015) een samenvatting van de resultaten van deze pogingen om verkiezingen te voorspellen:
"Alle bekende forecasting methoden op basis van social media hebben gefaald wanneer het wordt blootgesteld aan de eisen van echte toekomstgerichte electorale prognoses. Deze fouten lijken te wijten aan fundamentele eigenschappen van social media, in plaats van methodologische of algoritmische moeilijkheden te zijn. Kortom, social media niet, en waarschijnlijk nooit zal bieden een stabiele, onpartijdige, representatief beeld van de kiezers; en het gemak monsters van social media niet over voldoende gegevens op te lossen deze problemen post hoc. "
Lees deel van het onderzoek die leiden Huberty (2015) tot die conclusie, en schrijf een één pagina memo aan een politieke kandidaat te beschrijven of en hoe Twitter gebruikt moeten worden om de verkiezingen te voorspellen.
[ ] Wat is het verschil tussen een socioloog en historicus? Volgens Goldthorpe (1991) , het belangrijkste verschil tussen een socioloog en historicus is controle over het verzamelen van gegevens. Historici worden gedwongen om relieken te gebruiken terwijl sociologen hun het verzamelen van gegevens kunnen aanpassen aan specifieke doeleinden. Lees Goldthorpe (1991) . Hoe is het verschil tussen de sociologie en de geschiedenis met betrekking tot het idee van Custommades en Readymades?
[ ] Voortbouwend op de vorige vraag, Goldthorpe (1991) trok een aantal kritische reacties, waaronder één van Nicky Hart (1994) die Goldthorpe toewijding uitgedaagd om gemaakte gegevens op maat. Om de mogelijke beperkingen van op maat gemaakte data te verduidelijken, Hart beschreef de Affluent Worker Project, een groot onderzoek naar de relatie tussen sociale klasse en hun stem uitbrengen, dat werd uitgevoerd door Goldthorpe en collega's in het midden van de jaren 1960 te meten. Zoals men zou verwachten van een geleerde die zijn gunstiger ontworpen data over data gevonden, het welvarende Worker Project verzamelde gegevens die werd aangepast aan een recent voorgestelde theorie over de toekomst van de sociale klasse te pakken in een tijdperk van toenemende levensstandaard. Maar, Goldthorpe en collega's een of andere manier "vergeten" om informatie over het stemgedrag van vrouwen te verzamelen. Hier is hoe Nicky Hart (1994) samenvattingen van de hele episode:
". . . Het [is] moeilijk om de conclusie dat vrouwen werden weggelaten, omdat deze 'maatwerk' dataset werd beperkt door een paradigmatische logica die vrouwelijke ervaring uitgesloten te voorkomen. Gedreven door een theoretische visie van klassenbewustzijn en handelen als mannelijke bezigheden. . . , Goldthorpe en zijn collega's bouwde een set van empirische bewijzen die gevoed en gekoesterd hun eigen theoretische aannames in plaats van ze bloot te stellen aan een geldige test van geschiktheid. "
Hart vervolgde:
"De empirische bevindingen van de rijke Worker Project vertelt ons meer over de masculiene waarden van het midden van de eeuw de sociologie dan dat ze de processen van gelaagdheid, de politiek en het materiële leven op de hoogte."
Kan je denken aan andere voorbeelden waar de collectie op maat gemaakte data heeft de vooroordelen van de data collector in het wordt gebouwd? Hoe verhoudt dit zich tot algoritmische verstorende? Welke gevolgen kan dit hebben voor toen de onderzoekers Readymades moet gebruiken en wanneer ze Custommades moet gebruiken?
[ ] In dit hoofdstuk heb ik in contrast gegevens door onderzoekers voor onderzoekers met administratieve gegevens die door bedrijven en overheden verzameld. Sommige mensen noemen deze administratie "gevonden data", die zij contrasteren met "ontworpen data." Het is waar dat de administratieve records worden gevonden door onderzoekers, maar ze zijn ook zeer ontworpen. Bijvoorbeeld, moderne tech bedrijven besteden enorme hoeveelheden tijd en middelen te verzamelen en hun gegevens curator. Zo, deze administratie zijn beide gevonden en ontworpen, het net hangt af van uw perspectief (Figuur 2.10).
Geef een voorbeeld van gegevensbron, waar het zien zowel als gevonden en ontworpen is nuttig bij het gebruik van die gegevens bron voor onderzoek.
[ ] In een doordachte essay, Christian Sandvig en Eszter Hargittai (2015) beschrijven twee soorten digitale onderzoek, waarbij het digitale systeem is "instrument" of "object van studie." Een voorbeeld van de eerste soort van de studie is de plaats waar Bengtsson en collega's (2011) gebruikte mobiele telefoon data migratie te volgen na de aardbeving in Haïti in 2010. Een voorbeeld van de tweede soort is waar Jensen (2007) onderzoekt hoe de introductie van mobiele telefoons in heel Kerala, India impact op de werking van de markt voor vis. Ik vind dit nuttig omdat het verduidelijkt dat studies met behulp van digitale data bronnen heel verschillende doelen, zelfs als ze met behulp van dezelfde soort gegevensbron kan hebben. Om dit onderscheid te verduidelijken, beschrijven vier studies die je hebt gezien: twee die een digitaal systeem te gebruiken als een instrument en twee die een digitaal systeem te gebruiken als een object van studie. U kunt voorbeelden te gebruiken van dit hoofdstuk als je wilt.