sleutel:
[ , ] Algorithmic confounding was 'n probleem met Google Flu Trends. Lees die vraestel deur Lazer et al. (2014) , en skryf 'n kort, duidelike e-pos aan 'n ingenieur by Google verduidelik die probleem en die aanbied van 'n idee van hoe om die probleem op te los.
[ ] Bollen, Mao, and Zeng (2011) beweer dat data van Twitter kan gebruik word om die aandelemark te voorspel. Hierdie bevinding het gelei tot die skepping van 'n heining fonds-Derwent Kapitaalmarkte-om te belê in die aandelemark gebaseer op data wat versamel is van Twitter (Jordan 2010) . Watter bewyse sou jy wil sien voordat jou geld in daardie fonds?
[ ] Terwyl sommige openbare gesondheid advokate hael e-sigarette as 'n doeltreffende hulpmiddel vir ophou rook, ander waarsku oor die moontlike risiko's, soos die hoë-vlak van nikotien. Stel jou voor dat 'n navorser besluit om die openbare mening in die rigting van e-sigarette te bestudeer deur die versameling van e-sigarette-verwante Twitter poste en die uitvoer van sentiment analise.
[ ] In November 2009, Twitter verander die vraag in die tweet boks van "Wat doen jy?" Na "Wat gaan aan?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) ontleed 41.700.000 gebruikers profiles, 1470000000 sosiale verhoudings, 4262 trending onderwerpe, en 106000000 tweets tussen 6 Junie en 31 Junie 2009. Op grond van hierdie analise hulle die gevolgtrekking gekom dat Twitter vir meer as 'n nuwe medium van die deel van inligting as 'n sosiale netwerk.
[ ] "Retweets" word dikwels gebruik om invloed te meet en te versprei van invloed op Twitter. Aanvanklik, gebruikers het om te kopieer en plak die tweet hulle graag, merk die oorspronklike skrywer met sy / haar handvatsel, en met die hand tik "RT" voor die tweet om aan te dui dat dit 'n retweet. Toe, in 2009 Twitter bygevoeg 'n "retweet" knoppie. In Junie 2016, Twitter het dit moontlik gemaak vir gebruikers om hul eie tweets Retweet (https://twitter.com/twitter/status/742749353689780224). Dink jy hierdie veranderinge moet beïnvloed hoe jy "retweets" gebruik in jou navorsing? Hoekom of hoekom nie?
[ , , ] Michel et al. (2011) gebou 'n corpus na vore kom uit Google se poging om boeke te digitaliseer. Die gebruik van die eerste weergawe van die corpus, wat in 2009 gepubliseer is en wat meer as 5 miljoen gedigitaliseerde boeke, die skrywers ontleed woord gebruiksfrekwensie taalkundige veranderinge en kulturele tendense te ondersoek. Gou het die Google Books Corpus n gewilde databron vir navorsers, en 'n 2-weergawe van die databasis is vrygestel in 2012.
Maar Pechenick, Danforth, and Dodds (2015) het gewaarsku dat navorsers nodig om ten volle te karakteriseer die monsterneming proses van die corpus voordat dit gebruik word vir 'n breë gevolgtrekkings. Die grootste probleem is dat die corpus is biblioteek-agtige, wat een van elke boek. As gevolg hiervan, 'n individu, produktiewe skrywer in staat is om merkbaar voeg nuwe frases in die Google Books leksikon. Verder, wetenskaplike tekste vorm 'n toenemend substantiewe gedeelte van die corpus regdeur die 1900's. Daarbenewens word deur vergelyking van twee weergawes van die Engelse fiksie datastelle, Pechenick et al. bewyse gevind dat onvoldoende filter gebruik in die vervaardiging van die eerste weergawe. Al die data wat nodig is vir aktiwiteit is hier beskikbaar: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) ondersoek of die wydverspreide publisiteit oor NSA / PRISM toesig (dit wil sê, die Snowden onthullings) in Junie 2013 is wat verband hou met 'n skerp en skielike afname in verkeer na Wikipedia artikels oor onderwerpe wat privaatheid opper. Indien wel, sou hierdie verandering in gedrag in ooreenstemming met 'n verlammende effek as gevolg van massa toesig wees. Die benadering van Penney (2016) word soms 'n onderbroke tydreekse ontwerp en verband hou met die benaderings in die hoofstuk oor benader eksperimente uit waarneming data (Afdeling 2.4.3).
Om van te kies die onderwerp sleutelwoorde, verwys Penney die lys gebruik deur die Amerikaanse Departement van Binnelandse Veiligheid vir die dop en monitering van sosiale media. Die DHS lys kategoriseer sekere soekterme in 'n verskeidenheid van onderwerpe, naamlik "Gesondheid Kommer," "Infrastruktuur Sekuriteit," en "terrorisme." Vir die studiegroep, Penney gebruik die agt en veertig sleutelwoorde wat verband hou met "terrorisme" (sien tabel 8 bylaag). Hy het daarna saamgevoeg Wikipedia artikel kyktellings op 'n maandelikse basis vir die ooreenstemmende agt en veertig Wikipedia artikels oor 'n tydperk twee en dertig maande, vanaf die begin van Januarie 2012 tot die einde van Augustus 2014. Om sy argument te versterk, hy het ook 'n paar vergelyking groepe deur die dop standpunte artikel oor ander onderwerpe.
Nou, gaan jy herhaal en uit te brei Penney (2016) . Al die rou data wat jy nodig het vir hierdie aktiwiteit is beskikbaar by Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Of jy kan dit kry van die R-pakket wikipediatrend (Meissner and Team 2016) . Wanneer jy skryf-up jou antwoorde, asseblief daarop let wat databron wat jy gebruik. (Let wel: Dit is dieselfde aktiwiteit verskyn ook in Hoofstuk 6)
[ ] Efrati (2016) verslae, gebaseer op vertroulike inligting, wat "totale sharing" op Facebook meer as jaar gedaal met sowat 5,5% jaar, terwyl "oorspronklike uitsending deel" was af 21% jaar meer as jaar. Hierdie afname was veral akute met Facebook gebruikers jonger as 30 jaar oud. Die verslag skryf die afname aan twee faktore. Een daarvan is die groei in die aantal "vriende" mense het op Facebook. Die ander is dat sommige deel aktiwiteit verskuif na boodskappe en om mededingers soos Snapchat. Die verslag het ook getoon die verskillende taktiek Facebook het probeer om deel te versterk, insluitende Nuusvoer algoritme tweaked dat oorspronklike poste meer prominent te maak, sowel as periodieke aanmanings van die oorspronklike poste gebruikers "Op hierdie dag" 'n paar jaar gelede. Watter implikasies, indien enige, het hierdie bevindinge het vir navorsers wat wil Facebook te gebruik as 'n databron?
[ ] Tumasjan et al. (2010) berig dat deel van tweets te noem 'n politieke party wat ooreenstem met die persentasie van stemme daardie party ontvang in die Duitse parlementêre verkiesing in 2009 (Figuur 2.9). Met ander woorde, het dit geblyk dat jy Twitter kan gebruik om die verkiesing te voorspel. Ten tyde van hierdie studie was gepubliseer dit was beskou as uiters opwindend, want dit was 'n waardevolle gebruik vir 'n gemeenskaplike bron van groot data stel.
Gegewe die slegte eienskappe van die groot data egter jy moet onmiddellik skepties oor hierdie resultaat wees. Duitsers op Twitter in 2009 was nogal 'n nie-verteenwoordigende groep, en ondersteuners van die een party dalk meer dikwels tweet oor politiek. So, dit lyk verbasend dat al die moontlike vooroordele wat jy kon dink een of ander manier sou kanselleer. Trouens, die resultate in Tumasjan et al. (2010) blyk te goed te wees om waar te wees. In hul papier, Tumasjan et al. (2010) beskou ses politieke partye: Christen-Demokrate (CDU), Christian Sosiale Demokrate (CSU), SPD, liberale (FDP), links (Die Linke), en die Groen Party (Grüne). Maar die meeste genoemde Duitse politieke party op Twitter op daardie tydstip was die Pirate Party (Piraten), 'n party wat die regering regulering van die internet veg. Wanneer die Pirate Party is ingesluit in die analise, Twitter noem word 'n verskriklike voorspeller van verkiesingsuitslae (Figuur 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Daarna het ander navorsers regoor die wêreld gebruik liefhebber metodes-soos die gebruik van sentiment analise om te onderskei tussen positiewe en negatiewe noem van die partye-om die vermoë van Twitter data om 'n verskeidenheid van verskillende soorte verkiesings voorspel verbeter (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Hier is hoe Huberty (2015) opgesom die resultate van hierdie pogings om verkiesings te voorspel:
"Al bekend voorspelling metodes gebaseer op sosiale media het misluk wanneer dit aan die vereistes van ware toekomsgerigte verkiesings vooruitskatting. Hierdie mislukkings verskyn as gevolg van fundamentele eienskappe van sosiale media, eerder as om metodologiese of algoritmiese probleme te wees. In kort, sosiale media nie, en waarskynlik nooit sal bied 'n stabiele, onbevooroordeelde, verteenwoordigende beeld van die kiesers, en gerief monsters van sosiale media nie voldoende data te los hierdie probleme post hoc. "
Lees 'n paar van die navorsing wat lei Huberty (2015) tot die gevolgtrekking, en skryf 'n mens bladsy memorandum aan 'n politieke kandidaat beskryf of en hoe Twitter moet gebruik word om die verkiesings te voorspel.
[ ] Wat is die verskil tussen 'n sosioloog en 'n historikus? Volgens Goldthorpe (1991) , die grootste verskil tussen 'n sosioloog en 'n historikus is beheer oor data-insameling. Geskiedkundiges is gedwing om oorblyfsels gebruik terwyl sosioloë hul data-insameling kan aanpas om 'n spesifieke doel. Lees Goldthorpe (1991) . Hoe is die verskil tussen sosiologie en geskiedenis wat verband hou met die idee van Custommades en Readymades?
[ ] Die bou op die vorige vraag, Goldthorpe (1991) het 'n aantal kritiese response, insluitend een van Nicky Hart (1994) wat Goldthorpe se toewyding uitgedaag om gemaak data op maat. Om die potensiaal beperkinge van pasgemaakte data te verduidelik, Hart beskryf die ryk Werker Projek, 'n groot opname om die verhouding tussen sosiale klas en stem wat deur Goldthorpe en kollegas in die middel-1960's meet. Soos 'n mens kan verwag van 'n skolier wat ten gunste ontwerp data oor gevind data, die ryk Werker Projek ingesamelde data wat op maat van 'n onlangs voorgestel teorie oor die toekoms van die sosiale klas aan te spreek in 'n era van toenemende lewenstandaarde. Maar, Goldthorpe en kollegas een of ander manier "vergeet" om inligting oor die stem gedrag van vroue in te samel. Hier is hoe Nicky Hart (1994) som die hele episode:
". . . dit [is] moeilik om die gevolgtrekking gekom dat vroue uitgelaat omdat dit 'maat' dataset was beperk deur 'n paradigmatiese logika wat vroulike ervaring uitgesluit te vermy. Gedryf deur 'n teoretiese visie van klas bewussyn en optrede as manlike bekommernis. . . , Goldthorpe en sy kollegas gebou 'n stel van empiriese bewyse wat gevoed en gekoester hul eie teoretiese aannames in plaas van hulle bloot te stel aan 'n geldige toets van toereikendheid. "
Hart het voortgegaan:
"Die empiriese bevindinge van die ryk Werker Projek vertel ons meer oor die maskulinistiese waardes van die middel-eeuse sosiologie as hulle die prosesse van stratifikasie, politiek en materiële lewe in te lig."
Kan jy dink aan ander voorbeelde waar versameling pasgemaakte data het die vooroordele van die data versamelaar gebou in dit? Hoe vergelyk dit met algoritmiese confounding? Watter implikasies kan dit hê vir wanneer navorsers Readymades moet gebruik en wanneer hulle Custommades moet gebruik?
[ ] In hierdie hoofstuk het ek in teenstelling data deur navorsers vir navorsers met administratiewe rekords geskep deur maatskappye en regerings ingesamel. Sommige mense noem hierdie administratiewe rekords "gevind data," wat hulle kontras met "ontwerp data." Dit is waar dat administratiewe rekords gevind deur navorsers, maar hulle is ook baie ontwerp. Byvoorbeeld, moderne tegnologie maatskappye bestee enorme bedrae van tyd en hulpbronne in te samel en hulle data kapelaan. So, hierdie administratiewe rekords is albei gevind en ontwerp, is dit net hang af van jou perspektief (Figuur 2.10).
Gee 'n voorbeeld van die data bron waar dit sien beide as gevind en ontwerp is nuttig wanneer die gebruik van die data bron vir navorsing.
[ ] In 'n deurdagte essay, Christelike Sandvig en Eszter Hargittai (2015) beskryf twee soorte digitale navorsing, waar die digitale stelsel is "instrument" of "doel van die studie." 'N Voorbeeld van die eerste soort studie is waar Bengtsson en kollegas (2011) gebruik selfoon data migrasie te spoor ná die aardbewing in Haiti in 2010. 'n voorbeeld van die tweede soort is waar Jensen (2007) studie hoe die bekendstelling van selfone in die hele Kerala, Indië beïnvloed die funksionering van die mark vir vis. Ek vind dit nuttig, want dit maak dit duidelik dat studies met behulp van digitale data bronne heel anders doelwitte selfs al is hulle met behulp van dieselfde soort data bron kan hê. Ten einde hierdie onderskeid verder te verduidelik, beskryf vier studies wat jy gesien: twee wat 'n digitale stelsel gebruik as 'n instrument en twee wat 'n digitale stelsel gebruik as 'n voorwerp van studie. Jy kan voorbeelde uit hierdie hoofstuk as jy wil.