kľúč:
[ , ] Algoritmické mätúce bol problém s Chrípkové trendy Google. Čítať noviny podľa Lazer et al. (2014) , a napísať krátku, jasnú e-mail inžinier v spoločnosti Google s vysvetlením problému a ponúka predstavu o tom, ako problém vyriešiť.
[ ] Bollen, Mao, and Zeng (2011) tvrdí, že dáta z Twitteru môžu byť použité na predikciu na akciovom trhu. Toto zistenie viedlo k vytvoreniu investičný fond-Derwent Capital Markets-investovať na akciovom trhu na základe údajov získaných od Twitteri (Jordan 2010) . Aké dôkazy by ste chceli vidieť pred uvedením svoje peniaze v tomto fonde?
[ ] Kým niektorí zástancovia verejného zdravia krupobitie e-cigarety ako účinný nástroj na odvykanie od fajčenia, iní varujú pred možnými rizikami, ako sú výškových úrovní nikotínu. Imagine, že výskumník si volia public mienky o e-cigariet collecting e-cigarety-related Twitter miesta a uskutočnením analýzy sentiment.
[ ] V novembri 2009, Twitter zmenil otázku tweetu krabici od "Čo to robíš?" To "Čo sa deje?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analyzovali 41,7 milióna používateľských profilov, 1,47 miliardy spoločenských vzťahov 4262 tém sledovanie trendov a 106 miliónov tweetov medzi 6. júna a 31. júna 2009. Na základe tejto analýzy sú k záveru, že Twitter slúžia skôr ako nové médium o zdieľaní informácií než Based sociálna sieť.
[ ] "Retweets" sa často používajú na meranie vplyvu a šírenie vplyvu na Twitteri. Spočiatku museli používatelia skopírovať a vložiť tweet mali radi, označte pôvodný autor s jeho / jej rukoväťou a ručne pred tweetu typu "RT" pre indikáciu, že je to retweet. Potom, v roku 2009 Twitter pridal tlačidlo "retweet". V júni 2016, Twitter umožnil používateľom retweet svoje tweety (https://twitter.com/twitter/status/742749353689780224). Myslíte si, že by tieto zmeny nemali mať vplyv na tom, ako používať "retweets" vo svojom výskume? Prečo áno alebo prečo nie?
[ , , ] Michel et al. (2011) skonštruoval korpus vznikajúce zo snahy spoločnosti Google digitalizovať knihy. Použitie prvá verzia korpusu, ktorý bol uverejnený v roku 2009 a obsahovala vyše 5 miliónov digitalizovaných kníh, autori analyzujú slovo frekvencia uplatňovania skúmať jazykové zmeny a kultúrne trendy. Čoskoro Google Books Corpus stal obľúbeným zdrojom dát pre výskumných pracovníkov, a druhá verzia databázy bola vydaná v roku 2012.
Avšak, Pechenick, Danforth, and Dodds (2015) varoval, že výskumní pracovníci musia plne charakterizovať proces vzorkovacej korpusu pred jej použitím pre kreslenie všeobecné závery. Hlavným problémom je, že korpus je knižnica, podobné výrobky obsahujúce jednu z každej knihy. V dôsledku toho jedinca, plodný autor je schopný výrazne vložiť nové vety do lexikónu Google Books. Okrem toho vedecké texty predstavujú stále podstatnú časť korpusu skrz 1900s. Navyše tým, že porovnanie dvoch verzií hraných dátovej sady anglických, Pechenick et al. nájdený dôkaz, že nedostatočná filtrácia bola použitá pri výrobe prvej verzii. Všetky údaje potrebné pre činnosť je k dispozícii tu: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) skúma, či je rozšírená publicita o NSA / PRISM dohľadu (tj Snowden odhalením) v júni 2013 je spojený s prudkým a náhlym poklesom návštevnosti Wikipedia články o témach, ktoré vyvolávajú obavy o ochrane osobných údajov. Ak áno, táto zmena v správaní by bolo v súlade s mrazivým efektom vyplývajúce z hromadný dozor. Prístup Penney (2016) je niekedy nazývaný v prerušenej časový rad dizajn a je spojené s prístupov v kapitole o zblíženie experimenty z pozorovacích dát (§ 2.4.3).
Ak chcete zvoliť túto tému kľúčové slová, Penney uvedených v zozname použitej amerického ministerstva pre vnútornú bezpečnosť pre sledovanie a monitorovanie sociálnych médií. Zoznam DHS kategorizuje určité hľadané termíny do celej rady otázok, teda "Health Concern", "bezpečnostnú infraštruktúru," a "terorizmu". Pre študijnej skupiny, Penney použité štyridsaťosem kľúčové slová vzťahujúce sa k "terorizmu" (pozri tabuľku 8 Dodatok). On potom agregované počty zobrazení článku Wikipédie na mesačnej báze pre zodpovedajúce štyridsiatich ôsmich články z Wikipédie viac ako tridsiatich dvojmesačného obdobia od začiatku januára 2012 do konca augusta 2014. Na posilnenie jeho argument, on tiež vytvoril niekoľko porovnaní skupiny tým, že sleduje názory článok o iných témach.
Teraz budete replikovať a rozširovať Penney (2016) . Všetky surové dáta, ktoré budete potrebovať pre túto činnosť je k dispozícii od Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Alebo ju môžete získať od R balíčka wikipediatrend (Meissner and Team 2016) . Keď píšete-up vaše odpovede, upozorňujeme, ktorý zdroj údajov ste použili. (Poznámka: Toto rovnaké aktivita sa objavuje aj v kapitole 6)
[ ] Efrati (2016) správy, na základe dôverných informácií, že "celková zdieľanie" na Facebooku znížil o 5,5% medziročný nárast, zatiaľ čo "pôvodné zdieľanie broadcast" sa znížil o 21% oproti minulému roku. Tento pokles bol obzvlášť akútne u užívateľov Facebooku pod 30 rokov veku. Správa pripisuje pokles dvoma faktorom. Jedným z nich je nárast počtu "priateľov" ľudia majú na Facebooku. Na druhej strane je, že niektoré zdieľanie aktivita sa presunula do správ a konkurentmi, ako snapchat. Správa tiež odhalila niekoľko taktiku Facebook sa pokúsil posilniť zdieľanie, vrátane News Feed algoritmus vylepšenia, ktoré tvoria originálne príspevky výraznejšie, rovnako ako periodické pripomenutie pôvodných užívateľov prispievania "V tento deň" Pred niekoľkými rokmi. Aké dôsledky, ak vôbec, sa tieto nálezy sú pre výskumných pracovníkov, ktorí chcú používať Facebook ako zdroj dát?
[ ] Tumasjan et al. (2010) uvádzajú, že podiel tweets zmieňujúcu politickú stranu uzavreté podiel hlasov, ktoré strana dostala v nemeckom parlamentných voľbách v roku 2009 (obr 2.9). Inými slovami, to vyzeralo, že by ste mohli použiť Twitter predpovedať voľby. V čase písania tejto štúdie bola zverejnená bolo považované za veľmi vzrušujúce, pretože to vyzeralo, že navrhnúť cennú využitie pre spoločný zdroj veľkých dát.
Vzhľadom k tomu, zlé vlastnosti spracovanie veľkých objemov dát, však, mali by ste okamžite byť skeptický tohto výsledku. Nemci na Twitteri v roku 2009 boli celkom skupina nereprezentatívne, a priaznivci by jedna strana mohla tweet o politike častejšie. Zdá sa teda, prekvapivé, že všetky možné predsudky, ktoré by ste mohli predstaviť nejako vyruší. V skutočnosti, výsledky v Tumasjan et al. (2010) sa ukázalo byť príliš dobré, aby to bola pravda. Vo svojom článku, Tumasjan et al. (2010) považovaný za šesť politických strán: kresťanskí demokrati (CDU), Kresťansko-sociálnej demokrati (CSU), SPD, liberálmi (FDP) a ľavá (Die Linke) a Stranu zelených (Grüne). Avšak, najčastejšie zmieňované nemecká politická strana na Twitteri bol v tej dobe Pirátska strana (Piraten), strana, ktorá bojuje proti vládnej regulácii Internetu. Keď bol Pirátska strana zahrnuté do analýzy, Twitter zmieni sa stane strašná prediktor volebných výsledkov (obr 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Následne, iní výskumníci po celom svete používajú milovník spôsobmi-ako napríklad za použitia analýzy cit rozlišovať medzi pozitívne a negatívne zmienky o strán-v, aby sa zlepšila schopnosť Twitter dát predpovedať celý rad rôznych typov volieb (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Tu je návod, ako Huberty (2015) sumarizuje výsledky týchto pokusov predpovedať voľby:
"Všetky známe metódy predpovedania založené na sociálnych médiách sa nepodarilo keď je vystavený k požiadavkám ozajstného výhľadový volebnej prognózy. Tieto poruchy sa zdajú byť spôsobené na podstatné vlastnosti sociálnych médií, skôr než metodických alebo algoritmické problémy. Stručne povedané, sociálne médiá nemajú, a pravdepodobne nikdy nebude, ponúkajú stabilný, neskreslené, reprezentatívny obraz voličov; a vzorky pohodlie sociálnych médií chýba dostatočné údaje opraviť tieto problémy post hoc ".
Prečítajte si niektoré z výskumu, ktorý viedol Huberty (2015) k takému záveru, a napísať jednu stránku poznámku politického kandidáta popisujúce, či a ako Twitter by mali byť použité na predpovede voľby.
[ ] Aký je rozdiel medzi sociológ a historik? Podľa Goldthorpe (1991) , hlavný rozdiel medzi sociológ a historik je kontrola nad zber dát. Historici sú nútení používať pozostatky, zatiaľ čo sociológovia môžu prispôsobiť svoj osobné údaje sa zbierajú na špecifické účely. Prečítajte Goldthorpe (1991) . Ako je rozdiel medzi sociológie a histórie súvisí s myšlienkou Custommades a readymades?
[ ] V nadväznosti na predchádzajúcu otázku, Goldthorpe (1991) nakreslil rad kritických reakcií, vrátane jedného z Nicky Hart (1994) , ktorý napádal Goldthorpe oddanosť na mieru vyrobené dát. Na objasnenie možných obmedzení dát na mieru, Hart opísal bohatých Worker Project, veľký prieskum pre meranie vzťahu medzi sociálnou triedou a hlasovania, ktorý bol riadený Goldthorpe a kolegami v polovici-1960. Ako by sa dalo očakávať od učenca, ktorý zvýhodňuje navrhol dát cez zistených údajov, hojnosti Worker Project zhromažďujú dáta, ktoré boli priamo zameraná na nedávno navrhovanej teóriu o budúcnosti sociálnej triedy v čase zvyšujúcej sa životnej úrovne. Ale Goldthorpe a jeho kolegovia nejako "zabudol" zhromažďovať informácie o volebnom správaní žien. Tu je návod, ako Nicky Hart (1994) zhŕňa celú epizódu:
". , , to [je] ťažké vyhnúť sa záveru, že ženy boli vynechané, pretože tento "šité na mieru" dátový súbor bol uväznený pomocou paradigmatickém logiky, ktorá vylúčené ženskú skúsenosť. Poháňaný teoretickej vízie triedneho uvedomenia a akcie ako mužských starostí. , , , Goldthorpe a jeho kolegovia skonštruoval rad empirických dôkazov, ktoré kŕmi a udržiavanú vlastné teoretické predpoklady namiesto ich vystavenie platného testu primeranosti. "
Hart pokračoval:
"Na empirické poznatky z bohatých Worker Project nám povedať viac o masculinist hodnotách sociológie v polovici storočia, ako informujú o tom procesy stratifikácia, politiky a hmotného života."
Spomeniete si na ďalších príkladov, kedy zber dát šité na mieru má zaujatosti kolekcií dát v ňom zabudované? Ako to v porovnaní s algoritmické mätúce? Aké dôsledky by to mohlo mať, keď výskumní pracovníci by mali používať readymades a keď oni by mali používať Custommades?
[ ] V tejto kapitole kontrastoval Aj dát zhromaždených výskumníkmi pre výskumníkov s administratívnymi záznamy vytvorené spoločnosťami a vládami. Niektorí ľudia hovoria tieto administratívne záznamy "nájdené dát", ktoré kontrastujú s "navrhnutých dátami." Je pravda, že administratívne záznamy sú nájdené výskumní pracovníci, ale sú tiež veľmi určené. Napríklad moderné technologické firmy minúť obrovské množstvo času a zdrojov na zhromažďovanie a kaplán ich dáta. Tak, tieto administratívne záznamy sú obaja našiel a navrhnuté, to záleží na uhle pohľadu (obrázok 2.10).
Poskytnúť príklad zdroj údajov, kde vidieť to ako z našiel a navrhnuté tak je užitočné pri použití tohto zdroja dát pre výskum.
[ ] V premyslené eseje, Christian Sandvig a Eszter Hargittai (2015) popisujú dva druhy digitálneho výskumu, kde je digitálny systém je "nástroj" alebo "predmet štúdia." Príkladom prvého druhu štúdia je miesto, kde Bengtsson a jeho kolegovia (2011) používaných dát mobilných telefónov na sledovanie migrácie po zemetrasení na Haiti v roku 2010. ako príklad druhého druhu je miesto, kde Jensen (2007) štúdie, ako zavedenie mobilných telefónov na celom Kerala, India vplyv na fungovanie trhu s rybami. Pripadá mi to užitočné, pretože objasňuje, že štúdia využívajúce digitálne dátové zdroje môžu mať úplne odlišné ciele, aj keď používajú rovnaký typ zdroja údajov. Za účelom ďalšieho objasnenia tohto rozdielu, popísať štyri štúdie, ktoré ste videli: dve, ktoré používajú digitálny systém ako nástroj a dve, ktoré používajú digitálne systém ako predmet štúdia. Môžete používať príklady z tejto kapitoly, ak chcete.