Kulcs:
[ , ] Algoritmikus zavaró probléma volt a Google Flu Trends. Olvassa el a papírt Lazer et al. (2014) , és írj egy rövid, egyértelmű az e-mail egy mérnök a Google leírja a problémát és kínál egy ötlet, hogyan lehet megoldani a problémát.
[ ] Bollen, Mao, and Zeng (2011) azt állítja, hogy az adatok a Twitter lehet megjósolni a tőzsde. Ez a felismerés vezetett, hogy hozzanak létre egy hedge fund-Derwent Capital Markets-befektetni a tőzsdén alapján gyűjtött adatok Twitter (Jordan 2010) . Milyen bizonyítékok azt szeretné látni, mielőtt a pénzt, hogy az alapok?
[ ] Míg néhány közegészségügyi támogatja jégeső e-cigaretta hatékony segítséget a dohányzásról való leszokás, mások figyelmeztetnek a lehetséges kockázatok, mint például a magas szintet a nikotin. Képzeljük el, hogy egy kutató úgy dönt, hogy tanulmányozza a közvélemény felé e-cigaretta összegyűjtésével e-cigaretta kapcsolatos Twitter-bejegyzései és lebonyolítása hangulat elemzést.
[ ] 2009 novemberében a Twitter megváltoztatta a kérdést a tweet dobozt "Mit csinálsz?", Hogy "Mi történik?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) elemezték 41700000 felhasználói profilokat, 1470000000 társadalmi kapcsolatok, 4262 trend témák, és 106 millió tweets között június 6. és június 31., 2009. Az elemzés alapján arra a következtetésre jutottak, hogy a Twitter szolgál több, mint egy új médium az információ megosztás, mint a közösségi háló.
[ ] "Retweets" gyakran mérésére befolyását és terjedését befolyásolja a Twitteren. Kezdetben felhasználók kellett másolja be a tweet, hogy tetszett, tag az eredeti szerző az ő / fogantyú, és kézzel írja "RT", mielőtt a tweet, jelezve, hogy ez egy retweet. Majd 2009-ben a Twitter hozzá a "retweet" gombra. Júniusban 2016 Twitter lehetővé tette a felhasználók számára, hogy retweetelheti saját tweets (https://twitter.com/twitter/status/742749353689780224). Gondolod, ezek a változások befolyásolják, hogyan használja a "retweets" a kutatás? Miért vagy miért nem?
[ , , ] Michel et al. (2011) épített egy corpus kikerülő Google erőfeszítést a könyvek digitalizálására. Az első változat a corpus, amely megjelent 2009-ben, és tartalmazott több mint 5 millió digitalizált könyv, a szerzők elemezték szó használatának gyakoriságát vizsgálja a nyelvi változások és kulturális trendek. Hamarosan a Google Books Corpus lett népszerű adatforrás a kutatók, és a 2. változata az adatbázis adták 2012-ben.
Azonban Pechenick, Danforth, and Dodds (2015) arra figyelmeztetett, hogy a kutatók kell teljes mértékben jellemezni a mintavételi eljárás a corpus használat előtt rajz átfogó következtetések. A fő probléma az, hogy a korpusz könyvtár-szerű, amely egy minden könyv. Ennek eredményeként, az egyén, termékeny szerző képes észrevehetően helyezze be az új kifejezéseket a Google Books lexikon. Sőt, tudományos szövegek alkotják egyre lényegi része a corpus egész 1900-as években. Ezen túlmenően, összehasonlítva két változata az angol-Fi adatállományok, Pechenick et al. talált bizonyítékot arra, hogy elégtelen szűrés használták a termelő az első verzió. Minden szükséges adatok aktivitás elérhető itt: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) feltárja, hogy a széles körű nyilvánosságot körülbelül NSA / PRISM megfigyelési (azaz a Snowden kinyilatkoztatások) 2013 júniusában jár éles és hirtelen csökkenése a forgalom Wikipedia témájú cikkek, fel adatvédelmi aggályokat. Ha igen, ez a magatartás-változás összhangban lenne dermesztő hatással eredő tömeges ellenőrzésre. Az a megközelítés Penney (2016) néha egy megszakított idősoros tervezés és kapcsolódik a megközelítések a fejezetet közelítő kísérletek a megfigyeléses adatok (2.4.3).
Kiválasztani a témát kulcsszavak Penney említett listán által használt US Department of Homeland Security nyomon követésére és ellenőrzésére a szociális média. A DHS lista kategorizálja bizonyos keresési kifejezések egy sor kérdés, azaz a "egészségügyi probléma", "Infrastruktúra Biztonság" és a "terrorizmus". A vizsgálati csoport Penney használt negyvennyolc kulcsszavakat, hogy "terrorizmus" (lásd 8. táblázat Függelék). Ezután aggregált Wikipedia cikket nézet számít havonta a megfelelő negyvennyolc Wikipediabejegyzések egy harminckét hónapos időszak elejétől 2012. január augusztus végéig 2014 megerősítése az érve, ő is készített néhány összehasonlítás csoportok követési cikket nézeteit más téma.
Most fogsz lemásolni és terjeszteni Penney (2016) . Minden a nyers adatokat, hogy szükség lesz erre a tevékenységre elérhető a Wikipédia (https://dumps.wikimedia.org/other/pagecounts-raw/). Vagy lehet kapni azt a R csomag wikipediatrend (Meissner and Team 2016) . Amikor írsz-ig a válaszokat kérjük, vegye figyelembe, hogy mely adatok forrása használt. (Megjegyzés: Ez ugyanaz a tevékenység is megjelenik 6. fejezet)
[ ] Efrati (2016) jelentések alapján bizalmas információkat, hogy a "teljes megosztás" a Facebook-on már csökkent mintegy 5,5% az elmúlt egy évben, míg az "eredeti adás megosztása" volt, meg 21% az elmúlt egy évben. Ez a csökkenés volt különösen súlyos a Facebook felhasználók 30 év alatti életkor. A jelentés tulajdonítható a visszaesés a két tényező. Az egyik a számának növekedése a "barátok" az emberek a Facebook-on. A másik az, hogy néhány megosztási tevékenység eltolódott üzenetküldés és a versenytársak, mint SnapChat. A jelentés azt is feltárta a különböző taktikák Facebook megpróbálta, hogy növeljék megosztását, beleértve a News Feed algoritmus csíp, hogy eredeti üzenetét szembetűnőbb, valamint időszakos emlékeztetőket az eredeti cikkek felhasználók "Ezen a napon" néhány évvel ezelőtt. Milyen hatásokat, ha egyáltalán nem ezek a felfedezések a kutatók, akik szeretnék használni a Facebook, mint egy adatforrás?
[ ] Tumasjan et al. (2010) számolt be, hogy az arány a tweets idéző politikai párt kiegyenlített aránya szavazatok fél megkapta a német parlamenti választások 2009-ben (2.9 ábra). Más szóval, úgy tűnt, hogy jól jönne Twitter megjósolni a választások. Abban az időben ez a tanulmány megjelent úgy ítélték meg, rendkívül izgalmas, mert azt úgy is egy értékes közös forrása a nagy adat.
Mivel a rossz tulajdonságait nagy adat azonban azonnal meg kell, hogy szkeptikus ennek az eredménynek. Német-en 2009-ben volt jó, nem reprezentatív csoport, és a szurkolók egyik fél talán csipog a politikáról gyakrabban. Vagyis úgy tűnik, meglepő, hogy az összes lehetséges torzításokat, hogy meg tudná képzelni valahogy kioltják. Tény, hogy az eredmények a Tumasjan et al. (2010) kiderült, hogy túl szép, hogy igaz legyen. A tanulmányban, Tumasjan et al. (2010) tekinthető hat politikai párt: kereszténydemokraták (CDU), Christian szociáldemokraták (CSU), SPD, a liberálisok (FDP), a Bal (Die Linke) és a Zöld Párt (Grüne). Azonban a legtöbb fent említett német politikai párt-en akkoriban a Kalóz Párt (Piraten) egy párt, amely harcol a kormányzati szabályozás az internet. Amikor a Kalóz Párt tartalmazza az elemzés, a Twitter megemlíti, rettenetes előrejelzője választási eredmények (2.9 ábra) (Jungherr, Jürgens, and Schoen 2012) .
Ezt követően más kutatók világszerte használt tenyésztő módszereket-mint például a hangulat elemzés különbséget tenni a pozitív és negatív megemlíti a felek-annak érdekében, hogy javítsák a Twitter adatok megjósolni a különféle típusú választások (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Itt van, hogyan Huberty (2015) foglalja össze az eredményeket e kísérletek megjósolni választások:
"Minden ismert előrejelzési módszerek alapján a szociális média nem sikerült kitéve az igények igazi előremutató választási előrejelzés. Ezek a hibák úgy tűnik, hogy az oka, hogy az alapvető tulajdonságai a szociális média, ahelyett, hogy a módszertani vagy algoritmikus nehézségeket. Röviden, a szociális média nem, és valószínűleg soha nem is lesz, felajánl egy stabil, független, reprezentatív képet a választók; és a kényelem mintákat a közösségi média nem rendelkeznek elegendő adatot rögzíteni ezeket a problémákat, post hoc ".
Olvassa el néhány kutatási vezető Huberty (2015) , hogy ezt a következtetést, és írj egy egyoldalas feljegyzés egy politikai jelölt leírja, és ha igen, hogyan Twitter kell használni, hogy előre választásokat.
[ ] Mi a különbség egy szociológus és történész? Szerint Goldthorpe (1991) , a fő különbség a szociológus és történész feletti ellenőrzés adatgyűjtés. A történészek kénytelenek használni relikviák míg a szociológusok is szabott az adatgyűjtés sajátos célra. Read Goldthorpe (1991) . Hogy a különbség a szociológia és a történelem kapcsolatos elképzelést Custommades és Readymades?
[ ] Építve az előző kérdésre, Goldthorpe (1991) felhívta számos kritikus reakciókat, köztük egy Nicky Hart (1994) , hogy a kifogásolt Goldthorpe odaadás testre szabott adatokat. Hogy tisztázzák a korlátai szabott adatokat, Hart le a Affluent munkás Project, egy nagy felmérés mérésére kapcsolat a társadalmi osztály és a szavazási hogy végezte Goldthorpe és munkatársai a 1960-as évek. Mint várhatnánk egy tudós, akik előnyben tervezett adatokat talált adatok, a bőség munkás Project összegyűjtött adatokat, amelyekről szabni a közelmúltban javasolt elmélet a jövőben a szociális osztály korában növekvő életszínvonal. De Goldthorpe és munkatársai valahogy "elfelejtette", hogy információt gyűjtsön a szavazói viselkedés a nők. Itt van, hogy Nicky Hart (1994) összefoglalók az egész epizód:
". . . hogy [a] nehéz elkerülni azt a következtetést, hogy a nők is hagyható, mert ez a "testre szabott" adatbázisba korlátozódott egy paradigmatikus logika, ami kizárja a női tapasztalat. Hajtott egy elméleti elképzelés osztálytudat és a cselekvés, mint férfi aggodalmak. . . , Goldthorpe és kollégái épített egy sor empirikus bizonyítékokat, amelyek táplálják és ápolni a saját elméleti feltételezések helyett kiteszik őket a teszt érvényes megfelelőségi. "
Hart folytatta:
"Az empirikus vizsgálat eredményeit a bőség munkás Project többet mond a maszkulin értékek század közepén a szociológia, mint tájékoztatják a folyamatokat a rétegződés, a politika és az anyagi élet."
Tudsz más példát, ahol személyre szabott adatgyűjtés torzulások az adatgyűjtő beleépítve? Hogyan viszonyul ez a algoritmikus zavaró? Milyen hatásokat lehet mindez, amikor a kutatók használja Readymades és mikor kell használni Custommades?
[ ] Ebben a fejezetben ellentétben által gyűjtött adatokat a kutatók a kutatók számára az adminisztratív nyilvántartások által létrehozott vállalatok és a kormányok. Egyesek ezek az adminisztratív nyilvántartások "talált adatok", melynek elütő "tervezett adatokkal." Igaz, hogy az adminisztratív nyilvántartások találhatók a kutatók, de ők is nagyon kialakítva. Például a modern tech vállalatok költenek hatalmas mennyiségű időt és forrásokat gyűjteni és gondozásában az adatokat. Így ezek az adminisztratív nyilvántartások egyaránt találtak, és célja, ez csak attól függ, hogy a perspektíva (2.10 ábra).
Adjon példát adatforrás, ahol látta, hogy mind a talált, és célja az, hasznos, ha az adatforrást kutatás.
[ ] Egy átgondolt esszé, Christian Sandvig és Eszter Hargittai (2015) leírják kétféle digitális kutatási, ahol a digitális rendszer "eszköz", vagy "tárgya tanulmány." Egy példa az első fajta vizsgálat, ahol Bengtsson és munkatársai (2011) használt mobil telefon adatait követni migráció a földrengés után Haitin 2010-ben egy példát a második fajta, ahol Jensen (2007) azt vizsgálja, milyen bevezetése mobiltelefonról Kerala, India hatással működését a halpiac. Szerintem ez azért hasznos, mert egyértelművé teszi, hogy a vizsgálatok a digitális adatforrások lehetnek egészen más célokat is, ha azok ugyanazt a fajta adatforrást. Annak érdekében, hogy további tisztázása ezt a megkülönböztetést, leírja a négy vizsgálatban, hogy láttad: két használó digitális rendszer, mint eszköz és két használó digitális rendszer, mint egy tárgy tanulmány. Használhatja példát ebben a fejezetben, ha akarod.