Võti:
[ , ] Algoritmiline segavate oli probleem Google Flu Trends. Loe paberit Lazer et al. (2014) , ja kirjutada lühikest ja selget e insenerina Google selgitab probleemi ja pakub idee, kuidas probleemi lahendada.
[ ] Bollen, Mao, and Zeng (2011) väidab, et andmeid Twitter saab ennustada aktsiaturu. See leid loomine riskifondide-Derwent Capital Markets-investeerida aktsiaturg põhineb kogutud Twitter (Jordan 2010) . Milliseid tõendeid soovite näha enne pannes oma raha, et fond?
[ ] Kuigi mõned rahvatervise toetajad rahe e-sigaretid on tõhus suitsetamisest loobumise abivahendina, teised hoiatavad võimalike ohtude, näiteks kõrget nikotiini. Kujutage ette, et uurija otsustab õppida avaliku arvamuse poole e-sigaretid, kogudes e-sigaretid seotud Twitter postitused ja läbiviimisel sentiment analüüs.
[ ] 2009. aasta novembris, Twitter muutunud küsimust piiksuma kasti "Mida sa teed?", Et "Mis toimub?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analüüsisid 41700000 kasutajaprofiilid, 1470000000 sotsiaalsed suhted, 4262 trendid teemasid ja 106 miljonit tweets juunist kuni 6. ja 31. juuni 2009. Selle analüüsi põhjal järeldasid nad, et Twitter teenindab enam kui uus meedium teabe jagamist kui sotsiaalvõrgustik.
[ ] "Retweets" kasutatakse sageli mõõta mõju ja leviku mõju Twitter. Esialgu kasutajad pidid kopeeri ja kleebi lehte neile meeldis, tag algne autor tema / tema käepide ja käsitsi kirjutada "RT" enne lehte näidata, et see on retweet. Siis, 2009. aastal Twitter lisanud "retweet" nuppu. Juunis 2016 Twitter võimaldas kasutajatel retweet oma tweets (https://twitter.com/twitter/status/742749353689780224). Kas sa arvad need muutused ei tohiks mõjutada, kuidas kasutada "Retweets" oma uurimistöö? Miks või miks mitte?
[ , , ] Michel et al. (2011) ehitatud corpus väljuvas Google'i jõupingutusi digiteerida raamatuid. Kasutades esimene versioon corpus, mis ilmus 2009. aastal ja sisaldas üle 5 miljoni digiteeritud raamatute autorid analüüsisid sõna kasutussagedus uurida keelelisi muudatusi ja kultuurilisi suundumusi. Varsti Google Books Corpus sai populaarseks andmeallika teadlaste ja 2. versioon andmebaas ilmus 2012. aastal.
Kuid Pechenick, Danforth, and Dodds (2015) hoiatas, et teadlased peavad täielikult iseloomustada valimivõtmisele corpus enne kasutamist joonistamiseks laiaulatuslikke järeldusi. Peamine probleem on see, et korpus on raamatukogu moodi, mis sisaldavad üht iga raamatu. Selle tulemusena individuaalne, viljakas autor on võimalik märgatavalt lisada uusi fraasid Google Books leksikon. Lisaks teaduslikele tekstid kujutavad endast üha sisulise osa corpus kogu 1900. Lisaks võrreldakse kaks versiooni Inglisekirjandus andmekogusid, Pechenick jt. leitud tõendeid, et ebapiisav filtreerimine kasutati tootma esimest versiooni. Kõik vajalikud andmed tegevuse leiab siit: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) uurib, kas levinud avalikustamise NSA / PRISM järelevalve (st Snowden paljastusi) 2013. aasta juunis seostatakse järsk ja ootamatu vähenemine liiklust Wikipedia artikleid teemadel, et tõsta eraelu puutumatusega seotud probleemidele. Kui jah, siis see muutus käitumine oleks kooskõlas pidurdada tulenevad massilise jälgimise. Lähenemisviisi Penney (2016) on mõnikord katkenud aegrida disaini ja on seotud lähenemisviise peatükki ühtlustada katsete vaatlusandmete (punkt 2.4.3).
Et valida teema märksõnadega, Penney nimetatud nimekirja kasutavad USA Sisejulgeolekuministeeriumi jälgimise ja järelevalve sotsiaalse meedia. DHS nimekirja kategoriseerib teatud otsingusõnad erinevaid küsimusi, st "terviseprobleem," "Infrastruktuur Turvalisus" ja "Terrorism." Sest uurimisrühma Penney kasutanud neljakümne kaheksa märksõnu, mis on seotud "Terrorism" (vt tabel 8 Lisa). Seejärel summeeritakse Wikipedia article vaatamisnumbrid igakuiselt vastava neljakümne kaheksa Wikipedia artikleid üle kolmekümne kahe kuu jooksul, alates jaanuari algusest 2012 kuni augusti lõpuni 2014. Selleks, et tugevdada oma väidet, et ta loonud ka mitmeid võrreldes rühmade jälgides artikli arvamusi muud teemad.
Nüüd sa lähed imiteerida ja laiendada Penney (2016) . Kõik algandmed, et pead selle meetme jaoks on saadaval Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Või saad seda alates R pakett wikipediatrend (Meissner and Team 2016) . Kui kirjutada-up teie vastuseid, palun, mis andmeallika sa kasutada. (Märkus: See sama tegevust esineb ka peatükk 6)
[ ] Efrati (2016) aruanded, mis põhinevad konfidentsiaalset informatsiooni, et "kogu" jagamist Facebookis langenud umbes 5,5% võrra, samal ajal kui "originaal saade" jagamist langes 21% võrreldes eelmise aastaga. See langus oli eriti terav Facebook kasutajad alla 30-aastased. Aruanne omistatud langus kaks tegurit. Üks on kasv arvu "sõbrad" inimesed on Facebook. Teine on see, et mõned jagamine aktiivsus on nihkunud sõnumside ja konkurentidele näiteks Snapchat. Aruanne näitas ka mitu taktika Facebook püüdis suurendada jagamine, sealhulgas News Feed algoritm lisasid, mis muudavad algse postitusi silmatorkavam, samuti perioodilisi meeldetuletusi originaal postitusi kasutajad "Sellel päeval" mitu aastat tagasi. Mis mõju, kui üldse, ei need leiud on teadlaste jaoks, kes soovivad kasutada Facebook andmeallika?
[ ] Tumasjan et al. (2010) teatas, et osa tweets märkimist erakonna sobinud osakaal häälel, et partei sai Saksa parlamendivalimistel 2009. aastal (joonis 2.9). Teisisõnu, tundus, et sa võiksid kasutada Twitter ennustada valimisi. Ajal seda Uurimus avaldati peeti väga põnev, sest see näib vihjavat väärtuslik kasutada ühisest allikast suur andmed.
Arvestades halb funktsioonid big andmed, aga siis tuleb kohe olla skeptiline selle tulemuse. Sakslased puperdama 2009. aastal olid üsna mitteesinduslikuks grupp ja toetajad üks pool võib piiksuma umbes poliitikas sagedamini. Seega tundub üllatav, et kõik võimalikud peensusi, mida võiks ette kujutada kuidagi olematuks. Tegelikult põhjustab Tumasjan et al. (2010) osutus liiga hea, et olla tõsi. Oma raamatus, Tumasjan et al. (2010) leidis, kuus erakonnad: kristlike demokraatide (CDU), Christian sotsiaaldemokraadid (CSU), SPD, liberaalid (FDP), vasak (Die Linke) ja roheliste (Grüne). Kuid kõige sagedamini mainitud Saksa erakond puperdama tol ajal oli Pirate Partei (Piraten), pool, mis võitleb valitsuse määrus Internetti. Kui Piraadiparteist kaasati analüüsi, Twitter mainib muutub kohutav ennustaja valimistulemused (joonis 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Seejärel teised uurijad üle maailma on kasutatud vingemaga meetodid-nagu lehe sentiment analüüs eristada positiivseid ja negatiivseid mainib poolte-parandamiseks võime Twitter et ennustada erinevaid liiki valimised (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Siin on, kuidas Huberty (2015) tulemusi, võttis kokku need katsed ennustada valimiste:
"Kõik tuntud võtetest, mis põhineb sotsiaalse meedia on ebaõnnestunud, kui neile nõudmistele tõsi tulevikku suunatud valimiste prognoosimine. Need ebaõnnestumised tunduvad olevat tingitud põhilisi omadusi sotsiaalse meedia asemel metoodiliste ja algoritmilise raskusi. Lühidalt, sotsiaalse meedia ei ole, ja ilmselt kunagi, pakkuda stabiilset, erapooletu, esinduslikku pilti valijad; ja mugavuse proovid sotsiaalmeedia puuduvad piisavad andmed, et kindlaks määrata need probleemid post hoc. "
Loe mõned uuringuid, mis viib Huberty (2015) , et seda järeldust, ja kirjutada ühele lehele memo poliitiline kandidaat kirjeldab kas ja kuidas Twitter tuleks kasutada prognoosida valimised.
[ ] Mis vahe on sotsioloog ja ajaloolane? Vastavalt Goldthorpe (1991) , peamine erinevus sotsioloog ja ajaloolane on kontroll selle üle, andmete kogumine. Ajaloolased on sunnitud kasutama säilmed samas sotsioloogid saab kohandada andmete kogumise konkreetsete eesmärkidega. Loe Goldthorpe (1991) . Kuidas on vahe sotsioloogia ja ajalugu on seotud idee Custommades ja Readymades?
[ ] Tuginedes eelnevale küsimusele, Goldthorpe (1991) juhtis mitmeid kriitilisi reaktsioone, sealhulgas üks Nicky Hart (1994) , et vaidlustada Goldthorpe pühendumusele sobivat andmeid. Et selgitada võimalikke piiranguid kohandatud andmed, Hart kirjeldatud jõukad Töötaja Project, suur uuring mõõta seos sotsiaalse klassi ja hääletamisel, mis oli läbi Goldthorpe ja kolleegidega 1960. aastate keskpaigast. Nagu arvata alates õpetlane, kes pooldasid mõeldud andmete üle leitud andmeid, jõukad Töötaja Project kogutud andmeid, mis olid kohandatud pöörduda hiljuti ettepaneku teooria tuleviku sotsiaalse klassi ajastu kasvavat elatustaset. Aga Goldthorpe ja tema kolleegid kuidagi "unustas", et koguda informatsiooni hääletamise naised. Siin on, kuidas Nicky Hart (1994) kokkuvõtted kogu episood:
". . . see [on] raske vältida järeldust, et naised olid jäetud, sest see "sobivat" andmekogumi piirdus poolt paradigmaatiline loogika, mis välistatud naissoost kogemus. Ajendatuna teoreetiline nägemus klassi teadvuse ja tegevuse kui mees muredega. . . , Goldthorpe ja tema kolleegid konstrueerisid empiirilistes tõendid, mis toidab ja rikastab oma teoreetilisi eeldusi asemel kogeda kehtiv testi adekvaatsuse. "
Hart jätkas:
"Empiiriline järeldused Jõukas Töötaja Project ütle meile rohkem masculinist väärtused sajandi keskpaigaks sotsioloogia kui nad teatavad protsessid kihistumine, poliitika ja materiaalne elu."
Kas te arvate teisi näiteid, kus kohandatud andmete kogumine on peensusi andmekoguja ehitatud on? Kuidas see võrrelda algoritmilise segavate? Mis mõju võib see olla sest kui teadlased peaksid kasutama Readymades ja kui nad peaksid kasutama Custommades?
[ ] Selles peatükis ma vastandada kogutud andmeid teadlased teadlane haldusandmetest loodud ettevõtted ja valitsused. Mõned inimesed kutsuvad neid haldusandmetest "leitud andmeid," mida nad vastanduvad "mõeldud andmeid." On tõsi, et haldusandmetest leidub teadlased, kuid nad on ka väga mõeldud. Näiteks kaasaegne tech ettevõtted kulutavad väga palju aega ja ressursse koguda ja kureerida oma andmed. Seega, need haldusandmetest on nii leidnud ja mõeldud, see lihtsalt sõltub vaatenurgast (joonis 2.10).
Anda näiteks andmete allikas, kus nähes seda nii leitud ja loodud on kasulik, kui neid andmeid kasutades allikat teadus.
[ ] Aastal mõtlik essee, Christian Sandvigi ja Eszter Hargittai (2015) kirjeldavad kahte liiki digitaalse teadus, kus digitaalne süsteem on "vahend" või "uurimisobjekt." Näiteks esimese selline uurimus on, kus Bengtsson ja tema kolleegid (2011) kasutatud mobiiltelefoni andmeid jälgida migratsiooni pärast maavärinat Haitil 2010. näiteks teine selline on, kus Jensen (2007) uuringud, kuidas kasutusele mobiiltelefonid kogu Kerala, India mõjutanud toimimist kala. Minu arvates on see kasulik, sest see selgitab, et uuringud, mis kasutavad digitaalsete andmete allikad võivad olla üsna erinevad eesmärgid, isegi kui nad kasutavad sama liiki andmete allikas. Selleks, et täpsemalt selgitada seda vahet, kirjeldada neljas uuringus, et olete näinud: kaks, et kasutada digitaalset süsteemi kui vahendit ja kaks, et kasutada digitaalset süsteemi kui uurimisobjekt. Te võite kasutada näiteid selle peatüki, kui soovite.