[ , ] Reikniritið var vandamál með þróun Google Fluens. Lesið blaðið af Lazer et al. (2014) og skrifaðu stutt, skýr tölvupóst til verkfræðings hjá Google sem útskýrir vandamálið og býður upp á hugmynd um hvernig á að laga það.
[ ] Bollen, Mao, and Zeng (2011) fram að gögn frá Twitter séu notaðar til að spá fyrir um hlutabréfamarkaðinn. Þessi niðurstaða leiddi til þess að áhættugjaldssjóður-Derwent Capital Markets-að fjárfesta í hlutabréfamarkaðinn byggði á gögnum sem safnað var frá Twitter (Jordan 2010) . Hvaða vísbendingar viltu sjá áður en þú setur peningana þína í sjóðinn?
[ ] Þótt sumir heilsuforsetar telji e-sígarettur áhrifarík hjálp til að hætta að reykja, aðrir vara um hugsanlega áhættu, svo sem mikið magn nikótíns. Ímyndaðu þér að rannsóknarmaður ákveður að læra almenningsálitið í átt að e-sígarettum með því að safna e-sígarettum sem tengjast Twitter innlegg og framkvæma viðhorf greiningu.
[ ] Í nóvember 2009 breytti Twitter spurningunni í kvakskjánum frá "Hvað ertu að gera?" Við "Hvað er að gerast?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" eru oft notuð til að mæla áhrif og útbreiðslu áhrif á Twitter. Upphaflega þurfti notendur að afrita og líma kvakið sem þeir líkaði við, taktu upprunalegu höfundinn með handfangi sínu og handritaðu "RT" fyrir handritið til að gefa til kynna að það væri retweet. Síðan, árið 2009, bætt Twitter við "retweet" hnappinn. Í júní 2016 gerði Twitter mögulegt fyrir notendur að retweet eigin kvak þeirra (https://twitter.com/twitter/status/742749353689780224). Telur þú að þessar breytingar ættu að hafa áhrif á hvernig þú notar "retweets" í rannsóknum þínum? Hvers vegna eða hvers vegna ekki?
[ , , , ] Í víðtækri greinargerð greindu Michel og samstarfsmenn (2011) innihald meira en fimm milljón stafrænar bækur í tilraun til að bera kennsl á langtíma menningarleg þróun. Gögnin sem þau notuðu eru nú gefin út sem Google NGrams gagnasett, og við getum því notað gögnin til að endurtaka og framlengja sum þeirra af vinnu þeirra.
Í einu af mörgum árangri í blaðinu héldu Michel og samstarfsmenn því fram að við gleymum hraðar og hraðar. Fyrir tiltekið ár, segðu "1883", reiknuðu þeir hlutfallið 1 grömm sem voru birt á hverju ári milli 1875 og 1975 sem voru "1883". Þeir rökstuddu að þetta hlutfall er mælikvarði á áhuga á atburðum sem áttu sér stað á því ári. Í mynd 3a þeirra litu þeir á notkunarsvæðin í þrjú ár: 1883, 1910 og 1950. Þessir þrír ár deila sameiginlegu mynstri: lítið notað fyrir það ár, þá spike, þá rotna. Næst, til að mæla magn rotnun fyrir hvert ár, reiknuðu Michel og samstarfsmenn "helmingunartímann" hvers árs fyrir alla árin á milli 1875 og 1975. Í mynd 3a þeirra (inntak) sýndu þeir að helmingunartími hvers ár er að minnka, og þeir héldu því fram að þetta þýði að við gleymum fortíðinni hraðar og hraðar. Þeir notuðu útgáfu 1 af ensku korpunni, en síðan hefur Google gefið út aðra útgáfu af corpus. Vinsamlegast lesið alla hluta spurninganna áður en þú byrjar að forrita.
Þessi aðgerð mun gefa þér æfingu við að skrifa endurnýjanlegan kóða, túlka niðurstöður og gögn wrangling (eins og að vinna með óþægilega skrá og meðhöndla vantar gögn). Þessi aðgerð mun einnig hjálpa þér að komast í gang með ríka og áhugaverða gagnasafni.
Fáðu hráefni frá Google NGram Viewer vefsíðu Google. Sérstaklega ættir þú að nota útgáfu 2 af ensku korpusinu, sem var gefin út 1. júlí 2012. Ósamþjöppuð, þessi skrá er 1,4GB.
Tökum aðalhlutann af mynd 3a af Michel et al. (2011) . Til að endurskapa þessa mynd þarftu tvo skrár: sá sem þú sóttir í hluta (a) og "heildarfjölda" skrána, sem þú getur notað til að umbreyta hráefnum í hlutföll. Athugaðu að heildarfjölda skrárinnar hefur uppbyggingu sem getur gert það svolítið erfitt að lesa inn. Er útgáfa 2 af NGram gögnunum svipaðar niðurstöður og þær sem fram koma í Michel et al. (2011) , sem byggjast á útgáfu 1 gögnum?
Athugaðu nú grafið þitt á móti grafinu sem NGram Viewer hefur búið til.
Endurtaka mynd 3a (aðalmynd), en breyttu \(y\) -ásnum til að vera hrár nefndarfjöldinn (ekki hlutfall nefnt).
Mun munurinn á milli (b) og (d) leiða þig til að endurmeta eitthvað af niðurstöðum Michel et al. (2011). Hvers vegna eða hvers vegna ekki?
Nú, með því að nota hlutfall nefndarinnar, endurtaka inntakið á mynd 3a. Það er fyrir hvert ár á milli 1875 og 1975, reikna helmingunartíma þess árs. Helmingunartími er skilgreindur sem fjöldi ára sem fer fram áður en hlutfall minnst nær helmingi hámarksverðs. Athugaðu að Michel et al. (2011) gera eitthvað flóknara til að meta helmingunartímann - sjá kafla III.6 af stuðningsupplýsingum - en þeir halda því fram að báðir aðferðirnar framleiði svipaðar niðurstöður. Gefur útgáfa 2 af NGram gögnunum svipaðar niðurstöður og þær sem fram koma í Michel et al. (2011) , sem byggjast á útgáfu 1 gögnum? (Ábending: Ekki vera hissa ef það gerist ekki.)
Voru nokkur ár sem voru outliers eins og ár sem voru gleymt sérstaklega hratt eða sérstaklega hægt? Í stuttu máli veltu fyrir hugsanlegum ástæðum fyrir það mynstur og útskýrðu hvernig þú benti á outliers.
Nú endurtaka þessa niðurstöðu fyrir útgáfu 2 af NGrams gögnum á kínversku, frönsku, þýsku, hebresku, ítölsku, rússnesku og spænsku.
Samanburður á öllum tungumálum, voru nokkur ár sem voru outliers, svo sem ár sem voru gleymt sérstaklega hratt eða sérstaklega hægt? Í stuttu máli veltu fyrir hugsanlegum ástæðum fyrir það mynstur.
[ , , , ] Penney (2016) kannaði hvort umfjöllun um NSA / PRISM eftirlitið (þ.e. Snowden opinberanir) í júní 2013 tengdist skörpum og skyndilegri fækkun á umferð á Wikipedia greinar um efni sem vekja athygli á persónuvernd. Ef svo er myndi þessi breyting á hegðun vera í samræmi við kuldaáhrif vegna massa eftirlits. Aðferðin í Penney (2016) er stundum kölluð trufluðum tímaröðhönnun og tengist þeim aðferðum sem lýst er í kafla 2.4.3.
Til að velja efni leitarorð, Penney vísað til listans sem US Department of Homeland Security notar til að fylgjast með og fylgjast með félagslegum fjölmiðlum. DHS listanum flokkar ákveðnar leitarskilyrði í ýmsum málum, þ.e. "Heilsa Áhyggjuefni", "Infrastructure Security" og "Terrorism." Fyrir rannsóknarsamfélagið notaði Penney 48 leitarorðin sem tengjast "hryðjuverkum" (sjá viðauka töflu 8 ). Hann safnaði síðan Wikipedia greinatöflu mánaðarlega fyrir samsvarandi 48 Wikipedia greinar á 32 mánaða tímabili frá byrjun janúar 2012 til loka ágúst 2014. Til að styrkja rök hans skapaði hann einnig nokkrar samanburðarhópar með því að fylgjast með Greinar skoðanir um önnur atriði.
Nú ætlarðu að endurtaka og lengja Penney (2016) . Öll hráefni sem þú þarft fyrir þessa starfsemi eru fáanlegar frá Wikipedia. Eða þú getur fengið það frá R-pakka wikipediatrend (Meissner and R Core Team 2016) . Þegar þú skrifar svörin þín skaltu vinsamlegast athugaðu hvaða gagnaöflun þú notaðir. (Athugaðu að þessi sömu starfsemi birtist einnig í kafla 6.) Þessi aðgerð mun gefa þér æfingu í gögnum og að hugsa um náttúrulegar tilraunir í stórum gögnum. Það mun einnig fá þér að keyra með hugsanlega áhugavert gagnamagn til framtíðarverkefna.
[ ] Efrati (2016) tilkynnti á grundvelli trúnaðarupplýsinga að "heildarhlutdeild" á Facebook hafi lækkað um 5,5% frá fyrra ári en "upphafleg útvarpsþáttur" var 21% á milli ára. Þessi lækkun var sérstaklega bráð hjá Facebook notendum undir 30 ára aldri. Skýrslan rekja til lækkunar á tveimur þáttum. Einn er vöxturinn í fjölda "vinir" sem fólk hefur á Facebook. Hinn er sá að einhver hlutdeildarverkefni hefur verið skipt í skilaboð og til keppinauta eins og Snapchat. Skýrslan leiddi einnig í ljós að nokkrir aðferðir Facebook höfðu reynt að auka hlutdeild, þ.á m. Fréttaflokkar algoritma sem gera upprunalegu færslur áberandi, auk reglubundinna áminninga á upprunalegu innleggunum með "On This Day" löguninni. Hvaða afleiðingar, ef einhver, hafa þessar niðurstöður fyrir vísindamenn sem vilja nota Facebook sem gagnaöflun?
[ ] Hver er munurinn á félagsfræðingi og sagnfræðingur? Samkvæmt Goldthorpe (1991) er aðal munurinn stjórn á gagnasöfnun. Sagnfræðingar eru neyddir til að nota minjar, en félagsfræðingar geta sérsniðið gagnasöfnun sína til sérstakra nota. Lestu Goldthorpe (1991) . Hvernig er munurinn á félagsfræði og sögu tengd hugmyndinni um custommades og readymades?
[ ] Þetta byggir á fyrri spurningunni. Goldthorpe (1991) skrifaði fjölda mikilvægra svörum, þar með talið einn frá Nicky Hart (1994) sem skoraði á hollustu Goldthorpe til aðlaga sér gögn. Til að skýra hugsanlega takmarkanir á sérsniðnum gögnum, lýsti Hart um velmegunarverkamannaverkefnið, stór könnun til að mæla tengslin milli félagslegra bekkja og atkvæða sem gerð var af Goldthorpe og samstarfsmönnum um miðjan 1960. Eins og maður gæti búist við frá fræðimanni sem studdi hannað gögn yfir fundnar gögn, safnað velmegunarverkamaður verkefninu gögn sem voru sniðin að því að takast á við nýlega lagt til kenningu um framtíð félagslegra bekkja á tímum vaxandi lífskjörum. En Goldthorpe og samstarfsmenn einhvern veginn "gleymdu" að safna upplýsingum um atkvæðagreiðsluhegðun kvenna. Hér er hvernig Nicky Hart (1994) tók saman alla þætti:
"... það er erfitt að koma í veg fyrir þá niðurstöðu að konur verði sleppt vegna þess að þessi" sniðmát "gagnasett var bundin við hugmyndafræðilega rökfræði sem útilokaði kvenna reynslu. Gert af fræðilegu sjónarhorni um meðvitund og athöfn sem karlkyns áhyggjur ..., gerðu Goldthorpe og samstarfsmenn hans samsetta sannleiksgildi sem veittu og hlúðu eigin fræðilegum forsendum sínum í stað þess að sýna þeim að gilt próf væri fullnægjandi. "
Hart hélt áfram:
"The empirical niðurstöður af the Affluent Worker Project segja okkur meira um karlmennsku gildi um miðju öld félagsfræði en þeir upplýsa ferli lagskiptingu, stjórnmál og efni líf."
Getur þú hugsað um önnur dæmi þar sem sérsniðin gagnasöfnun hefur forspár gagnasafnsins innbyggður í það? Hvernig er þetta í samanburði við algrímfræðilega confounding? Hvaða áhrif gætu þetta haft á þegar vísindamenn ættu að nota readymades og hvenær þeir ættu að nota forsætisráðherra?
[ ] Í þessum kafla hefur ég móttekið gögn sem safnað var af vísindamönnum fyrir vísindamenn með stjórnsýsluyfirlit sem stofnuð voru af fyrirtækjum og stjórnvöldum. Sumir kalla þessar stjórnsýsluupplýsingar "fundið gögn", sem þeir andstæða við "hönnuð gögn." Það er satt að stjórnsýsluupplýsingar finnast af vísindamönnum, en þeir eru líka mjög hönnuð. Til dæmis, nútíma tækni fyrirtæki vinna mjög erfitt að safna og curate gögn þeirra. Þannig eru þessar stjórnsýsluupplýsingar bæði fundnar og hönnuð, það veltur bara á sjónarhóli þínu (mynd 2.12).
Gefðu dæmi um gagnaheimild þar sem það er bæði að finna og hönnuð er gagnlegt þegar þú notar þessi gagnasafns til rannsókna.
[ ] Í hugsandi ritgerð hættu Christian Sandvig og Eszter Hargittai (2015) stafrænar rannsóknir á tveimur breiðum flokkum eftir því hvort stafrænt kerfi er "tækið" eða "námshlutur". Dæmi um fyrsta tegundin - þar sem kerfið er hljóðfæri - er rannsókn Bengtsson og samstarfsmanna (2011) um notkun gagna í farsímanum til að fylgjast með fólksflutningum eftir jarðskjálftann á Haítí árið 2010. Dæmi um annað tegund - þar sem kerfið er námsbraut - er rannsókn Jensen (2007) um hvernig kynning farsíma í Kerala, Indlandi áhrif á starfsemi markaðarins fyrir fisk. Ég finn þessa grein gagnleg vegna þess að það skýrir að rannsóknir sem nota stafrænar gagnaheimildir geta haft nokkuð mismunandi markmið, jafnvel þótt þeir nota sömu tegund gagnasafns. Í því skyni að skýra þessa greinarmun frekar er fjallað um fjórar rannsóknir sem þú hefur séð: tveir sem nota stafrænt kerfi sem tæki og tvö sem nota stafrænt kerfi sem námsefni. Þú getur notað dæmi úr þessum kafla ef þú vilt.