prìomh:
[ , ] Algorithmic confounding bha duilgheadas ann le Google a 'chnatain mhòir Pàtrain. Leugh am pàipear le Lazer et al. (2014) , agus ghoirid a sgrìobhadh, post-d gu soilleir an innleadair aig Google a 'mìneachadh an trioblaid agus a' tabhann beachd air ciamar a socraicheadh an duilgheadas.
[ ] Bollen, Mao, and Zeng (2011) ag ràdh gu bheil dàta bho Twitter faodar a chleachdadh airson ro-innse a stoc 'mhargaidh. Tha an toradh seo a threòraich gus an cruthachadh callaid-mhaoin calpa Derwent Margaidean-airgead a thasgadh ann an stoc a 'mhargaidh a tha stèidhichte air dàta air a thional bho Twitter (Jordan 2010) . Dè an fhianais a bhiodh tu ag iarraidh fhaicinn mus cur ur airgead ann gun mhaoin?
[ ] Ged a tha cuid slàinte a 'phobaill luchd-tagraidh Hail post-toitean mar èifeachdach cobhair airson stad a smocadh, a' toirt rabhadh do dhaoine eile mu na cunnartan a dh'fhaodadh a bhith, mar àrd-ìrean de nicotine. Smaoinich gu bheil rannsaiche co-dhùnadh a sgrùdadh poblach beachd a dh'ionnsuidh post-toitean le cruinneachadh post-toitean co-cheangailte Twitter dreuchdan agus a 'dèanamh mion-sgrùdadh air faireachdainn.
[ ] San t-Samhain 2009, Dh'atharraich Twitter a 'cheist ann an tweet a' bhogsa bho "Dè tha sibh a 'dèanamh?" Gu "Dè tha a' tachairt?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) mion-sgrùdadh 41.7 millean neach-cleachdaidh profiles, 1.47 billean dàimhean sòisealta, 4262 gluasadan cuspairean, agus 106 millean Tweets eadar Ògmhios 6mh agus 31mh An t-Ògmhios, 2009. Stèidhichte air anailis seo iad co-dhùnadh gum Twitter frithealadh tuilleadh mar ùr mheadhan na fiosrachadh a roinn na lìonra sòisealta.
[ ] "Retweets" a tha gu tric a chleachdadh gus buaidh a thomhas agus sgaoil de bhuaidh air Twitter. An toiseach, bha luchd-cleachdaidh a chopaigeadh agus cuir an tweet a 'còrdadh riutha, sgiobag bho thùs le ùghdar aige / aice làmh, agus le làimh a sgrìobhas "RT" an làthair an tweet a' sealltainn gu bheil e retweets. An uair sin, ann an 2009 Twitter a chur ris a "retweets" a 'phutan. San Ògmhios 2016, Twitter ga dhèanamh comasach do luchd-cleachdaidh retweets aca fhèin Tweets (https://twitter.com/twitter/status/742749353689780224). A bheil thu a 'smaoineachadh bu chòir na h-atharrachaidhean buaidh a thoirt air mar a chleachdas tu "retweets" ann do rannsachadh? Carson a tha no nach 'eil?
[ , , ] Michel et al. (2011) a thogail corpas 'tighinn am bàrr bho Ghoogle oidhirp gus leabhraichean a dhigiteachadh. A 'cleachdadh a' chiad dreach den corpas na cànain, a chaidh fhoillseachadh ann an 2009 agus tha còrr air 5 millean leabhraichean didseatach, a 'mion-sgrùdadh ùghdaran facal cleachdadh tricead sgrùdadh a dhèanamh air atharrachaidhean cànanach agus cultarach gluasadan. Goirid an Google Books Corpas thàinig mòran tobar dàta airson luchd-rannsachaidh, agus 2na dreach an stòr-dàta a chaidh a sgaoileadh ann an 2012.
Ach, Pechenick, Danforth, and Dodds (2015) a 'rabhadh gum feum luchd-rannsachaidh a' comharrachadh gu h-iomlan a 'samplachadh pròiseas corpas mus bhith ga cleachdadh airson a' tarraing co-dhùnaidhean farsaing. Tha a 'phrìomh cheist sin corpas tha leabharlainn coltach, anns a bheil aon de gach leabhar. Mar thoradh, an neach fa leth, ùghdar torrach a tha comasach air gu h-steach abairtean ùra a-steach dhan Google Books bhriathrachas. A bharrachd air sin, saidheansail teacsaichean a 'dèanamh suas a' sìor fhàs brìoghmhor cuibhrionn corpas air feadh na 1900an. A bharrachd air sin, le bhith a 'dèanamh coimeas eadar dà tionndaidhean Beurla Fiction toradh, Pechenick et al. fianais a lorg gun gu leòr criathradh a chleachdadh ann an dèanamh a 'chiad dreach. A h-uile dàta a dh'fheumar airson obair ri fhaotainn an seo: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) a 'rannsachadh co-dhiù an bitheanta follaiseachd mu NSA / priosam faireil (ie, a' Snowden Revelations) anns an Ògmhios 2013 a tha co-cheangailte ri grad agus gu h-obann lùghdachadh ann an trafaig a Wikipedia artaigilean air cuspairean gun a thogail prìobhaideachd draghan. Ma tha, tha seo atharrachadh ann an giùlan a bhiodh co-chòrdail le fuaraidh bhuaidh mar thoradh air mòr-faire. Tha an dòigh-obrach de Penney (2016) tha uaireannan ris an canar an àm stad sreath dealbhadh agus tha e co-cheangailte ri na modhan a tha anns a 'chaibideil mu approximating deuchainnean bho beachdachail dàta (Earrann 2.4.3).
A thaghadh a 'chuspair faclan-luirg, Penney iomradh a thoirt air an liosta air a chleachdadh le Roinn na Tèarainteachd Homeland airson a' tracadh agus a 'cumail sùil air na meadhanan sòisealta. Tha DHS liosta categorizes sònraichte teirmean luirg ann an raon de chùisean, ie "Slàinte Concern," "Bun-structair Tèarainteachd," agus "Ceannairc." Airson a 'sgrùdadh buidheann, Penney a chleachdadh an dà fhichead-ochd faclan co-cheangailte ri "Ceannairc" (feuch Clàr 8 Pàipear-taice). Tha e an uair sin còmhla Wikipedia article sealladh cunntadh air bunait mhìosail airson co-fhreagarrach dà fhichead-ochd Wikipedia artaigilean thar trithead 'sa dhà mìosan, bho thoiseach an Fhaoillich 2012 gu deireadh an Lùnastail 2014. Gu neartachadh an argumaid aige, tha e cuideachd a chruthachadh grunn coimeas buidhnean le bhith a 'tracadh artaigil beachdan air cuspairean eile.
A-nis, tha thu a 'dol agus a leudachadh gus amhladh Penney (2016) . Amh a h-uile dàta a dh'fheumas tu airson a 'ghnìomh seo ri fhaotainn bho Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). No gheibh sibh e bho an R pasgan wikipediatrend (Meissner and Team 2016) . Nuair a sgrìobhas tu suas ur freagairtean, thoiribh fa-near a tobar dàta a chleachd thu. (Nota: gus seo aon ghnìomh cuideachd a 'nochdadh ann an Caibideal 6)
[ ] Efrati (2016) aithisgean, stèidhichte air fiosrachadh dìomhair, gu bheil "gu h-iomlan bhith a 'sgaoileadh" air Facebook air crìonadh le mu 5.5% bliadhna thar bhliadhna fhad' sa "thùsail bhith a 'sgaoileadh craolaidh" Bha sìos 21% bliadhna thar bhliadhna. B 'e seo a' crìonadh gu h-àraidh acute Facebook le luchd-cleachdaidh fo aois 30 bliadhna a dh'aois. Tha an aithisg a bhith a 'crìonadh gu dà fheart. Tha fear dhiubh a 'fàs anns an àireamh de "caraidean" a tha aig daoine air Facebook. Tha am fear eile gun robh cuid de bhith a 'sgaoileadh gnìomhachd air shioft gus teachdaireachd agus gu farpaisich leithid SnapChat. Tha an aithisg cuideachd a 'nochdadh grunn innleachdan Facebook dh'fheuch a neartachadh bhith a' sgaoileadh, nam measg News Feed algairim tweaks a 'dèanamh tùsail dreuchdan nas follaisiche, a thuilleadh iris cuimhneachain air a' chiad dreuchdan luchd-cleachdaidh "On This Day" o chionn grunnan bhliadhnaichean. Dè a 'bhuaidh, ma tha gin, a tha na toraidhean a tha airson luchd-rannsachaidh a tha ag iarraidh a' cleachdadh Facebook mar tobar dàta?
[ ] Tumasjan et al. (2010) aithris gun robh a 'chuibhreann de Tweets' toirt iomradh air a 'phàrtaidh poileataigeach a sheisich a' chuibhreann de bhòtaichean a 'phàrtaidh sin a gheibhear ann an Gearmailtis Taghadh-pàrlamaid ann an 2009 (Figear 2.9). Ann am briathran eile, a nochd e a dh'fhaodadh tu a 'cleachdadh Twitter a ràdh le cinnt an taghaidh. Aig an àm seo chaidh an sgrùdadh a chaidh fhoillseachadh bha e beachdachadh air leth inntinneach oir bha e coltach a mholadh luachmhor airson cleachdadh cumanta tobar mòr dàta.
Leis an droch feartan mòr dàta, ge-tà, bu chòir dhut a bhith anns a 'bhad saorsa thoradh air seo. Gearmailtich air Twitter ann an 2009 a bha gu math neo-bhuidheann riochdachaidh, agus taic aon phàrtaidh dh'fhaodadh 'cleachdadh Twitter mu dheidhinn poilitigs nas trice. Mar sin, tha e coltach iongnadh gu bheil a h-uile biases ghabhas sin shaoileadh tu gum biodh dòigh air choireigin dhubhas a-mach. Gu dearbh, tha na toraidhean ann an Tumasjan et al. (2010) thionndaidh a-mach a bhith ro mhath a bhith fìor. Anns a 'phàipear aca, Tumasjan et al. (2010) 'beachdachadh air sia pàrtaidhean poilitigeach: Christian Dheamocratach (CDU), Christian Deamocrataich Shòisealta (CSU), Thom, Libearalaich (FDP), air an làimh chlì (Die Linke), agus am Partaidh Uaine (Grüne). Ge-tà, a 'chuid as motha ainmeachadh Gearmailtis pàrtaidh poilitigeach air Twitter aig an àm sin b' e Pàrtaidh Spùinneadairean (Piraten), pàrtaidh aig a bheil a 'sabaid an riaghaltas riaghladh an eadar-lìon. Nuair a Pàrtaidh Spùinneadairean Chaidh gabhail a-steach ann an anailis, a 'toirt iomradh air Twitter a' fàs uabhasach tig taghaidh toraidhean (Figear 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Mar sin,-rannsachaidh eile air feadh an t-saoghail air a chleachdadh fancier dòighean-leithid cleachdadh faireachdainn mion-sgrùdadh eadar-dhealachadh eadar adhartach is àicheil a 'toirt iomradh air na pàrtaidhean-ann gus piseach a thoirt air comas Twitter dàta a ràdh le cinnt an caochladh de dhiofar sheòrsaichean de taghaidhean (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Seo mar a Huberty (2015) geàrr-chunntas air toraidhean nan oidhirpean gus ro-innse taghaidhean:
"A h-uile ainm sìde dòighean stèidhichte air na meadhanan sòisealta air fàiligeadh nuair a smachdachadh gu iarrtasan fìor-'coimhead air adhart taghaidh sìde. Nam fàillingeadh a 'nochdadh ri bhith air sgàth bunaiteach air feartan na meadhanan sòisealta, seach gu dòighean-obrach no algorithmic duilgheadasan. Ann goirid, na meadhanan sòisealta nach eil, agus 's dòcha bidh riamh, a' tabhann ann an stàball, neo-thaobhach, riochdaire dealbh den luchd-bhòtaidh; agus goireasachd sampaill de na meadhanan sòisealta robh dàta gu leòr gus an socraicheadh na duilgheadasan seo a phostadh hoc. "
Leugh cuid de rannsachadh a tha a 'stiùireadh Huberty (2015) a cho-dhùnaidh sin, agus sgrìobh aon duilleag am meòrachan a' toirt iomradh air ma tagraiche poilitigeach agus mar Twitter bu chòir a chleachdadh gus aimsir taghaidhean.
[ ] Dè an diofar a tha eadar sociologist agus eachdraidh? A rèir Goldthorpe (1991) , na prìomh eadar-dhealachadh eadar sociologist agus eachdraiche a tha smachd air an dàta a chruinneachadh. Tha eachdraichean 'fheudar do' cleachdadh cuimhneachain ach sociologists urrainn a thàillearachd gus an dàta a chruinneachadh adhbharan sònraichte. Leugh Goldthorpe (1991) . Ciamar a tha eadar-dhealachadh eadar an sòiseo-eòlas agus eachdraidh co-cheangailte ris a 'bheachd de Custommades agus Readymades?
[ ] A 'togail air ceist roimhe, Goldthorpe (1991) tharruing grunn freagairtean breithneachail, nam measg fear bho Nicky Hart (1994) gu bheil dùbhlan Goldthorpe aig dìlseachd gu Rinn tàillear dàta. Gus soilleireachadh an comas cuingeachaidhean a dhèanamh a dh'aon ghnothaich dàta, Hart iomradh air na beairteach Worker Pròiseact mòr, suirbhidh a thomhas an dàimh eadar clas sòisealta agus bhòtaidh a chaidh a dhèanamh le Goldthorpe agus co-oibrichean ann am meadhan nan 1960an. Mar a shaoileadh duine gum biodh bho sgoilear a bha daoine ag iarraidh a dhealbh dàta thar lorg dàta, an beairteach Worker Pròiseact dàta a chaidh a thàillearachd gus aghaidh a chur air o chionn ghoirid a 'moladh teòiridh mun àm ri teachd de clas sòisealta ann an linn a' meudachadh inbhe beòshlaint. Ach, Goldthorpe agus co-oibrichean dòigh air choireigin "dhìochuimhnich" gus fiosrachadh a thional mu na bhòtaidh giùlan boireannaich. Seo mar a Nicky Hart (1994) geàrr-chunntasan air fad prògram:
". . . e [tha] doirbh a sheachnadh co-dhùnadh gun robh boireannaich fàgail a-mach air sgàth seo 'an tàillear a' dèanamh 'sean robh ach le paradigmatic loidsig a tha a' cumail a-mach boireann eòlas. Dhraibheadh le teòiridheach lèirsinn clas 'chogais agus gnìomh mar male preoccupations. . . , Goldthorpe agus a cho-obraichean a thogail seata de deuchainneach dearbhaidhean a tha a 'biadhadh agus air àrach aca fhèin teòiridheach barailean àite exposing orra gu dligheach deuchainn de freagarrachd. "
Hart Lean:
"Tha na toraidhean deuchainneach an beairteach Worker Pròiseact innse dhuinn tuilleadh mu na luachan masculinist meadhan linn na soiseòlas iad fiosrachadh air na pròiseasan de stratification, poilitigs agus stuth beatha."
An smaoinich thu air eisimpleirean eile far an tàilleir a rinn cruinneachadh dàta Tha an biases an dàta air cruinniche a thogail a-steach e? Ciamar a tha seo an coimeas ri algorithmic confounding? Dè a 'bhuaidh a dh'fhaodadh seo a bhith airson luchd-rannsachaidh an uair a bu chòir cleachdadh Readymades agus nuair a bu chòir dhaibh a cleachdadh Custommades?
[ ] Anns a 'chaibideil seo, tha mi coimeas dàta a chruinneachadh le luchd-rannsachaidh airson luchd-rannsachaidh le clàran rianachd a chruthachadh le companaidhean agus riaghaltasan. Tha cuid de dhaoine a ghairm na clàran rianachd "lorg dàta," tha iad a 'iomsgaradh ri "dhealbhadh dàta." Tha e fìor gu bheil clàran rianachd a tha a lorg le luchd-rannsachaidh, ach tha iad cuideachd air leth a dhealbhadh. Mar eisimpleir, nuadh-tech companaidhean a 'cosg mòr suimean ùine is goireasan a chruinneachadh agus curaid an dàta. Mar sin, tha na clàran rianachd a tha an dà chuid a lorg agus a chaidh a dhealbhachadh, tha e dìreach an crochadh air do shealladh (Figear 2.10).
Thoir seachad eisimpleir de tobar dàta far a bheil e a 'faicinn mar an dà chuid a lorg agus a dhealbhadh e feumail nuair a cleachdadh gu bheil tobar dàta airson rannsachadh.
[ ] Ann an smuaineachail aiste, Christian Sandvig agus Eszter Hargittai (2015) a 'mìneachadh an dà sheòrsa didseatach rannsachadh, far a bheil an siostam didseatach a tha "ionnstramaid" no "cuspair a sgrùdadh." Tha eisimpleir den chiad seòrsa de rannsachadh a far Bengtsson agus co-oibrichean (2011) a 'cleachdadh fòn-làimhe dàta gus sùil a chumail air imrich às dèidh na crith-thalmhainn ann an Haiti ann an 2010. tha eisimpleir den dàrna seòrsa far a bheil Jensen (2007) Eòlais mar a tha an toirt a-steach fònaichean-làimhe air feadh Kerala, India buaidh an obrachadh a' mhargaid airson iasg. Lorg mi seo feumail oir tha e a 'dèanamh soilleir gum Eòlais cleachdadh didseatach tobraichean dàta a dh'fhaodas a bhith gu math eadar-dhealaichte amasan fiù' s ma tha iad a 'cleachdadh an aon seòrsa de tobar dàta. Gus tuilleadh soilleireachadh seo dhealachadh, ag innse ceithir sgrùdaidhean a tha thu air fhaicinn: dithis a 'cleachdadh an t-siostam digiteach mar ionnstramaid agus dithis a' cleachdadh an t-siostam digiteach mar nì ionnsachaidh. 'S urrainn dhut a' cleachdadh eisimpleirean bhon a 'chaibideil seo ma tha thu ag iarraidh.