[ , ] Algorithmic confounding je iṣoro kan pẹlu Google Tita lominu. Ka iwe naa nipasẹ Lazer et al. (2014) , ki o si kọ kukuru, ko o imeeli si onise-ẹrọ kan ni Google ti n ṣalaye iṣoro naa ati fifi imọran bi o ṣe le ṣe atunṣe rẹ.
[ ] Bollen, Mao, and Zeng (2011) sọ pe awọn alaye lati Twitter le ṣee lo lati ṣe asọtẹlẹ ọja iṣura. Wiwa yi wa si idasile iṣowo hedge-Agbegbe Awọn Agbegbe Derwent-lati dawo ni ọja iṣura ti o da lori data ti a gba lati Twitter (Jordan 2010) . Ẹri wo ni iwọ yoo fẹ lati ri ṣaaju ki o to fi owo rẹ sinu owo naa?
[ ] Bi diẹ ninu awọn alagbawi ilera ti ara ilu ṣe kà awọn siga-oyinbo kan fun iranlowo ti o wulo fun fifun siga, awọn miran kilo nipa awọn ewu ti o pọju, gẹgẹbi awọn ipele giga ti nicotine. Fojuinu pe oluwadi kan pinnu lati ṣe agbeyewo imọran eniyan si awọn siga-siga nipasẹ gbigba awọn alaye Twitter ti o nii-siga-ti o ni ibatan ati ṣiṣe iṣeduro igbejade.
[ ] Ni Kọkànlá Oṣù 2009, Twitter ṣe ayipada ibeere naa ni apoti tweet lati "Kini o n ṣe?" Si "Kini n ṣẹlẹ?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Awọn didun" ni a maa n lo lati wiwọn ipa ati itankale ipa lori Twitter. Ni ibẹrẹ, awọn olumulo ni lati daakọ ati lẹẹmọ awọn tweet ti wọn fẹran, fi ami si onkọwe akọkọ pẹlu itọju rẹ, ati pẹlu ọwọ tẹ "RT" ṣaaju ki o to tweet lati fihan pe o jẹ retweet. Lẹhinna, ni 2009, Twitter fi kun bọtini bọtini "retweet". Ni Okudu 2016, Twitter ṣe o ṣeeṣe fun awọn olumulo lati ṣe atunṣe ara wọn tweets (https://twitter.com/twitter/status/742749353689780224). Ṣe o ro pe awọn ayipada wọnyi yẹ ki o ni ipa bi o ṣe nlo "retweets" ninu iwadi rẹ? Idi tabi idi ti kii ṣe?
[ , , , ] Ni iwe ti a sọ ni awujọ, Michel ati awọn alabaṣiṣẹpọ (2011) ṣe atupale awọn akoonu ti awọn iwe-aṣẹ ti o to ju milionu marun lọ ni igbiyanju lati ṣe idanimọ awọn aṣa aṣa-igba pipẹ. Awọn data ti wọn lo ti ni bayi ti tu silẹ bi Google NGrams dataset, ati ki a le lo awọn data lati tun ṣe ati ki o fa diẹ ninu awọn ti wọn iṣẹ.
Ninu ọkan ninu awọn esi pupọ ninu iwe naa, Michel ati awọn ẹlẹgbẹ ṣe ariyanjiyan pe a n gbagbe kiakia ati yarayara. Fun ọdun kan, sọ "1883," wọn ṣe iṣiro iye ti awọn 1-giramu ti a gbejade ni ọdun kọọkan laarin 1875 ati 1975 ti o jẹ "1883". Wọn ronu pe ipinnu yi jẹ ipinnu ti iwulo ni awọn iṣẹlẹ ti o sele ni ọdun yẹn. Ninu nọmba wọn 3a, wọn ṣe ipinnu awọn itumọ awọn lilo fun ọdun mẹta: 1883, 1910, ati 1950. Awọn ọdun mẹta yii pin apẹẹrẹ ti o wọpọ: lilo diẹ ṣaaju ki ọdun naa, lẹhinna igbasilẹ, lẹhinna ibajẹ. Nigbamii ti, lati ṣayẹwo iye oṣuwọn ibajẹ fun ọdun kọọkan, Michel ati awọn ẹlẹgbẹ ṣe iṣiro "idaji-aye" ti ọdun kọọkan fun ọdun gbogbo laarin ọdun 1875 ati 1975. Ni ori wọn 3a (titẹsi), wọn fihan pe idaji ọjọ kọọkan ọdun ti n dinku, wọn si jiyan pe eyi tumọ si pe a n gbagbe igbasẹ ti o kọja ati yiyara. Wọn ti lo Ẹkọ 1 ti okùn Gẹẹsi èdè Yorùbá, ṣugbọn Google lẹhinna ti tujade ẹya keji ti okùn. Jọwọ ka gbogbo awọn ẹya ara ti ibeere naa ṣaaju ki o to bẹrẹ ifaminsi.
Išẹ yii yoo fun ọ ni ṣiṣe kikọ koodu atunṣe, itumọ awọn esi, ati idaniloju data (bii ṣiṣẹ pẹlu awọn faili alailowaya ati mimu data ti o padanu). Iṣẹ ṣiṣe yii yoo tun ran ọ lọwọ lati dide ati ṣiṣe pẹlu ọrọ-ṣiṣe ọlọrọ ati awọn ibaraẹnisọrọ.
Gba abajade asayan lati inu aaye ayelujara NGram Viewer ti Google. Ni pato, o yẹ ki o lo ikede 2 ti ọrọ corpus English, eyi ti a ti tu silẹ ni Ọjọ Keje 1, 2012. Uncompressed, faili yi jẹ 1.4GB.
Recreate akọkọ apakan ti nọmba 3a ti Michel et al. (2011) . Lati ṣe apejuwe nọmba yii, iwọ yoo nilo awọn faili meji: ọkan ti o gba ni apakan (a) ati faili "awọn nọmba ifilelẹ lọ", eyiti o le lo lati yi iyipada akọle pada si awọn iwọn. Ṣe akiyesi pe faili faili ti o pọju ni eto ti o le ṣe ki o ṣòro lati ka ninu. Ṣe ikede 2 ti awọn data NGram gbe awọn esi kanna si awọn ti a gbekalẹ ni Michel et al. (2011) , eyi ti o da lori data ti ikede 1?
Nisisiyi ṣayẹwo ẹya rẹ lori ẹda ti NGram Viewer ṣe nipasẹ rẹ.
Nọmba ti a ṣe apejuwe 3a (nọmba akọsilẹ), ṣugbọn yi awọn \(y\) -axis pada lati wa ni apejuwe ainiye (kii ṣe oṣuwọn awọn akọsilẹ).
Ṣe iyatọ laarin (b) ati (d) dari ọ lati tun ṣe ayẹwo eyikeyi awọn esi ti Michel et al. (2011). Idi tabi idi ti kii ṣe?
Nisisiyi, lilo awọn ipo ti o yẹ, tun ṣe apejuwe awọn nọmba 3a. Iyẹn ni, fun ọdun kọọkan laarin ọdun 1875 ati 1975, ṣe iṣiro idaji ọdun ti ọdun naa. Igbẹ-aye ni a ṣe alaye lati jẹ nọmba awọn ọdun ti o kọja ṣaaju ki awọn ijẹrisi ba de idaji awọn iye ti o pọju. Akiyesi pe Michel et al. (2011) ṣe nkan diẹ idiju lati ṣe iṣiro apakan apakan III.6 ti Ifitonileti Iwifunni Online-ṣugbọn wọn sọ pe awọn ọna mejeji wa iru awọn esi kanna. Ṣe ikede 2 ti awọn data NGram n ṣe irufẹ irufẹ si awọn ti a gbekalẹ ni Michel et al. (2011) , eyi ti o da lori data ti ikede 1? (Ẹri: Maṣe jẹ yà ti o ba ṣe bẹ.)
Ṣe awọn ọdun eyikeyi ti o jẹ awọn ọmọde bi ọdun ti o gbagbe paapaa ni kiakia tabi paapaa laiyara? Ṣafihan ni kukuru nipa awọn idi ti o le ṣe fun apẹrẹ yii ki o si ṣe alaye bi o ti ṣe akiyesi awọn outliers.
Bayi ṣe atunṣe esi yii fun ikede 2 ti awọn data NGrams ni Kannada, French, German, Hebrew, Italian, Russian and Spanish.
Ṣe afiwe ni gbogbo awọn ede, ni ọdun eyikeyi ti o jẹ awọn ti o jade, bii ọdun ti o gbagbe paapaa ni kiakia tabi paapaa laiyara? Ṣafihan ni kukuru nipa awọn idi ti o le ṣee fun ilana yii.
[ , , , ] Penney (2016) ṣawari boya ikede kakiri nipa NSA / PRISM iwoye (ie, awọn Snowden ifihan) ni Okudu 2013 ni o ni nkan ṣe pẹlu idinku to lagbara ati lojiji ni ijabọ si awọn iwe Wikipedia lori awọn ọrọ ti o gbe awọn iṣeduro ibamọ. Ti o ba jẹ bẹ, ihuwasi iyipada yii yoo ni ibamu pẹlu ipa ti o ni ipa ti o waye lati iwoye ayẹwo. Awọn ọna ti Penney (2016) ni a npe ni igba miiran ti a ti da gbigbọn akoko oniru, ati pe o ni ibatan si awọn ọna ti a sọ ni apakan 2.4.3.
Lati yan awọn koko ọrọ koko, Penney tọka si akojọ ti Amẹrika ti Ile-Ile Aabo ti Amẹrika fun ipasẹ ati mimujuto awọn media media. Àtòkọ DHS ṣe akojọpọ awọn ọrọ wiwa kan si ibiti o ti wa, ie, "Aabo ti Ilera," "Aabo Iyatọ," ati "Ipanilaya." Fun ẹgbẹ iwadi, Penney lo awọn koko-ọrọ 48 ti o nii ṣe pẹlu "ipanilaya" (wo apẹrẹ afikun 8 ). Lẹhinna o ṣajọpọ awọn iwe-ẹri Wikipedia loke lori oṣooṣu oṣuwọn fun awọn ohun kikọ 48 Wolọlu ti o baamu lori osu 32, lati ibẹrẹ ti Oṣù 2012 si opin Kẹjọ 2014. Lati ṣe okunkun ariyanjiyan rẹ, o tun ṣẹda awọn apẹrẹ awọn iṣọpọ pupọ nipasẹ titele awọn akọsilẹ wiwo lori awọn ero miran.
Ni bayi, iwọ yoo ṣe atunṣe ati fa Penney (2016) . Gbogbo awọn data asayan ti o nilo fun iṣẹ yii wa lati Wikipedia. Tabi o le gba lati ọdọ R-package wikipediatrend (Meissner and R Core Team 2016) . Nigbati o ba kọ awọn esi rẹ, jọwọ ṣakiyesi iru orisun data ti o lo. (Akiyesi pe iṣẹ-ṣiṣe kanna tun farahan ni ori 6.) Iṣẹ yii yoo fun ọ ni ṣiṣe ni idaniloju ọrọ ati iṣaro nipa awọn igbadun ti ara ni awọn orisun data nla. O tun yoo gba ọ soke ati ṣiṣe pẹlu orisun data ti o lagbara fun awọn iṣẹ iwaju.
[ ] Efrati (2016) royin, da lori alaye ifitonileti, pe "pipin apapọ" lori Facebook ti kọ nipa nipa 5.5% ọdun ni ọdun nigba "igbasilẹ igbasilẹ akọkọ" ti isalẹ 21% ọdun ni ọdun. Yi idinku jẹ pataki pupọ pẹlu awọn oniṣẹ Facebook labẹ ọdun 30 ọdun. Ijabọ naa sọ iyipada si awọn ifosiwewe meji. Ọkan ni idagba ninu nọmba awọn "ọrẹ" eniyan ni lori Facebook. Awọn miiran ni pe diẹ ninu awọn ṣiṣe alabapin kan ti lo si fifiranṣẹ ati si awọn oludije bi Snapchat. Iroyin na tun fi han awọn ọpọlọpọ awọn imọ ti Facebook ti gbiyanju lati ṣe alekun pipin, pẹlu Awọn Iroyin Algorithm News Feed ti o ṣe awọn akọsilẹ ti o ṣe pataki julọ, ati awọn ifilọlẹ igbagbogbo ti awọn ipilẹṣẹ akọkọ pẹlu iwọn-ara "Lori ọjọ yi". Kini awọn itumọ, ti o ba jẹ eyikeyi, ṣe awọn awari wọnyi ni fun awọn oluwadi ti o fẹ lo Facebook bi orisun data?
[ ] Ki ni iyatọ laarin awujọ ati imọ-imọran kan? Ni ibamu si Goldthorpe (1991) , iyatọ akọkọ jẹ iṣakoso lori gbigba data. A ti fi agbara mu awọn onidawe lati lo awọn iwe-ẹda, lakoko ti awọn ogbon imọran le ṣe atunṣe gbigba data wọn si awọn idi kan pato. Ka Goldthorpe (1991) . Bawo ni iyatọ laarin awọn imọ-aye ati itan jẹmọ si imọran ti awọn aṣa ati awọn apẹrẹ?
[ ] Eyi n kọ lori ibeere yii. Goldthorpe (1991) fa ọpọlọpọ awọn idahun ti o ni ilọsiwaju, pẹlu ọkan lati Nicky Hart (1994) o ni idojukọ ifarasi Goldthorpe si oniye ṣe data. Lati ṣe alaye awọn idiwọn ti o pọju ti awọn data ti a ṣe, Hart ṣàpèjúwe Project Project Worker, iwadi nla kan lati wiwọn ibasepọ laarin ẹgbẹ awujọ ati idibo ti Goldthorpe ati awọn ẹlẹgbẹ ṣe nipasẹ awọn ọdun 1960. Gẹgẹbi ọkan ti le reti lati ọdọ ọmọ-iwe kan ti o ṣe ayẹyẹ ti a ṣe alaye lori data ti o wa, Aṣepọ Iṣẹ Aṣoju gba awọn data ti a ṣe niyanju lati ṣe apejuwe ilana ti a ṣe iṣeduro kan nipa ọjọ iwaju ti awọn awujọ awujọ ni akoko ti awọn igbesi aye ilọsiwaju. Ṣugbọn, Goldthorpe ati awọn ẹlẹgbẹ bakanna ni "gbagbe" lati gba alaye nipa iwa ihuwasi awọn obirin. Eyi ni bi Nicky Hart (1994) ṣe apejuwe gbogbo isele naa:
"... o jẹra lati yago fun ipinnu pe awọn obirin ti yọ nitori pe 'awoṣe ti a ṣe' akọọlẹ ni o fi opin si nipasẹ imọran ti paradigmatic eyiti ko ni iriri iriri obirin. Ṣiṣẹ nipasẹ iranwo ti o daju ti ijinlẹ ati iṣiṣe kilasi gẹgẹbi awọn iṣoro abo awọn ọkunrin ..., Goldthorpe ati awọn ẹlẹgbẹ rẹ ti ṣe agbekalẹ awọn ami-ẹri ti o jẹun ti o jẹun ati lati tọju awọn imọran ti ara wọn ju ti ṣiṣi wọn si idanwo ti o yẹ. "
Hart tesiwaju:
"Awọn iwadii ti iṣawari ti Iṣẹ Aṣoju Ọlọhun sọ fun wa ni imọ siwaju sii nipa awọn iṣiro ti awọn ọkunrin ti awọn imọ-aarin awọn ọdun ọgọrun ọdun ju ti wọn sọ awọn ilana ti imuduro, iselu ati igbesi aye."
Njẹ o le ronu awọn apeere miiran nibiti gbigba data n ṣe awoṣe ti ni awọn iyatọ ti agbasọ data ti a ṣe sinu rẹ? Bawo ni eyi ṣe fiwewe si algorithmic confounding? Awọn nkan wo ni eyi le ni fun nigbati awọn oluwadi yẹ ki o lo awọn apẹrẹ ati nigbati wọn yẹ ki o lo awọn aṣa?
[ ] Ninu ori iwe yii, Mo ti ṣe iyatọ si awọn data ti awọn oluwadi ti gbajọ fun awọn oluwadi pẹlu awọn igbasilẹ ijọba ti awọn ile-iṣẹ ati awọn ijọba ṣe. Awọn eniyan kan pe awọn igbasilẹ igbimọ wọnyi "ri data," eyiti wọn ṣe iyatọ si "data ti a ṣe apẹrẹ." O jẹ otitọ pe awọn oluwadi wa awọn akosile isakoso, ṣugbọn wọn tun ṣe apẹrẹ. Fun apẹẹrẹ, awọn ile-iṣẹ ẹrọ imọiran oni-ọjọ nṣiṣẹ gidigidi lati gba ati ṣeduro data wọn. Bayi, awọn igbasilẹ igbimọ wọnyi ni a rii ati ti a ṣe apẹrẹ, o da da lori irisi rẹ (nọmba 2.12).
Pese apẹẹrẹ ti orisun data nibi ti o ti ri mejeji ti a ri ati apẹrẹ ṣe iranlọwọ nigba lilo orisun data fun iwadi.
[ ] Ni abajade ti o ni imọran, Kristiani Sandvig ati Eszter Hargittai (2015) pin iwadi oni-nọmba sinu awọn iṣiro meji ti o da lori boya eto oni-nọmba jẹ "ohun-elo" tabi "ohun-iwadi." Apeere ti akọkọ-nibo ni eto naa jẹ ohun elo-jẹ iwadi nipasẹ Bengtsson ati awọn alabaṣiṣẹpọ (2011) lori lilo awọn foonu alagbeka foonu lati ṣe iṣakoso mii lẹhin ti ìṣẹlẹ ni Haiti ni 2010. Apeere ti awọn keji-ibi ti eto jẹ ohun-iwadi-jẹ iwadi nipasẹ Jensen (2007) lori bi ifihan awọn foonu alagbeka jakejado Kerala, India ni ipa lori iṣẹ ṣiṣe ti ọja fun ẹja. Mo ri iyatọ yi ni imọran nitori pe o ṣalaye pe awọn iwadi nipa lilo awọn orisun data oni-nọmba le ni awọn afojusun ti o yatọ pupọ paapa ti wọn ba nlo iru iru orisun data kanna. Lati tun ṣe iyatọ si iyatọ yii, ṣafihan awọn iwadi mẹrin ti o ti ri: meji ti o lo eto oni-nọmba kan gẹgẹbi ohun-elo ati meji ti o lo eto oni-nọmba kan gẹgẹbi ohun-imọ. O le lo awọn apẹẹrẹ lati ori yii bi o ba fẹ.