андан ары Комментарийди

Бул бөлүмдө бир бири катары кароо керек эмес, шилтеме катары колдонуу максатында иштелип чыккан.

  • Introduction (2.1-бөлүм)

Бул бөлүмдө учкай болуп кирген эмес, аткаруу бир түрү. Санарип мейкиндиктердеги учкай жөнүндө көбүрөөк көрүп Boellstorff et al. (2012) , жана аралаш санариптик жана физикалык мейкиндиктердеги учкай тууралуу көбүрөөк көрүп Lane (2016) .

  • Big маалыматтар (2.2-бөлүм)

Маалыматтарды repurposing жатканда, сиз туш болушубуз мүмкүн, проблемаларды түшүнүүгө жардам берет эки психикалык ыкмалары бар. Биринчиден, сиз көйгөй үчүн идеалдуу танышуусуна элестетип көргүлөчү жана сиз колдонуп жаткан танышуусуна да окшотууга болот. Алар кандайча окшош жана кантип алар ар кандай себептер бар? Эгер маалыматтарды ойлонуп чогулта алган жок болсо, сиз каалаган жана эмне бар болсо, ошону ортосунда айырма бар болушу ыктымал. Бирок, бул айырмачылыктар анча же негизги болсо, чечип алышыбыз керек.

Экинчиден, кимдир бирөө жараткан жана кандайдыр бир себептер менен сиздин маалыматтарды чогултуп экенин унутпа. Сен алардын ойлорун түшүнүүгө аракет кылышыбыз керек. Кайтарым-инженердик-бул сенин repurposed маалыматтарды мүмкүн болгон кыйынчылыктар жана проблемалар аныктоого жардам берет.

«Чоң маалыматтарды» эч кандай бир пикирге аныктамасы жок, бирок көптөгөн түшүнүктөр 3-күнү эстешет: көлөмү, ар түрдүү жана ылдамдыгы (мисалы, Japec et al. (2015) ). Тескерисинче, маалыматтарды мүнөздөмөлөрү көздөбөй, менин аныктамасы маалыматтар түзүлгөн эмне үчүн көбүрөөк басым.

чоң маалыматтардын категориясына ичинде мамлекеттик башкаруу маалыматтардын менин киргизүү бир аз адаттан тыш болуп саналат. Ушул ишти кылып, башкаларга, анын ичинде Legewie (2015) , Connelly et al. (2016) , жана Einav and Levin (2014) . Изилдөө үчүн мамлекеттик башкаруу маалыматтар жөнүндө көбүрөөк, анткени кара Card et al. (2010) , Taskforce (2012) , жана Grusky, Smeeding, and Snipp (2015) .

Мамлекеттик статистикалык тутумуна, өзгөчө, АКШнын Калкты каттоо бюросунун ичиндеги башкаруу изилдөө максатында үчүн, кара Jarmin and O'Hara (2016) . Statistics Испания боюнча башкаруучулук иш кагаздарын изилдөө китеп узундугу дарылоо үчүн, кара Wallgren and Wallgren (2007) .

бөлүмдө, мен кыскача мындай General коомдук изилдөөнүн (GSS) мындай Twitter сыяктуу коомдук медиа маалымат булагы катары салттуу сурамжылоого салыштырган. Салттуу изилдөөлөр жана коомдук медиа маалыматтарынын ортосунда кылдат жана этият салыштыруу үчүн, кара Schober et al. (2016) .

  • Чоң маалыматтардын жалпы мүнөздөмөсү (2.3-бөлүм)

Бул 10-чоң маалыматтарды мүнөздөмөлөрү ар кандай жазуучулардын, ар түрдүү, ар кандай жолдор менен кабыл алынган. Бул маселелер боюнча ой жүгүртүүмө таасир жазуу кирет: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , жана Goldstone and Lupyan (2016) .

Бул бөлүмдө бою, мен салыштырмалуу бейтарап болуп саналат деп ойлойм мөөнөттүү санариптик издерин, колдонгон. Санарип жогун дагы бир белгилүү мөөнөткө санариптик изи болуп саналат (Golder and Macy 2014) , ал эми Хэл Abelson, Кен Ledeen катары жана Гарри Lewis (2008) көрсөтүп, көбүрөөк тиешелүү термин адатта санарип манжа болуп саналат. Сиз изине түзүп жатканда, сиз эмне жана изи жалпысынан жеке сага жашоону мүмкүн эмес нерсени билет. Ошол эле санариптик жогун туура эмес. Чынында, сен издер абдан аз билими бар, ал жөнүндө ар дайым кетип жатышат. Жана бул изи аларга өз аты жок болсо да, көп учурда сага кайра байланыштуу болушу мүмкүн. Башка сөз менен айтканда, алар манжа сыяктуу: көзгө көрүнбөгөн жана жеке аныктоо.

чоң

Чоң топтому эмне, статистикалык сыноолорду көрсөтүүгө көйгөйлүү маселе боюнча көп көрүп, Lin, Lucas, and Shmueli (2013) жана McFarland and McFarland (2015) . Бул маселелер эмес, статистикалык маанидеги практикалык мааниге басым изилдөөчүлөргө алып келиши керек.

Дайым

маалыматтар ар дайым боюнча маселе каралып жатканда, ал убакыттын өтүшү менен так ошол адамдарды салыштыруу же жокпу, адамдар кээ бир өзгөртүү топту салыштырып жаткан жокпу, эске алуу керек; Мисалы, кара, Diaz et al. (2016) .

Эмес жалкоолук

Эмес жалкоолук чаралар боюнча классикалык китеп Webb et al. (1966) . санарип жашы китеп алдын ала датасын мисалдар келтирилди, бирок алар да жарык болот. Анткени массалык байкоо алдында, алардын жүрүм-турумун өзгөртүүгө элдин мисал үчүн, кара Penney (2016) жана Brayne (2014) .

толук эмес

Жазуу байланыштыруунун боюнча дагы, көрүп Dunn (1946) жана Fellegi and Sunter (1969) (тарыхый) жана Larsen and Winkler (2014) (учурдагы). Окшош келип, ошондой эле ушундай маалыматтарды deduplication катары аттары менен компьютер илими боюнча иштелип чыккан, мисалы, аныктоо, аты дал келүүсү, аныкталган көбөйтүүгө, жана жазуу суутпай кайталап жатышат (Elmagarmid, Ipeirotis, and Verykios 2007) . Жеке маалыматты аныктоо берүүнү талап кылбайт байланыштырууга жазуу мамилелерди сактап калуу жекелик да бар (Schnell 2013) . Facebook, ошондой эле добуш берүү үчүн жүрүм-туруму үчүн жазууларды шилтеме киришүүгө иштелип чыккан; Мен 4-бөлүмүндө жөнүндө силерге айтып берейин эксперимент баа берүү үчүн кылган (Bond et al. 2012; Jones et al. 2013) .

Construct негиздүүлүгү жөнүндө дагы, көрүп Shadish, Cook, and Campbell (2001) , 3-бөлүм.

кол жеткис

AOL издөө журналы төгүүгө боюнча дагы, көрүп Ohm (2010) . Мен эксперименттер айтып жатканда, мен 4-бөлүмүнөн компаниялардын жана башкаруу органдары менен өнөктөштүк жөнүндө сунуштар берилген. Жазуучулардын бир катар алыскы маалыматтарга таянат изилдөөлөр тууралуу тынчсызданууларын билдиришти, көрүп Huberman (2012) жана boyd and Crawford (2012) .

изилдөөчүлөр маалымат алуу мүмкүнчүлүгүн алуу үчүн бир жакшы жолу компаниясынын практикага же келген илимий кызматкер катары иштөө болуп саналат. маалымат жеткиликтүүлүктү камсыз тышкары, бул жараян дагы изилдөөчү талдоо үчүн маанилүү болгон маалыматтарды кандай түзүлгөн, ал жөнүндө көбүрөөк билүүгө жардам берет.

Эмес өкүлү

Эмес өкүлчүлүгүн бүтүндөй калктын билдиришпейт каалаган изилдөөчүлөр жана бийлик үчүн олуттуу көйгөй болуп саналат. Бул, адатта, алардын колдонуучуларга багытталган компаниялар үчүн тынчсызданууну аз. Statistics Нидерланды бизнес чоң маалыматтарды Өкүлчүлүк жөнүндө маселени карайт кантип дагы, көрүп Buelens et al. (2014) .

3-бөлүмдөн окуганыбыздай, мен көп майда-чүйдөсүнө чейин пробаларды жана баа тууралуу айтып беребиз. маалыматтар белгилүү бир шарттарда эмес өкүлү болсо да, жакшы баа өндүрүү боюнча салмактанып алынган болот.

сулуу кыз

Система айдалуу сырттан көрүп, абдан кыйын. Бирок, MovieLens долбоору (дагы 4-бөлүмүндө талкууланган) академиялык изилдөө тобу тарабынан 15 жылдан бери иштетип келген. Ошондуктан, алар система убакыттын өтүшү менен өнүккөн жолу жөнүндөгү документтелген жана жалпы маалымат жана кантип бул талдоо терс таасирин тийгизе турган (Harper and Konstan 2015) .

Twitter аалымдардын бир катар агызуудан басым кылганбыз: Liu, Kliman-Silver, and Mislove (2014) жана Tufekci (2014) .

алгоритмдери уят

Мен биринчи аяттагы «алгоритмдери уят» баяндама Jon Kleinberg колдонгон укту. Performativity негизги идеясы айрым коомдук илимдер теориясы «мотор камера жок» болуп саналат (Mackenzie 2008) . Башкача айтканда, алар, чынында эле эмес, дүйнөнүн аны биротоло басып ал.

кир

Мамлекеттик статистика органдары маалыматтарды тазалап, статистикалык маалыматтар түзөө деп аташат. De Waal, Puts, and Daas (2014) изилдөөнүн маалыматтарынын иштелип статистикалык маалыматтар түзөтүү ыкмаларын сүрөттөп жана канчалык карап, алар чоң маалымат булактарына карата да колдонулат, Puts, Daas, and Waal (2015) бир кыйла жалпы аудитория үчүн бир эле ой-пикирлердин айрымдары.

Twitter, спам багытталган изилдөөлөрдүн кээ бир мисалдарды Clark et al. (2016) жана Chu et al. (2012) . Акыр-аягы, Subrahmanian et al. (2016) DARPA Twitter Bot Оор натыйжалары айтылат.

сезгич

Ohm (2015) сезимтал маалыматтарды идеясына мурда изилдөө карайт жана көп нерсе тест сунуш кылат. сунуштаган төрт нерсе бар: зыян ыктымалдуулугу; зыян ыктымалдуулугу; жашыруун мамиледе болушу; жана коркунучка же мажоритардык маселелерди чагылдырат.

  • Эсептөө нерселерди (2.4.1-бөлүм)

New York Такси менен FARBER окуу менен мурда изилдеп чыктым Camerer et al. (1997) на башталыш убактысын эсепке алуу үчүн айдоочуларга колдонгон кагаз на барактар-кагаз түрлөрүн үч ынгайлуулугу үлгүлөрүн колдонгон, аягы менен жүрүү. Бул мурда изилдөө айдоочулар максаттуу багуучу болуп көрүнгөн деп табылган, алар алардын эмгек акысы жогору болгон күндөрү аз иштеген.

Kossinets and Watts (2009) коомдук тармактарда homophily келип чыгышын бурулду. Көрүп Wimmer and Lewis (2010) Facebook маалыматтарын колдонгон бир эле маселе боюнча ар түрдүү мамиле болот.

Кийинки ишине, Падыша жана кесиптештери мындан ары Кытайдагы интернет калка каралды (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Кытайда онлайн калка өлчөө үчүн тиешелүү мамиле, көрүп Bamman, O'Connor, and Smith (2012) . Колдонулган сыяктуу статистикалык ыкмаларды колдонуу боюнча дагы King, Pan, and Roberts (2013) , 11 миллион билдирүүлөр көрүп таамай баа берүү Hopkins and King (2010) . Көзөмөлдөнгөн окутуу боюнча көп көрүп, James et al. (2013) (аз-техникалык) жана Hastie, Tibshirani, and Friedman (2009) (техникалык).

  • Болжолдоо (2.4.2-бөлүм)

Божомолдоо өнөр жай маалыматтар илим бир чоң бөлүгү болуп саналат (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Жалпы коомдук изилдөөчүлөр тарабынан ишке ашырылат болжолдоо бир түрү мисал үчүн, региондор прогноздоо болуп Raftery et al. (2012) .

Google тумоосу айлары тумоого жайылгандыгын nowcast издөө маалыматтарды колдонуу үчүн биринчи долбоор болгон эмес. Чынында, Кошмо Штаттарда изилдөөчүлөр (Polgreen et al. 2008; Ginsberg et al. 2009) жана Испания (Hulth, Rydevik, and Linde 2009) айрым издөө шарттары (мисалы, «сасык») улуттук коомдук саламаттыкты сактоо көзөмөлдөөгө алдын ала байкашкан ага чейин маалымат чыккан. Кийин, көп башка долбоорлор, оору көзөмөлдөө аныктоо үчүн санариптик изи маалыматтарды колдонуу көрүп аракет кылып Althouse et al. (2015) бир карап чыгууга.

ден соолукка кесепетин алдын санариптик изи маалыматтарды пайдалануу менен бирге, ошондой эле шайлоо жыйынтыктарын алдын ала Twitter маалыматтарды пайдалануу ишине абдан эле көп болуп жатат; сын-пикирлер үчүн көрүп Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), жана Huberty (2015) .

грипп таркашын алдын ала издөө маалыматтарды колдонуу жана шайлоо дүйнөдө иш-чаранын кандайдыр бир алдын ала санариптик изи да кандайдыр бир колдонуу менен да үлгү болуп саналат алдын ала Twitter маалыматтарды колдонуу. Бул жалпы бир түзүлүшкө ээ изилдөөлөрдүн зор саны бар. 2.5 үстөл бир нече мисалга камтыйт.

Стол 2.5: изилдөөлөрдүн жарым-жартылай тизмеси бир нече иш-чара алдын ала кээ бир санарип жакын колдонушат.
санарип изи жыйынтык эсептөө
Twitter АКШда тасмаларды кассадагы киреше Asur and Huberman (2010)
издөө | журналдар | АКШда кино, музыка, китептер жана электрондук оюндар сатуу Goel et al. (2010)
Twitter Dow Jones өнөр жай болгон орточо баасы (US биржа) Bollen, Mao, and Zeng (2011)
  • Жакындоосун эксперименттер (2.4.3-бөлүм)

PS саясий Science журналы чоң маалыматтарды, себеп истинбат боюнча симпозиум болду, ал эми расмий теориясы жана Clark and Golder (2015) , ар бир салымын жалпылайт. Америка Кошмо Штаттарынын Улуттук илимдер академиясынын жарчысы Proceedings себеп алуучу жана чоң маалыматы боюнча симпозиум болду, жана Shiffrin (2016) , ар бир салымын жалпылайт.

Табигый эксперименттердин жагынан, Dunning (2012) сонун китеп узундугу дарылоону камсыз кылат. Табигый эксперимент катары Япония долбоору лотерея колдонуу боюнча дагы, көрүп Berinsky and Chatfield (2015) . Жазуусу чоң маалымат булактарынын ичинде жаратылыш эксперименттер табууга аракет Машина үйрөнүү жолдорун көрүп Jensen et al. (2008) жана Sharma, Hofman, and Watts (2015) .

Дал жагынан, оптимисттик карап чыгуу үчүн, кара Stuart (2010) жана пессимисттик кароого көрүп Sekhon (2009) . Бутап кандайдыр бир дал боюнча дагы, көрүп Ho et al. (2007) . Дал сонун дарылоону камсыз кылуу боюнча китептер үчүн, кара Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , жана Imbens and Rubin (2015) .