Awọn data nla ti ṣẹda ati gba nipasẹ awọn ile-iṣẹ ati awọn ijoba fun awọn idi miiran ju iwadi lọ. Lilo data yi fun iwadi, nitorina, nilo atunṣe.
Ọna akọkọ ti ọpọlọpọ awọn eniyan ba pade iwadi awujọ ni ọjọ ori-ọjọ jẹ nipasẹ ohun ti a npe ni data nla . Nibayi lilo lilo gbolohun yii, ko si ifọkanbalẹ nipa iru data nla ti o jẹ. Sibẹsibẹ, ọkan ninu awọn itọkasi ti o wọpọ julọ ti awọn data nla n fojusi lori "3 Vs": Iwọn didun, Orisirisi, ati Ekun. Lai ṣe pataki, ọpọlọpọ data wa, ni orisirisi ọna kika, ati pe a ṣẹda rẹ nigbagbogbo. Diẹ ninu awọn onijakidijagan ti awọn data nla tun fi awọn "V" miiran bii Veracity ati Iye, nigbati diẹ ninu awọn alariwisi fi Vs ṣe gẹgẹbi Ajumọṣe ati Idaniloju. Dipo ju 3 "V" (tabi 5 "V" tabi 7 "V" "), fun awọn idi ti iwadi awujọ, Mo ro pe ibi ti o dara julọ lati bẹrẹ ni 5" Ws ": Tani, Kini, Nibo, Nigbati , ati Idi ti. Ni otitọ, Mo ro pe ọpọlọpọ awọn italaya ati awọn anfani ti awọn orisun data nla ṣe lati tẹle ọkan "W": Idi.
Ni akoko analog, ọpọlọpọ awọn data ti a lo fun iwadi awujọ jẹ ṣẹda fun idi ti ṣe iwadi. Ni ọjọ ori-ọjọ, sibẹsibẹ, ọpọlọpọ awọn data wa ni o ṣẹda nipasẹ awọn ile-iṣẹ ati awọn ijoba fun awọn ero miiran yatọ si iwadi, gẹgẹbi awọn iṣẹ ti n pese, fifun awọn ere, ati fifun awọn ofin. Awọn eniyan Creative, sibẹsibẹ, ti ṣe akiyesi pe o le tun ọja yi ati awọn data ijọba pada fun iwadi. Rii ero pada si imọ-ẹrọ ti o wa ninu ori-iwe 1, gẹgẹ bi Duchamp ṣe tun pada ohun ti a rii lati ṣẹda awọn aworan, awọn onimo ijinlẹ sayensi le bayi repurpose ri data lati ṣẹda iwadi.
Lakoko ti o wa laisi iyemeji awọn anfani nla fun atunkọ, lilo awọn data ti a ko da fun awọn idi ti iwadi tun nni awọn idiwọ titun. Fiwewe, fun apẹẹrẹ, iṣẹ igbanilaaye ti awujo, gẹgẹbi Twitter, pẹlu iwadi imọran ti ara ilu, gẹgẹbi Imọ Awujọ Gbogbogbo. Awọn ifojusi pataki Twitter jẹ lati pese iṣẹ kan si awọn olumulo rẹ ati lati ṣe ere. Awujọ Iwadi Gbogbogbo, ni idakeji, ti wa ni idojukọ lori ṣiṣẹda awọn alaye-idiyele fun iwadi awujọ, paapaa fun imọ-ọrọ ti awọn eniyan. Iyatọ yi ni awọn afojusun tumọ si pe data ti a ṣẹda nipasẹ Twitter ati eyiti o da nipasẹ Ijọpọ Awujọ Gbogbogbo ni awọn oriṣiriṣi awọn ohun-ini, biotilejepe a le lo awọn mejeeji fun kikọ ẹkọ ero eniyan. Twitter n ṣiṣẹ ni iwọn ati iyara ti Social Social Survey ko le baramu, ṣugbọn, ko ni ibamu si Gbogbogbo Awujọ Awujọ, Twitter ko ni ayẹwo awọn olumulo nikan ko si ṣiṣẹ gidigidi lati ṣetọju iṣeduro lori akoko. Nitoripe awọn orisun data meji yii yatọ, o ko ni oye lati sọ pe Gbogbogbo Awujọ Awujọ jẹ dara ju Twitter tabi idakeji. Ti o ba fẹ awọn ọna akoko ti iṣaju agbaye (fun apẹẹrẹ, Golder and Macy (2011) ), Twitter jẹ dara julọ. Ni apa keji, ti o ba fẹ lati ni iyipada ayipada gigun ni iṣafihan awọn iṣọrọ ni United States (fun apẹẹrẹ, DiMaggio, Evans, and Bryson (1996) ), lẹhinna Gbogbogbo Awujọ ni imọran ti o dara. Ni gbogbo igba, dipo ki o gbiyanju lati jiyan pe awọn orisun data nla jẹ dara tabi buru ju awọn iru data miiran lọ, ipin yii yoo gbiyanju lati ṣalaye iru iru ibeere iwadi nla awọn orisun data ni awọn ohun ini ti o wuni ati fun iru awọn ibeere ti wọn ko le jẹ apẹrẹ.
Nigbati o ba nronu nipa awọn orisun data nla, ọpọlọpọ awọn oluwadi ni ẹfọkẹsẹ ṣe ifojusi lori awọn data ayelujara ti a ṣẹda ati ti a gba nipasẹ awọn ile-iṣẹ, gẹgẹbi awọn atukii àwárí ati awọn iroyin media. Sibẹsibẹ, idojukọ aifọwọyi yi jade awọn orisun pataki miiran ti awọn data nla. Ni akọkọ, awọn orisun data nla ti o pọ sii lati ọdọ awọn ẹrọ oni-nọmba ni aye ti ara. Fun apẹẹrẹ, ninu ori yii, Mo sọ fun ọ nipa iwadi ti o ṣawari awọn iṣeduro ti iṣawari lori iṣowo fifuyẹ lati ṣe iwadi bi o ṣe n ṣe ikolu iṣẹ-ṣiṣe oṣiṣẹ kan nipasẹ ṣiṣe awọn ọmọ ẹgbẹ rẹ (Mas and Moretti 2009) . Lẹhinna, ni awọn ori ti o tẹle, Emi yoo sọ fun ọ nipa awọn oluwadi ti o lo awọn akọsilẹ lati awọn foonu alagbeka (Blumenstock, Cadamuro, and On 2015) ati awọn alaye ìdíyelé ti awọn ohun elo ina (Allcott 2015) . Gẹgẹbi awọn apeere wọnyi ṣe apejuwe, awọn orisun data nla ti ajọpọ jẹ nipa diẹ ẹ sii ju iwaṣepọ ayelujara lọ.
Ohun pataki pataki ti data nla ti o padanu nipasẹ idojukọ aifọwọyi lori ihuwasi ayelujara jẹ data ṣẹda nipasẹ awọn ijọba. Awọn data ijọba wọnyi, eyiti awọn oluwadi pe awọn igbasilẹ ijọba ijọba , ni awọn ohun kan gẹgẹbi awọn igbasilẹ ori, awọn iwe-iwe ile-iwe, ati awọn akọsilẹ statistiki pataki (fun apẹẹrẹ, awọn iforukọsilẹ ti awọn ibi ati awọn iku). Awọn ijọba ti n ṣẹda iru iru data yii fun, ni awọn igba miiran, awọn ọgọrun ọdun, ati awọn onimo ijinlẹ sayensi ti nlo wọn fun fere bi igba ti awọn onimo ijinlẹ sayensi ti wa. Ohun ti o ti yipada, sibẹsibẹ, isiti-digitization, eyiti o ṣe ki o rọrun pupọ fun awọn ijọba lati ṣajọ, gbe, tọju, ati ṣawari awọn data. Fun apẹẹrẹ, ninu ori yii, Mo sọ fun ọ nipa iwadi ti o tun pada lati inu awọn mita mita mita oni-ilẹ ijọba ti Ilu New York Ilu lati le ṣe idojukọ kan ijiroro pataki ninu iṣowo-owo (Farber 2015) . Lẹhinna, ni awọn ori ti o tẹle, Emi yoo sọ fun ọ bi o ti ṣe lo awọn igbasilẹ idibo ti ijọba-igbimọ ni iwadi kan (Ansolabehere and Hersh 2012) ati idanwo kan (Bond et al. 2012) .
Mo ro pe ero ti atunkọ jẹ pataki lati kọ ẹkọ lati awọn orisun data nla, ati bẹ bẹ, ṣaaju ki o to sọrọ diẹ sii nipa awọn ohun-ini ti awọn orisun data nla (apakan 2.3) ati bi a ṣe le lo awọn wọnyi ni iwadi (apakan 2.4), Mo fẹran lati pese awọn ọna meji ti imọran gbogbogbo nipa gbigba pada. Ni akọkọ, o le jẹ idanwo lati ronu nipa iyatọ ti mo ti ṣeto bi bi laarin awọn "ri" data ati awọn "apẹrẹ" data. Ti o ni sunmọ, ṣugbọn o ko oyimbo ọtun. Bi o tilẹ jẹ pe, lati inu awọn oluwadi, awọn orisun data nla ni a "ri," wọn ko tun kuna lati ọrun. Dipo, awọn orisun data ti a "ri" nipasẹ awọn oniṣẹ ṣe apẹrẹ nipasẹ ẹnikan fun idi kan. Nitoripe ẹnikan ti "ri" data ṣe apẹrẹ nipasẹ ẹnikan, Mo sọ nigbagbogbo pe ki o gbiyanju lati ni oye bi o ti ṣee ṣe nipa awọn eniyan ati awọn ilana ti o ṣẹda data rẹ. Keji, nigba ti o ba n ṣafọye data, o jẹ igbagbogbo wulo lati fojuinu akọsilẹ ti o dara julọ fun iṣoro rẹ lẹhinna ṣe afiwe iru akoko dataset ti o dara pẹlu ọkan ti o nlo. Ti o ko ba gba data rẹ silẹ, o le ṣe awọn iyatọ nla laarin ohun ti o fẹ ati ohun ti o ni. Ṣiṣe akiyesi awọn iyatọ wọnyi yoo ṣe iranlọwọ lati ṣafihan ohun ti o le ati pe ko le kọ ẹkọ lati inu data ti o ni, ati pe o le dabaa alaye titun ti o yẹ ki o gba.
Ni iriri mi, awọn onimo ijinlẹ sayensi ati awọn onimo ijinlẹ data n tẹsiwaju lati tun pada sipo. Awọn onimo ijinlẹ ti awọn awujọ, ti o ni iriri lati ṣiṣẹ pẹlu awọn data ti a ṣe fun iwadi, ni ọpọlọpọ awọn ọna lati ṣalaye awọn iṣoro pẹlu awọn alaye ti a tun pada nigba ti o ko bikita awọn agbara rẹ. Ni ida keji, awọn onimo ijinlẹ data n ni kiakia lati ṣalaye awọn anfani ti data ti a tun pada nigbati o ko bikita awọn ailera rẹ. Nitõtọ, ọna ti o dara julọ jẹ arabara. Iyẹn ni, awọn oluwadi nilo lati ni oye awọn iṣe ti awọn orisun data nla-gbogbo awọn ti o dara ati buburu-lẹhinna ṣe apejuwe bi o ṣe le kọ lati ọdọ wọn. Ati, eyi ni eto fun iyoku ori ori yii. Ni aaye ti o tẹle, Mo ti ṣe apejuwe awọn abuda wọpọ mẹwa ti awọn orisun data nla. Lẹhinna, ni apakan to wa, Mo ṣe apejuwe awọn imọran iwadi mẹta ti o le ṣiṣẹ daradara pẹlu iru data.