Dideli duomenys sukuriami ir surenkami bendrovių ir vyriausybių ne moksliniams tyrimams. Todėl, naudojantis šiais duomenimis moksliniams tyrimams, reikia grąžinti skolą.
Pirmasis būdas, kuriuo daugelis žmonių susiduria su socialiniais moksliniais tyrimais skaitmeniniame amžiuje, yra tai, kas dažnai vadinama dideliais duomenimis . Nepaisant plačiai vartojamo šio termino, nėra vieningo nuomonės apie tai, kokie dideli duomenys yra netgi. Tačiau vienas iš labiausiai paplitusių didžiųjų duomenų apibrėžčių yra "3 Vs": tomas, veislė ir greitis. Apytiksliai, daugybė duomenų yra įvairiuose formatuose ir nuolat kuriama. Kai kurie didelių duomenų gerbėjai taip pat prideda kitų "Vs", tokių kaip "Veracity" ir "Value", o kai kurie kritikai prideda "Vs", pvz., "Vague" ir "Vacuous". Socialinių tyrimų tikslais vietoj 3 "Vs" (arba 5 "Vs" arba 7 "Vs") manau, kad geresnė vieta yra 5 "W": kas, kas, kada, kada , ir kodėl. Tiesą sakant, manau, kad daugelis didelių duomenų šaltinių sukurtų iššūkių ir galimybių atsiranda tik iš vieno "W": kodėl.
Analogiškai, dauguma duomenų, kurie buvo naudojami socialiniams tyrimams, buvo sukurti siekiant atlikti tyrimus. Tačiau skaitmeniniame amžiuje bendrovės ir vyriausybės sukuria daugybę duomenų ne moksliniams tyrimams, pavyzdžiui, paslaugų teikimui, pelnui gauti ir įstatymų administravimui. Tačiau kūrybingi žmonės suvokė, kad galite pertvarkyti šiuos verslo ir vyriausybės duomenis moksliniams tyrimams. Grįžęs prie 1-osios dalies meno analogijos, lygiai taip pat, kaip Duchampas išreiškė rastą objektą kurti meną, mokslininkai dabar gali panaudoti surinktus duomenis, kad galėtų kurti mokslinius tyrimus.
Nors yra neabejotinai didelių galimybių grąžinti lėšas, naudojant duomenis, kurie nebuvo sukurti mokslinių tyrimų tikslais, taip pat atsiranda naujų iššūkių. Pavyzdžiui, palyginkite socialinės žiniasklaidos paslaugą, pvz., "Twitter", su tradicine viešosios nuomonės apklausa, pvz., "Bendra socialinė apžvalga". "Twitter" pagrindiniai tikslai - teikti paslaugas savo vartotojams ir gauti pelną. Kita vertus, Bendroji socialinė apklausa yra skirta socialiniams tyrimams, visų pirma viešosios nuomonės tyrinėjimams, sukurti bendrojo pobūdžio duomenis. Šis tikslų skirtumas reiškia, kad "Twitter" sukurta ir "General Social Survey" sukurta informacija turi skirtingų savybių, nors abi gali būti naudojamos viešosios nuomonės tyrinėjimui. "Twitter" veikia pagal mastą ir greitį, kad Bendrasis socialinis tyrimas negali sutapti, tačiau, skirtingai nuo bendrosios socialinės apžvalgos, "Twitter" kruopščiai nepastebi naudotojų ir sunkiai dirba, kad išlaikytų palyginamumą. Kadangi šie du duomenų šaltiniai yra tokie skirtingi, nėra prasmės teigti, kad Bendroji socialinė apžvalga yra geresnė nei Twitter ir atvirkščiai. Jei norite valandines pasaulinės nuotaikos priemones (pvz., Golder and Macy (2011) ), "Twitter" yra geriausia. Kita vertus, jei norite suprasti ilgalaikius požiūrių polarizacijos pokyčius Jungtinėse Amerikos Valstijose (pvz., DiMaggio, Evans, and Bryson (1996) ), tai geriausias pasirinkimas yra Bendrasis socialinis tyrimas. Apskritai, o ne bandydamas teigti, kad dideli duomenų šaltiniai yra geresni ar blogesni už kitų tipų duomenis, šiame skyriuje bus siekiama išsiaiškinti, kokių rūšių tyrimai kelia didelių duomenų šaltinių patrauklumą ir kokių klausimų jie gali būti ne. idealus.
Kai galvoju apie didelius duomenų šaltinius, daugelis mokslininkų iš karto sutelkia dėmesį į įmonių sukurtus ir surinktus internetinius duomenis, pvz., Paieškos žurnalus ir socialinės žiniasklaidos pranešimus. Tačiau šis siauras dėmesys išskiria du kitus svarbius didelių duomenų šaltinius. Pirma, dideli įmonių dideli duomenų šaltiniai gaunami iš skaitmeninių įrenginių fiziniame pasaulyje. Pavyzdžiui, šiame skyriuje jums pasakysiu apie tyrimą, kuriame atsispindėjo prekybos centrų išsiuntimo duomenys, siekiant ištirti, kaip darbuotojo produktyvumą įtakoja jo bendraamžių našumas (Mas and Moretti 2009) . Tada vėlesniuose skyriuose pasakysiu apie tyrėjus, kurie naudojo skambučių įrašus iš mobiliųjų telefonų (Blumenstock, Cadamuro, and On 2015) ir elektros energijos komunalinių paslaugų (Allcott 2015) sukurtus atsiskaitymo duomenis. Kaip rodo šie pavyzdžiai, dideli įmonių duomenų šaltiniai yra daugiau nei tiesiog elgesys internete.
Antrasis svarbus didelių duomenų šaltinis, kurį stengiasi vertinti internete, yra vyriausybių sukurta informacija. Šie vyriausybės duomenys, kuriuos mokslininkai vadina vyriausybės administraciniais įrašais , apima tokius dalykus kaip mokesčių apskaita, mokyklos įrašai ir įrašai apie gyvybės statistiką (pvz., Gimimų ir mirčių registrai). Vyriausybės tokius duomenis sukūrė tam tikrais atvejais šimtus metų, o socialiniai mokslininkai juos išnaudojo beveik taip ilgai, kaip ir socialiniai mokslininkai. Vis dėlto pasikeitė skaitmeninimas, dėl kurio vyriausybės labai supaprastino rinkti, perduoti, saugoti ir analizuoti duomenis. Pavyzdžiui, šiame skyriuje aš pasakysiu apie tyrimą, kuriame naudojami duomenys iš Niujorko miesto vyriausybės skaitmeninių taksometrų, siekiant išspręsti pagrindines diskusijas darbo ekonomikos klausimais (Farber 2015) . Tada, vėlesniuose skyriuose, aš jums pasakysiu apie tai, kaip apklausoje (Ansolabehere and Hersh 2012) ir eksperimente (Bond et al. 2012) buvo naudojami vyriausybės surinkti balsavimo įrašai.
Manau, kad grąžinimo idėja yra svarbiausia mokytis iš didelių duomenų šaltinių, taigi, prieš konkrečiau kalbant apie didelių duomenų šaltinių savybes (2.3 skirsnis) ir apie tai, kaip jie gali būti naudojami tyrimuose (2.4 skyrius), norėčiau pasiūlyti du bendruosius patarimus dėl grąžinimo. Pirma, gali būti pagunda galvoti apie kontrastą, kurį nustatiau kaip tarp "rastų" duomenų ir "suprojektuotų" duomenų. Tai arti, bet tai nėra visiškai teisinga. Nors mokslininkų požiūriu "rasta" didelių duomenų šaltinių, jie ne tik nukrenta iš dangaus. Vietoj to, duomenų šaltiniai, kuriuos "rasta" tyrėjai, kuria kažkas tam tikru tikslu. Kadangi "rasta" duomenis sukūrė kažkas, visada rekomenduojame kuo daugiau sužinoti apie žmones ir procesus, kurie sukūrė jūsų duomenis. Antra, kai naudojate duomenis, dažnai labai naudinga įsivaizduoti idealų duomenų rinkinį savo problemai ir tada palyginti šį idealų duomenų rinkinį su tuo, kurį naudojate. Jei negavote savo duomenų savimi, gali būti svarbių skirtumų tarp to, ko norite ir ką turite. Pastebėję šiuos skirtumus paaiškinsite, ką galite ir negalite išmokti iš jūsų turimų duomenų, ir gali pasiūlyti naujų duomenų, kuriuos turėtumėte rinkti.
Mano patirtis rodo, kad socialinių mokslų ir duomenų mokslininkai linkę grįžti prie skirtingų būdų. Socialiniai mokslininkai, kurie yra pripratę dirbti su tyrimais sukurtais duomenimis, paprastai greitai nurodo problemas, susijusias su pertvarkytais duomenimis, ignoruodamos jo stipriąsias puses. Kita vertus, duomenų mokslininkai dažniausiai greitai atkreipia dėmesį į perduotų duomenų naudą, ignoruodama jos silpnybes. Žinoma, geriausias būdas yra hibridas. Tai reiškia, kad mokslininkams reikia suvokti didelių duomenų šaltinių charakteristikas - tiek gerą, tiek blogą - tada išsiaiškinti, kaip iš jų mokytis. Ir tai yra likusio šio skyriaus dalis. Kitame skyriuje aprašysiu dešimt bendrų didelių duomenų šaltinių charakteristikų. Tada kitame skyriuje apibūdinsiu tris tyrimo metodus, galinčius gerai dirbti su tokiais duomenimis.