Grandaj datumoj estas kreitaj kaj kolektitaj de kompanioj kaj registaroj por celoj krom esplorado. Uzante ĉi tiun datumon por esplorado, do, postulas repuriĝi.
La unua maniero, kiun multaj homoj renkontas socian esploradon en la cifereca aĝo estas tra la ofte nomata granda datumo . Malgraŭ la etendita uzo de ĉi tiu termino, ne ekzistas konsento pri kiom da datumoj eĉ estas. Tamen, unu el la plej komunaj difinoj de grandaj datumoj fokusiĝas sur la "3 V": Volumo, Vario kaj Velocity. Malmulte, ekzistas multaj datumoj, en diversaj formatoj, kaj ĝi estas kreita senĉese. Iuj fanoj de grandaj datumoj ankaŭ aldonas aliajn "Vojn" kiel Veracity and Value, dum iuj kritikistoj aldonas Vs kiel Vagas kaj Malplenaj. Prefere ol la 3 "Vs" (aŭ la 5 "V" aŭ la 7 "V"), por sociaj esploroj, mi pensas, ke pli bona loko komenciĝas estas la 5 "W": Kiu, Kie, Kie, Kiam , kaj kial. Fakte, mi opinias, ke multaj el la defioj kaj ŝancoj kreitaj de grandaj datumaj fontoj sekvas el nur unu "W": Kial.
En la analoga aĝo, plejparto de la datumoj uzataj por socia esplorado estis kreita por esplori. En la cifereca aĝo tamen grandega kvanto da datumoj estas kreitaj de kompanioj kaj registaroj por celoj krom esplorado, kiel provizado de servoj, generado de profitoj kaj administrado de leĝoj. Kredantoj, tamen, rimarkis, ke vi povas repurpose ĉi tiu kompania kaj registaraj datumoj por esplorado. Pensante reen al la arta analogio en ĉapitro 1, same kiel Duchamp repurpis trovitan celon por krei arton, scienculoj nun povas repurpose trovi datumojn por krei esploradon.
Dum estas sen dubo grandegaj ŝancoj por repuriĝi, uzante datumoj ne kreitaj por esplorado ankaŭ prezentas novajn defiojn. Komparu, ekzemple, socia amaskomunikilaro, kiel Twitter, kun tradicia publika opinio, kiel la Ĝenerala Socia Enketo. La ĉefaj celoj de Twitter estas provizi servon al ĝiaj uzantoj kaj fari profiton. La Ĝenerala Socia Enketo, aliflanke, temas pri kreado de ĝeneralaj datumoj por socia esplorado, precipe por publikaj opinioj. Ĉi tiu diferenco en celoj signifas, ke la datumoj kreitaj de Twitter kaj tiu kreita de la Ĝenerala Socia Enketo havas malsamajn ecojn, kvankam ambaŭ povas esti uzataj por studi publikan opinion. Twitter funkcias je skalo kaj rapideco, ke la Ĝenerala Socia Enketo ne povas egali, sed, kontraste kun la Ĝenerala Socia Enketo, Twitter ne atente montras uzantojn kaj ne laboras forte por subteni komparecon kun la tempo. Ĉar ĉi tiuj du datumaj fontoj estas tiel malsamaj, ĝi ne havas senton diri, ke la Ĝenerala Socia Enketo estas pli bona ol Twitter aŭ viceversa. Se vi volas mezurojn de tutmonda humoro (ekz. Golder and Macy (2011) ), Twitter estas plej bona. Aliflanke, se vi volas kompreni longtempe ŝanĝojn en la polarizo de sintenoj en Usono (ekzemple, DiMaggio, Evans, and Bryson (1996) ), tiam la Ĝenerala Socia Enketo estas la plej bona elekto. Pli ĝenerale, prefere ol provi argumenti, ke grandaj datumaj fontoj estas pli bonaj aŭ pli malbonaj ol aliaj specoj de datumoj, ĉi tiu ĉapitro provos klarigi, por kiaj specoj de esploraj demandoj, grandaj datumaj fontoj havas allogajn proprietojn kaj por kiaj demandoj ili eble ne estu. ideala.
Pensinte pri grandaj datumaj fontoj, multaj esploristoj tuj fokusas enretajn informojn kreitajn kaj kolektitajn de kompanioj, kiel serĉiloj kaj sociaj amaskomunikiloj. Tamen, ĉi tiu mallarĝa fokuso ellasas du aliajn gravajn fontojn de grandaj datumoj. Unue, ĉiufoje pli grandaj entreprenaj fontoj devenas el ciferecaj aparatoj en la fizika mondo. Ekzemple, en ĉi tiu ĉapitro, mi diros al vi pri studo, kiu reprenis datumojn de superbazaro por studi kiel produktado de laboristo influas la produktivecon de ŝiaj samuloj (Mas and Moretti 2009) . Poste, en postaj ĉapitroj, mi diros al vi pri esploristoj, kiuj uzis alvokajn reklamojn de poŝtelefonoj (Blumenstock, Cadamuro, and On 2015) kaj biletaj datumoj kreitaj de elektraj utilecoj (Allcott 2015) . Kiel ĉi tiuj ekzemploj ilustras, korporaciaj grandaj datumoj estas pli ol nur interreta konduto.
La dua grava fonto de grandaj datumoj maltrafitaj de mallarĝa fokuso en interreta konduto estas datumoj kreitaj de registaroj. Ĉi tiuj registaraj datumoj, kiujn esploristoj nomas administraciaj registroj , inkluzivas aferojn kiel impostaj registroj, lernejaj registroj, kaj esencaj statistikaj rekordoj (ekz. Registroj de naskiĝoj kaj mortoj). Registaroj kreis ĉi tiun tipon de datumoj ĉar, en iuj kazoj, centjaraj jaroj, kaj sociaj sciencistoj eksplodis ilin preskaŭ tiom longe kiel ekzistis sociaj sciencistoj. Kio ŝanĝis, tamen, estas ciferecigo, kio faris ĝin draste pli facila por registaroj kolekti, transdoni, stoki kaj analizi datumojn. Ekzemple, en ĉi tiu ĉapitro, mi diros al vi pri studo, kiu reprenis datumojn de la ciferecaj taksometroj de Novjorko, por trakti fundamentan debaton en laborekonomio (Farber 2015) . Poste, en postaj ĉapitroj, mi diros al vi pri kiel registaraj kolektitaj balotaj rekordoj uzis en enketo (Ansolabehere and Hersh 2012) kaj eksperimento (Bond et al. 2012) .
Mi pensas, ke la ideo de repuriĝi estas fundamenta por lerni de grandaj datumaj fontoj, kaj tiel, antaŭ paroli pli specife pri la propraĵoj de grandaj datumoj (sekcio 2.3) kaj kiel tiuj povas esti uzataj en esplorado (sekcio 2.4), mi ŝatus por proponi du pecojn de ĝenerala konsilo pri repurigo. Unue, ĝi povas tenti pensi pri la kontrasto, kiun mi starigis inter datumoj de "trovita" kaj "desegnita". Tio estas proksima, sed ĝi ne tute pravas. Tamen, de la perspektivo de esploristoj, grandaj datumaj fontoj estas "trovitaj", ili ne nur falas de la ĉielo. Anstataŭe, datumaj fontoj, kiuj estas "trovitaj" de esploristoj, estas desegnitaj de iu por iu celo. Ĉar "trovitaj" datumoj estas desegnitaj de iu, mi ĉiam rekomendas, ke vi provu kompreni kiel eble plej multe pri la homoj kaj procezoj, kiuj kreis vian datumon. Due, kiam vi reposas datumojn, ofte estas tre utila imagi la idean datumeton por via problemo kaj poste kompari tiun idean datumeton kun tiu, kiun vi uzas. Se vi ne kolektis viajn datumojn mem, probable estas gravaj diferencoj inter tio, kion vi volas kaj kion vi havas. Rimarkinte ĉi tiujn diferencojn helpos klarigi kion vi povas kaj ne povas lerni de la datumoj, kiujn vi havas, kaj eble sugesti novajn datumojn, kiujn vi devus kolekti.
En mia sperto, sociaj sciencistoj kaj datumaj scienculoj inklinas alproksimiĝi al repuriĝi tre malsame. Sociaj sciencistoj, kiuj kutimas labori kun datumoj desegnitaj por esplorado, estas kutime rapide rimarki la problemojn kun repurpitaj datumoj dum ignorante ĝiajn fortojn. Aliflanke, sciencistoj de datumoj tipe rapide rimarkas la avantaĝojn de repurpitaj datumoj, ignorante ĝiajn malfortojn. Nature, la plej bona aliro estas híbrido. Tio estas, esploristoj bezonas kompreni la karakterizaĵojn de grandaj datumaj fontoj - tiel bonaj kaj malbonaj - kaj poste ekscii kiel lerni de ili. Kaj, tio estas la plano por la resto de ĉi tiu ĉapitro. En la sekva sekcio mi priskribos dek komunajn trajtojn de grandaj datumaj fontoj. Tiam, en la sekva sekcio, mi priskribos tri esploradajn alirojn, kiuj bone funkcios kun tiaj datumoj.