Vyanzo vya data kubwa ni kila mahali, lakini kutumia kwa ajili ya utafiti wa jamii inaweza kuwa ngumu. Katika uzoefu wangu, kuna kitu kama "utawala wa bure wa chakula cha mchana" utawala wa data: ikiwa hujiweka katika kazi nyingi za kukusanya, basi huenda utaweka kazi nyingi kufikiri juu yake na kuchambua.
Vyanzo vya data kubwa vya leo-na uwezekano wa kesho-huwa na sifa 10. Tatu kati ya hizi kwa kawaida (lakini si mara zote) zinafaa kwa ajili ya utafiti: kubwa, daima, na yasiyo ya kufanya kazi. Saba kwa ujumla (lakini sio daima) tatizo kwa utafiti: haijakamilika, haiwezekani, haijawakilisha, imesababisha, imetoshehewa, imetayarisha, na ni nyeti. Mengi ya sifa hizi hatimaye hutokea kwa sababu vyanzo vingi vya data havikuundwa kwa ajili ya utafiti wa kijamii.
Kulingana na mawazo katika sura hii, nadhani kuwa kuna njia tatu kuu ambazo vyanzo vya data kubwa vitakuwa vya thamani zaidi kwa utafiti wa kijamii. Kwanza, wanaweza kuwawezesha watafiti kuamua kati ya utabiri wa mashindano ya kinadharia. Mifano ya kazi hii ni pamoja na Farber (2015) (Madereva ya Taxi ya New York) na King, Pan, and Roberts (2013) (udhibiti nchini China). Pili, vyanzo vingi vya data vinaweza kuwezesha uboreshaji bora wa sera kupitia njia ya sasa. Mfano wa kazi hii ni Ginsberg et al. (2009) (Mwelekeo wa Google Flu). Hatimaye, vyanzo vingi vya data vinaweza kusaidia watafiti kufanya makadirio ya causal bila majaribio ya kukimbia. Mifano ya aina hii ya kazi ni Mas and Moretti (2009) (madhara ya rika juu ya uzalishaji) na Einav et al. (2015) (athari ya bei ya kuanza kwenye minada katika eBay). Hata hivyo, kila mbinu hizi huelekea watafiti wataleta data nyingi, kama vile ufafanuzi wa kiasi ambacho ni muhimu kukadiria au nadharia mbili zinazofanya utabiri wa mashindano. Kwa hivyo, nadhani njia bora ya kufikiri kuhusu vyanzo vikuu vya data vinavyoweza kufanya ni kwamba wanaweza kusaidia watafiti ambao wanaweza kuuliza maswali ya kuvutia na muhimu.
Kabla ya kumalizia, nadhani ni muhimu kuzingatia kwamba vyanzo vingi vya data vinaweza kuwa na athari muhimu katika uhusiano kati ya data na nadharia. Hadi sasa, sura hii imechukua njia ya utafiti wa uongozi unaoendeshwa na nadharia. Lakini vyanzo vingi vya data pia huwawezesha watafiti kufanya uendeshaji wa uongozi wa kimaguzi . Hiyo ni kwa njia ya kujilimbikizia makini ukweli, maelekezo, na puzzles, watafiti wanaweza kujenga nadharia mpya. Njia hii mbadala, mbinu ya kwanza ya nadharia sio mpya, na ilikuwa imetambulishwa kwa nguvu na Barney Glaser na Anselm Strauss (1967) na wito wao wa nadharia iliyosimama . Njia hii ya kwanza ya data, hata hivyo, haina maana "mwisho wa nadharia," kama ilivyodaiwa katika baadhi ya uandishi wa habari karibu na utafiti katika umri wa digital (Anderson 2008) . Badala yake, kama hali ya data inabadilika, tunapaswa kutarajia uchanganuzi wa uhusiano kati ya data na nadharia. Katika ulimwengu ambapo ukusanyaji wa data ulikuwa wa gharama kubwa, ilikuwa ni busara kukusanya tu data ambayo nadharia zinaonyesha zitakuwa muhimu zaidi. Lakini, katika ulimwengu ambako data nyingi tayari zimepatikana kwa bure, ni busara pia kujaribu njia ya kwanza ya data (Goldberg 2015) .
Kama nilivyoonyeshwa katika sura hii, watafiti wanaweza kujifunza mengi kwa kuangalia watu. Katika sura tatu zifuatazo, nitaelezea jinsi tunaweza kujifunza mambo mengi na tofauti ikiwa tunalenga ukusanyaji wetu wa data na kuingiliana na watu zaidi kwa kuuliza maswali (sura ya 3), kukimbia majaribio (sura ya 4), na hata kuwashirikisha katika mchakato wa utafiti moja kwa moja (sura ya 5).