Tá foinsí sonraí móra i ngach áit, ach is féidir a bheith deacair iad a úsáid le haghaidh taighde sóisialta. I mo thaithí, tá rud éigin cosúil le riail "gan lón saor in aisce" le haghaidh sonraí: mura gcuireann tú go leor oibre á bhailiú, ansin is dócha go gcaithfidh tú a lán oibre a dhéanamh agus smaoineamh air agus anailís a dhéanamh air.
Beidh 10 saintréith ag na foinsí móra sonraí sa lá atá inniu ann - agus is dóichí amárach. Go ginearálta, tá trí cinn acu seo (ach ní i gcónaí) cabhrach le haghaidh taighde: mór, i gcónaí, agus neamhghníomhach. Go ginearálta, tá seacht fadhbanna (ach ní i gcónaí) le haghaidh taighde: neamhiomlán, inaccessible, neamh-léiritheach, drifting, algorithmically confounded, salach, agus íogair. Tagann cuid mhaith de na saintréithe seo chun cinn sa deireadh thiar toisc nach raibh foinsí sonraí móra cruthaithe chun críocha taighde sóisialta.
Bunaithe ar na smaointe sa chaibidil seo, is dóigh liom go bhfuil trí phríomhbhealach ann go mbeidh foinsí sonraí mór an-luachmhar i gcomhair taighde sóisialta. Gcéad dul síos, is féidir leo a chumasú do thaighdeoirí cinneadh a dhéanamh idir tuartha teoiriciúil iomaíochta. I measc na samplaí den chineál seo oibre tá Farber (2015) (New Taxi Taxi drivers) agus King, Pan, and Roberts (2013) (cinsireacht sa tSín). Sa dara háit, is féidir le foinsí sonraí móra tomhas feabhsaithe do bheartas a chothú trí chraoladh anois. Sampla den chineál oibre seo ná Ginsberg et al. (2009) (Google Flu Trends). Ar deireadh, is féidir le foinsí sonraí móra cabhrú le taighdeoirí meastacháin chúiseacha a dhéanamh gan turgnaimh a reáchtáil. Samplaí den chineál oibre seo ná Mas and Moretti (2009) (éifeachtaí piaraí ar tháirgiúlacht) agus Einav et al. (2015) (éifeacht ar phraghas ag tosú ar cheantanna ag eBay). Tá sé mar aidhm ag gach ceann de na cur chuige seo, áfach, go dtabharfadh taighdeoirí go leor leis na sonraí, amhail an sainmhíniú ar chainníocht atá tábhachtach chun meastachán nó dhá theoiric a dhéanamh a dhéanann tuar iomaíochta. Dá bhrí sin, is dóigh liom gurb é an bealach is fearr chun smaoineamh ar na foinse sonraí móra atá ann ná gur féidir leo cabhrú le taighdeoirí ar féidir leo ceisteanna suimiúla agus tábhachtacha a iarraidh.
Sula gcuirfear i gcrích é, is dóigh liom gur fiú smaoineamh gur féidir go mbeadh éifeacht thábhachtach ag foinsí sonraí mór ar an gcaidreamh idir sonraí agus teoiric. Go dtí seo, ghlac an chaibidil seo leis an gcur chuige a bhaineann le taighde eimpíreach atá tiomáinte ag teoiric. Ach cuireann foinsí sonraí mór ar chumas taighdeoirí teoiriciú a thiomáint go hintíreach . Is é sin, trí bhailiú cúramach fíricí, patrúin agus puzzles eimpíreach, is féidir le taighdeoirí teoiricí nua a thógáil. Níl an cur chuige malartach seo ar an gcéad dul síos ar theoiric nua, agus ba é Barney Glaser agus Anselm Strauss (1967) a bhí in iúl go forleathan leis an teoiric atá bunaithe orthu . Ní thugann an cur chuige seo ar an gcéad dul síos, áfach, "deireadh na teoirice", mar a éilíodh i roinnt den iriseoireacht maidir le taighde san aois dhigiteach (Anderson 2008) . Ina ionad sin, de réir mar a athraíonn an timpeallacht sonraí, ba cheart dúinn a bheith ag súil le hathchothromú sa chaidreamh idir sonraí agus teoiric. I saol ina raibh bailiú sonraí costasach, rinne sé ciall na sonraí a bhailiú go teoiricí amháin a bhailiú ach amháin. Ach, i saol ina bhfuil suimeanna ollmhór sonraí ar fáil cheana féin saor in aisce, tá sé ciallmhar freisin iarracht a dhéanamh ar an gcéad dul chuige (Goldberg 2015) .
Mar a thaispeáin mé sa chaibidil seo, is féidir le taighdeoirí a lán foghlaim trí dhaoine a fheiceáil. Sna trí chaibidil seo chugainn, cuirfidh mé síos ar conas is féidir linn níos mó agus rudaí difriúla a fhoghlaim má dhéanaimid ár mbailiúchán sonraí a oiriúnú agus go ndéanfaimid idirghníomhú le daoine níos mó trí cheisteanna a chur orthu (caibidil 3), ag rith turgnaimh (caibidil 4), agus fiú iad a bheith rannpháirteach sa phróiseas taighde go díreach (caibidil 5).