Том хэмжээний өгөгдлүүд нь компаниуд, засгийн газруудаас судалгаа хийхээс өөр зориулалтаар цуглуулж, цуглуулдаг. Тиймээс энэхүү өгөгдлийг ашиглан судалгаа хийх нь дахин тэлэхийг шаарддаг.
Олон тооны хүмүүс дижитал судалгаагаар нийгмийн судалгаа хийдэг анхны арга нь их хэмжээний өгөгдөл гэж нэрлэдэг. Энэ нэр томъёог өргөнөөр хэрэглэдэг хэдий ч том хэмжээний өгөгдөл ямар ч зөвшилцөлд хүрдэггүй. Гэсэн хэдий ч том мэдээллийн хамгийн түгээмэл тодорхойлолтуудын нэг нь "3 Vs" дээр анхаарлаа төвлөрүүлдэг: Боть, Variety, and Velocity. Барагцаатай, олон төрлийн форматтай, олон тооны өгөгдөл байдаг бөгөөд байнга бүтээгдэж байдаг. Том мэдээллийн дийлэнх фэнүүд нь Veracity ба Value зэрэг бусад "Vs" -г нэмдэг бол зарим шүүмжлэгчид Vague болон Vacuous зэрэг Vs-ийг нэмдэг. 3 "Vs" (эсвэл 5 "Vs" эсвэл 7 "Vs" гэхээсээ илүүтэйгээр нийгмийн судалгаа хийх зорилгоор 5 "Ws" бол: Хэн, юу, хаана, хэзээ , яагаад. Үнэн хэрэгтээ том хэмжээний эх сурвалжаас үүссэн олон сорилт бэрхшээл, боломжууд нь зөвхөн нэг "W" -аас дагаж байдаг гэж би боддог.
Аналитик үеийн туршид нийгмийн судалгаанд ашигласан ихэнх өгөгдлийг судалгааны зорилгын үүднээс бий болгосон. Тоон эрт үед компаниуд, засгийн газрууд үйлчилгээг үзүүлэх, орлого олох, хуулийг хэрэгжүүлэх зэрэг судалгааны зорилгоос өөр зориулалтаар их хэмжээний мэдээлэл боловсруулдаг. Бүтээлч хүн, гэхдээ та судалгааны энэ компанийн болон Засгийн газрын мэдээллийг repurpose болно гэдгийг ойлгосон байна. 1-р бүлэгт багтсан урлагийн дүр төрхийг эргэцүүлэн бодоход, Duchamp урлагийг үүсгэхэд олдсон объектыг үгүйсгэхийн зэрэгцээ эрдэмтэд одоо байгаа өгөгдлүүдийг судалгаа шинжилгээг үүсгэх болно.
Туршилтыг хийхэд асар их боломжийг олгож байгаа хэдий ч судалгааны зорилгоор бүтээгдээгүй өгөгдлийг ашиглан шинэ сорилтуудыг бий болгодог. Жишээ нь, нийгмийн мэдээллийн хэрэгсэл, тухайлбал Твиттер гэх мэт нийгмийн олон нийтийн санал асуулгын судалгаагаар Нийгмийн ерөнхий судалгаа зэрэг харьцуул. Twitter-ийн гол зорилго нь хэрэглэгчдэд үйлчилгээ үзүүлэх, ашиг олох зорилготой юм. Нөгөө талаар нийгмийн ерөнхий судалгаа нь нийгмийн судалгаа, ялангуяа олон нийтийн санаа бодлын судалгааны ерөнхий зорилгыг бий болгоход чиглэгддэг. Энэхүү зорилгын ялгаа нь Твиттер болон Нийтийн Нийгмийн Судалгааны бүтээсэн өгөгдлүүд нь олон нийтийн үзэл бодлыг судлахад ашиглаж болох боловч янз бүрийн шинж чанаруудтай байдаг гэсэн үг юм. Твиттер нь Нийгмийн Нийгмийн Судалгааны ажилд тохирохгүй, хурдтай ажиллах чадвартай боловч Нийгмийн Нөөцийн Судалгаанаас ялгаатай нь, Твиттер хэрэглэгчдийн анхаарлыг төдийлөн анхаардаггүй, цаг хугацааны явцад харьцуулалтыг хангахын тулд шаргуу ажилладаггүй. Яагаад гэвэл эдгээр хоёр мэдээллийн эх сурвалж өөр өөр байдаг учраас Нийгмийн ерөнхий судалгаа нь Twitter эсвэл үүнээс эсрэг гэж хэлэх нь утгагүй юм. Хэрэв та дэлхийн цаг уурын цагийг хэмжихийг хүсч байгаа бол (жишээлбэл, Golder and Macy (2011) ), Twitter хамгийн шилдэг нь. Нөгөөтэйгүүр АНУ-ын хандлага ( DiMaggio, Evans, and Bryson (1996) урт хугацааны өөрчлөлтүүдийг ойлгохыг хүсч байвал Нийгмийн ерөнхий судалгаа нь хамгийн сайн сонголт юм. Ерєнхийдєє, том мэдээллийн эх сурвалж бусад тєрлийн єгєгдлїїдээс илїї буюу муу гэж хэлэхийг оролдохын оронд энэ бїлэг ямар тєрлийн судалгааны асуултын асуултын том эх сурвалж нь сонирхолтой шинж чанартай байдаг, ямар тєрлийн асуултууд байхгїй байгааг тодруулахыг хичээх болно. тохиромжтой.
Мэдээллийн том эх сурвалжийн талаар бодох үед олон судлаачид хайлтын системийн бүртгэл, нийгмийн мэдээллийн хуудас зэрэг компаний үүсгэсэн, цуглуулсан онлайн өгөгдлүүдэд шууд анхаарлаа хандуулдаг. Гэсэн хэдий ч энэхүү нарийн төвлөрөл нь томоохон өгөгдлүүдийн хоёр чухал эх сурвалжийг орхигдуулдаг. Нэгдүгээрт, корпорацийн мэдээллийн томоохон эх сурвалжууд нь физик ертөнцөд дижитал төхөөрөмжүүдээс гардаг. Жишээ нь, энэ бүлэгт ажилчдын бүтээмж нь түүний үе тэнгийнхний бүтээмжид хэрхэн нөлөөлж байгааг судлахын тулд супермаркет шалгах хуудсын мэдээллийг судалж үзье. (Mas and Moretti 2009) . Дараа нь дараагийн бүлгүүдэд би утаснуудаас (Blumenstock, Cadamuro, and On 2015) утасны дуудлага хийдэг ашигласан судлаачдын тухай ярих болно. Мөн цахилгаан хэрэгслээр үүсгэгдсэн төлбөр тооцооны мэдээлэл (Allcott 2015) . Эдгээр жишээнүүдээс харахад, байгууллагын том мэдээллийн эх сурвалж нь зөвхөн онлайн зан авираас илүү чухал зүйл юм.
Онлайн зан төлөвт онлайнаар анхаарал хандуулах нь томоохон өгөгдлийн хоёр дахь эх сурвалж бол засгийн газруудын бий болгосон өгөгдөл юм. Эдгээр засгийн газрын мэдээгээр засаг захиргааны баримтууд гэж нэрлэгддэг засгийн газрын мэдээллийг татварын тайлан, сургуулийн бүртгэл, амин чухал статистикийн бүртгэл (тухайлбал төрөлт ба нас баралтын бүртгэл) гэх мэт зүйлс оруулдаг. Засгийн газрууд зарим тохиолдолд хэдэн зуун жилийн туршид нийгмийн шинжлэх ухааны судлаачид, нийгмийн эрдэмтэн судлаачид энэ төрлийн мэдээллийг ашиглаж байна. Гэсэн хэдий ч, энэ нь цахимжуулалт юм. Энэ нь засгийн газрууд мэдээллийг цуглуулах, дамжуулах, хадгалах, дүн шинжилгээ хийхэд маш хялбараар хийсэн юм. Жишээ нь, энэ бүлэгт Нью-Йорк хотын засгийн газрын тоон таксигаар хэмжигддэг өгөгдлүүдийг хөдөлмөрийн эдийн засгийн суурь маргааныг шийдвэрлэхийн тулд өгөгдлөө өгнө үү (Farber 2015) . Дараа нь дараагийн бүлгүүдэд би санал асуулгын явцад засгийн газраас санал хураалтын бүртгэлийг хэрхэн цуглуулсан тухай (Ansolabehere and Hersh 2012) туршилт, (Bond et al. 2012) .
Нөхөн сэргээх санаа нь их хэмжээний мэдээллийн эх сурвалжаас суралцах үндсэн суурь болж өгдөг, тиймээс том хэмжээний мэдээллийн эх сурвалжуудын талаар илүү тодорхой ярихаас өмнө (хэсэг 2.3), тэдгээрийг хэрхэн судлах (2.4-р хэсэг) -ийг хэрхэн ашиглах талаар ярилцахаасаа өмнө би хүсч байна дахин тэтгэх талаархи хоёр ерөнхий зөвлөмжийг санал болгох. Нэгдүгээрт, би "олсон" өгөгдөл болон "боловсруулсан" өгөгдлүүдийн хоорондох ялгаатай байдлын талаар бодохыг хичээж байна. Энэ нь ойрхон боловч энэ нь тийм ч зөв биш юм. Хэдийгээр судлаачдын үзэж байгаагаар том мэдээллийн эх сурвалж "олддог" боловч тэд зөвхөн тэнгэрээс унадаггүй. Харин оронд нь судлаачдын "олсон" өгөгдлийн эх сурвалжийг хэн нэгэнд зориулан боловсруулсан байдаг. "Олсон" өгөгдөл хэн нэгнээр боловсруулсан учраас бид таны өгөгдлийг үүсгэсэн процессууд болон хүмүүсийн талаар аль болох ихийг ойлгохыг хичээдэг. Хоёрдугаарт, та өгөгдлийг төөрөгдүүлэх үед таны асуудлын хамгийн тохиромжтой өгөгдлийн санг төсөөлөхөд туйлын тустай бөгөөд хамгийн тохиромжтой өгөгдлийн санг ашиглаж байгаа тэртэйгээ харьцуулаарай. Хэрэв та өөрийнхөө өгөгдлийг цуглуулаагүй бол юу хүсч байгаагаа болон таны байгаа зүйлсийн хооронд чухал ялгаа байна. Эдгээр ялгааг анзаарах нь таны юу чадахыг тодорхойлж, таны өгөгдлөөс сурч чадахгүй бөгөөд таны цуглуулах ёстой шинэ мэдээллийг санал болгох болно.
Миний туршлагаас харахад нийгмийн эрдэмтэд, мэдээллийн эрдэмтэд маш их ялгаатай байдаг. Судалгаанд зориулж боловсруулсан өгөгдөлтэй ажиллахад дасдаг нийгмийн судлаачид ихэвчлэн хүч чадлаа үл тоомсорлож байхдаа алдаатай өгөгдөлтэй холбоотой асуудлуудыг голчлон зааж өгдөг. Нөгөө талаас, өгөгдлийн эрдэмтэд сул талыг үл тоомсорлож, алдаа дутагдлын өгөгдлүүдийн талаархи өгүүлэмжийг хурдан тайлбарлаж чаддаг. Мэдээжийн хэрэг, хамгийн сайн арга бол эрлийз юм. Өөрөөр хэлбэл, судлаачид мэдээллийн том эх сурвалжийн шинж чанарыг сайн, муу аль аль нь ойлгох хэрэгтэй. Энэ бол энэ бүлгийн үлдсэн хэсгийн төлөвлөгөө юм. Дараагийн хэсэгт би том мэдээллийн эх сурвалжуудын нийтлэг шинжийг тодорхойлно. Дараачийн хэсэгт би эдгээр өгөгдлүүдтэй ажиллах боломжтой судалгааны гурван аргыг танилцуулна.