Том өгөгдлийн сан төгсгөл арга хэрэгсэл юм; тэд өөрсдийнхөө нь төгсгөл биш юм.
Том мэдээллийн эх сурвалжуудын хамгийн өргөн тархсан шинж чанар нь тэдгээр нь БИД байна. Жишээлбэл, олон тооны баримт бичгүүдийг хэлэлцэж эхэлснээс эхлээд хэр их мэдээлэл хийдэг талаар ярилцаж эхэлдэг. Жишээ нь, Google Books корпус дахь үг нь хэрэглээний чиг хандлагыг судлах шинжлэх ухааны онд хэвлэгдсэн цаасан дараах оруулах (Michel et al. 2011) :
"[Бидний] корпус нь 500 тэрбум үгтэй, англи хэлээр (361 тэрбум), франц хэл (45 тэрбум), испани (45 тэрбум), герман (37 тэрбум), хятад (13 тэрбум), орос (35 тэрбум) (2 тэрбум). Хамгийн эртний бүтээлүүд 1500-аад онд хэвлэгдсэн. Хэдэн арван мянган жилийн эхэнд хэдэн цөөн хэдэн ном бичигдсэн байдаг. 1800 он гэхэд корпус нь жилд 98 сая үг хэлдэг; 1900 он гэхэд 1.8 тэрбум; 2000 он гэхэд 11 тэрбум. Корпусыг хүнээр уншиж болохгүй. Хэрвээ та зөвхөн 2000 англи хэлээр бичсэн бичлэгийг уншихыг хүсвэл 200 үг / мин хэмээх үнээр ойролцоогоор 200 үг / мин, хоол хүнс эсвэл унтах тасалдалгүйгээр 80 жил шаардагдах болно. Хүснэгтийн дараалал нь хүний геномээс 1000 дахин их байдаг. Хэрэв та үүнийг шулуун шугамаар бичсэн бол энэ нь сар руу хүрэх ба 10 дахин давах болно. "
Энэ өгөгдлийн цар хүрээ нь үнэхээр гайхамшигтай бөгөөд Google Номын баг эдгээр өгөгдлийг олон нийтэд хүргэсэн нь үнэхээр азтай хэрэг юм (үнэндээ, энэ бүлгийн төгсгөлд зарим үйл ажиллагаа энэ өгөгдлийг ашигладаг). Гэхдээ та иймэрхүү зүйлийг харах бүрдээ: Энэ бүх өгөгдөл үнэхээр юу ч хийж байна уу? Өгөгдөл сар руу хүрч очоод нэг л удаа буцаж ирвэл ижил судалгааг хийсэн байж болох уу? Хэрэв энэ мэдээлэл Эверестийн оргил эсвэл Эйфелийн цамхгийн оройд хүрч чадах уу?
Энэ тохиолдолд тэдний судалгаа нь үнэндээ урт хугацааны туршид асар том корпусын үг шаарддаг зарим дүгнэлтүүдтэй байдаг. Жишээлбэл, тэд дүрмээ хөгжүүлж буй нэг зүйл бол ялангуяа тогтмол бус үйл үгийн хувь хэмжээний өөрчлөлт юм. Зарим тогтворгүй үг хэллэг ховор байдаг тул их хэмжээний өгөгдөл цаг хугацааны явцад өөрчлөлтийг илрүүлэх шаардлагатай байдаг. Гэхдээ судлаачид их хэмжээний өгөгдлийн эх сурвалжийн хэмжээг эцсийн байдлаар нь авч үздэг. Жишээ нь "би хичнээн өгөгдлөө харцгаая" гэдэг нь шинжлэх ухааны илүү чухал зорилтоос арай илүү арга юм.
Миний туршлагаас, ховор тохиолдолуудын судалгаа нь том мэдээллийн санг идэвхжүүлдэг гурван шинжлэх ухааны төгсгөлийн нэг юм. Хоёрдугаарт, олон янзын шинж чанарыг судлахын зэрэгцээ Раж Четти болон бусад хамт олон (2014) АНУ-ын нийгмийн хөдөлгөөнт байдлын талаархи судалгаанаас харж болно. Өнгөрсөн хугацаанд олон судлаачид эцэг эх, хүүхдүүдийн амьдралын үр дагаврыг харьцуулан нийгмийн хөдөлгөөнийг судалсан. Энэхїї зохиолоос байнгын дїгнэлт бол давуу талуудтай эцэг эхчїїд давуу эрхтэй хїїхэдтэй байдаг боловч энэ харилцааны хїч чадал цаг хугацааны хувьд болон улс орнуудад янз бїр байдаг (Hout and DiPrete 2006) . Гэхдээ саяхан Четти болон бусад хамт олон АНУ-ын бүс нутгуудаар дамжин олон улсын хэмжээнд хөдөлгөөнд оролцож буй олон янз байдлын хөдөлгөөнийг тооцоолохын тулд 40 сая хүнээс татварын тайлан бүртгэлийг ашиглаж чадсан юм (Зураг 2.1). Жишээлбэл, доод түвшний гэр бүлээс эхлээд үндэсний орлогын хуваарилалтын тоон хязгаарт хүрч байгаа хүүхэд Калифорни муж улсын Сан-Хосе хотод 13% орчим байдаг бол Хойд Каролина муж улсын Шарлотт хотод ойролцоогоор 4% байна. Хэрвээ та зураг 2.1-ыг харах юм бол зарим үед олон улсын шилжилт хөдөлгөөн яагаад бусдаас илүү өндөр байдаг вэ? Четти болон бусад хамт олон ижил төстэй асуултын хариулттай байсан бөгөөд өндөр хөдөлгөөнтэй газрууд нь орон сууцны тусгаарлалтыг багасгаж, орлогын тэгш бус байдал, бага сургуулиудын сайн сайхан байдал, нийгмийн илүү их хөрөнгө, гэр бүлийн тогтвортой байдал зэргийг харгалзан үзсэн байна. Мэдээжийн хэрэг эдгээр харилцан хамаарал нь эдгээр хүчин зүйлүүд нь илүү их хөдөлгөөнт байдлыг бий болгодог гэдгийг харуулж чадахгүй боловч цаашдын ажилд Чеци болон бусад хамтран ажиллагсдын хийж буй үйл ажиллагаа болох цаашдын ажилд судалгаа хийх боломжтой механизмыг санал болгож байна. Энэ төсөлд өгөгдөлийн хэмжээ хэр чухал байгааг хараарай. Хэрэв Четти болон түүний хамтран зүтгэгчид 40 сая хүнийг 40 саяас илүүг татварын тайлангаар нь ашигласан бол тэд бүс нутгийн олон янз байдлыг тооцоолох боломжгүй байсан бөгөөд энэ өөрчлөлтийг бий болгох механизмуудыг тодорхойлохын тулд дараагийн судалгааг хийх боломжгүй байлаа.
Эцэст нь, ховор тохиолдолд судлах, олон төрлийн шинжлэх ухааны судалгааг хийхээс гадна судлаачид жижиг ялгааг илрүүлэх боломжтой байдаг. Үнэн хэрэгтээ, томоохон хэмжээний өгөгдөлд гол анхаарлаа хандуулах нь эдгээр бага зэргийн ялгаануудын талаар ярих болно. Үүнд: 1% -иас 1.1% -иар зар сурталчилгааны үр дүнгийн зөрүүг олох нь илүү их орлоготой сая сая доллар болж хувирдаг. Зарим шинжлэх ухааны хувьд ийм жижиг ялгаа нь статистик ач холбогдолтой байсан ч чухал ач холбогдолтой биш (Prentice and Miller 1992) . Гэхдээ зарим бодлогын нөхцөлд эдгээр нь нэгтгэн харвал чухал болж болно. Жишээлбэл, нийгмийн эрүүл мэндийн хоёр үйл ажиллагаа байдаг бөгөөд нэг нь нөгөөгөөсөө арай илүү үр дүнтэй бол илүү үр дүнтэй арга хэрэглэх нь олон мянган хүний амь насыг аварч чадна.
Хэдийгээр дарангуйлал нь ерөнхийдөө зөв ашиглагддаг хэдий ч заримдаа контент алдаанд хүргэж болохыг анзаарсан. Зарим шалтгааны улмаас эрх мэдэл нь тэдний өгөгдөл хэрхэн бий болсоныг үл тоомсорлодог. Хэдийгээр дарангуйлал нь санамсаргүй алдааны талаар санаа зовох шаардлагагүй болгодог боловч энэ нь системтэй алдаануудын талаар санаа зовох хэрэгцээ улам бүр нэмэгддэг боловч өгөгдлүүд хэрхэн үүсдэг талаар өгүүлэмжийн алдаанаас үүдэлтэй алдаануудын төрлүүд юм. Жишээлбэл, төслийн хүрээнд би энэ бүлгийг сүүлд нь тайлбарлах болно. Судлаачид 2001 оны 9-р сарын 11-нд террорист халдлагад хариу үйлдэл үзүүлэх өндөр мэдрэмжтэй цаг хугацаа (Back, Küfner, and Egloff 2010) . Судлаачид олон тооны мессеж бичиж байсан тул өдрийн ажигласнаар уурлаж буй хэв маяг нь өөрчлөгдөж байгаа эсэх талаар санаа зовох хэрэггүй юм. Энэ нь санамсаргүй өөрчлөлтөөр тайлбарлаж болох юм. Үүнд маш их мэдээлэл байсан бөгөөд статистик статистикийн туршилтууд нь энэ нь жинхэнэ загвар байсан гэж үзсэн тул загвар нь маш тодорхой болсон. Гэхдээ эдгээр статистикийн туршилтууд нь өгөгдөл хэрхэн бий болсон талаар үл мэднэ. Үнэн хэрэгтээ, олон загвар нь өдөр бүр илүү утгагүй, илүү утгагүй мессежийг бий болгосон ганц боттой холбоотой байв. Энэ ботийг устгаснаар цаасан дээрх зарим гол ололтуудыг устгасан (Pury 2011; Back, Küfner, and Egloff 2011) . Ердөө л системтэйгээр алдаа гаргасан судлаачид автомат мэдээллийн баазаас үүссэн утгагүй мэдээний сэтгэл хөдлөлийн агуулга гэх мэт чухал ач холбогдолгүй тоо хэмжээг нарийн тооцоолохын тулд өөрсдийн том мэдээллийн санг ашиглах эрсдэлтэй тулгардаг.
Эцэст нь хэлэхэд, томоохон өгөгдлийн сан нь өөрөө төгсгөл биш, гэхдээ ховор тохиолдол, олон янз байдлын ялгаа, жижиг ялгааг илрүүлэх зэрэг зарим төрлийн судалгаа хийх боломжтой байдаг. Том хэмжээний өгөгдөлүүд нь зарим судлаачид тэдний өгөгдөл хэрхэн үүссэнийг үл тоомсорлодог бөгөөд энэ нь чухал биш тоон утгыг нарийн тооцоолоход хүргэдэг.