2.3.1.1 Big

Том өгөгдлийн сан төгсгөл арга хэрэгсэл юм; тэд өөрсдийнхөө нь төгсгөл биш юм.

Том мэдээллийн гурван сайн шинж чанарыг анх удаа хамгийн их хэлэлцсэн байна: Эдгээр том мэдээлэл байна. олон хүн, нэг хүнд ногдох мэдээллийн олон, эсвэл цаг хугацааны явцад олон ажиглалт: Эдгээр мэдээллийн эх сурвалж гурван өөр замаар том байж болно. том мэдээллийн санг байх, эрдэм шинжилгээний хэмжих нэгэн төрлийн зарим тодорхой төрлийн идэвхжүүлдэг, ховор үйл явдал суралцаж жижиг ялгааг илрүүлэх, болон ажиглалтын мэдээ нь учир шалтгааны тооцоог гаргах. Энэ нь бас sloppiness нь тодорхой төрлийн хүргэж байна.

хэмжээ, ялангуяа ашигтай байдаг бөгөөд хамгийн эхний зүйл тодорхой дэд хувьд тооцоолол хийж дундаж цааш хөдөлж байна. Жишээ нь, Гари хаан, Женнифер Пан болон Molly Робертс (2013) Хятад дахь нийгмийн хэвлэл мэдээллийн бичлэгүүд Засгийн газар хянаж байх болно магадлалыг хэмжинэ. өөрөө устгах энэ дундаж магадлал Засгийн газар яагаад зарим нэг бичлэгүүдийг биш харин зарим нь хатуу хянаж байна ойлгоход маш их ашиг тустай биш юм. Гэвч тэдний олонлогийн 11 сая бичлэгүүдийг орсон, учир нь хаан болон түүний хамтрагчид нь мөн 85 нь тусдаа ангилал (жишээ нь, порнограф, Төвд, Бээжин дэх Замын) дээр бичлэг нь хяналт магадлал нь тооцоог гаргасан. өөр өөр ангилалд бичлэг нь цензурын магадлалыг харьцуулан тэд засгийн газрын албан тушаалын тодорхой төрлийн хэрхэн, яагаад хатуу хянаж талаар илүү ойлгож чадсан юм. 11 мянган бичлэг (11 сая илүү бичлэг) нь тэдгээр зэрэг тодорхой тооцоо гаргах боломжгүй байсан биз ээ.

Хоёрдугаарт, хэмжээ нь ховор үйл явдлын судалж байгаа нь ялангуяа ашигтай байдаг. Жишээ нь, Goel болон түүний хамтрагчид (2015) нийттэй харилцах вируст явж болно янз бүрийн арга замыг судлах хүссэн юм. дахин твиттэрийн том хамарч маш их нь нэг ховор гэж байгаа учраас 3000-тэд шинжилгээнд хангалттай том хүрхрээ олохын тулд нэг тэрбум гаруй жиргээ судлах хэрэгтэй.

Гуравдугаарт, том өгөгдлийн сан нь жижиг ялгааг илрүүлэх судлаачдад олгодог. Үнэндээ салбарт том өгөгдөл дээр анхаарах нь их эдгээр жижиг ялгаа тухай: найдвартай нэмэлт орлого сая ам.доллар болгон орчуулж болно зар сурталчилгаан дээр 1%, 1.1% дарж дамжуулан хувь ялгааг илрүүлэх. Зарим нь шинжлэх ухааны орчинд, ийм жижиг ялгаа, ялангуяа чухал ач холбогдолтой байж болох юм (тэдгээр нь статистик ач холбогдолтой ч гэсэн). Гэвч зарим бодлогын орчинд, тухайлбал жижиг ялгаа нь чухал ач холбогдолтой нийлбэр нь үзэх үед болж чадна. Жишээ нь, хэрэв тэнд хоёр нийгмийн эрүүл мэндийн арга хэмжээ, нэг нь өөр арай илүү үр дүнтэй, дараа нь илүү үр дүнтэй оролцох нэмэлт амьдралд олон мянган хадгаламж дуусна болох нь шилжих юм.

Эцэст нь хэлэхэд, их хэмжээний мэдээллийн багц их ажиглалтын мэдээ нь учир шалтгааны тооцоолол хийж бидний чадварыг дээшлүүлнэ. их хэмжээний өгөгдлийн сан үндсээр нь, ажиглалтын мэдээ нь учир шалтгааны дүгнэлт гаргах тохирох, байгалийн туршилт хоёр арга судлаачид ажиглалт нь учир шалтгааны нэхэмжлэл гаргах боловсруулсан байна өгөгдлийг-аль аль нь их том мэдээллийн бааз үр шимийг хүртэх нь асуудлыг өөрчилж чадахгүй байна боловч. Би тайлбарлаж, би судалгааны стратегийг тодорхойлох үед энэ бүлэгт илүү дэлгэрэнгүй энэхүү нэхэмжлэлийг харуулах болно.

bigness нь ерөнхийдөө зөв ашиглаж сайн өмч хэдий ч, би bigness нийтлэг тогтсон алдаа хүргэдэг гэдгийг анзаарсан байна. Ямар нэг шалтгаанаар, bigness тэдний өгөгдөл бий хэрхэн үл тоомсорлон судлаачдыг хүргэж байна. Bigness санамсаргүй алдааны талаар санаа зовох шаардлагагүй багасгах вэ боловч яг үнэндээ, би доор илүү тайлбарлах болно алдаа төрлийн өгөгдөл хэрхэн бий болгож, цуглуулж байгаа нь хэвийх үүссэн системтэй алдаа санаа зовох хэрэггүй нэмэгдүүлдэг. жижиг датасетийн, санамсаргүй алдаа, системтэй алдаа аль аль нь чухал ач холбогдолтой байж болох юм, гэхдээ том өгөгдлийн олонлогийн санамсаргүй алдаа хол дунджаар болох юм байх, системтэй алдаа давамгайлж байна. байнгын алдаа буруу зүйл нь нарийн тооцоо авахын тулд тэдний том мэдээллийн санг ашиглан дуусна тухай бодохгүй байна судлаачид, Тэд нарийн буруу байх болно (McFarland and McFarland 2015) .