Чоң топтому аяктай болуп саналат; алар өздөрү гана максат эмес.
чоң маалымат булактарынын кызуу талкууга өзгөчөлүгү, алар BIG болуп саналат. Көп гезиттер, мисалы, кээде алар талдоого канчалык маалыматтар-мактанбагыла жана талкуулоо менен башталат. Мисалы, Google Books корпусунда сөз пайдалануу багыттарын изилдеп, илим-жылы басылып чыккан бир кагаз төмөнкүлөр кирген (Michel et al. 2011) :
"[Биз] кылмыштын англис (361 миллиард доллар) менен 500 миллиард сөздөрү бар, French (45 миллиард доллар), испан (45 миллиард доллар), немис (37 миллиард доллар), Кытай (13 миллиард доллар), орус (35 миллиард доллар), жана Hebrew (2 миллиард доллар). улуу иштери 1500-жылы басылып чыккан. алгачкы он бир нече жүз сөздөрдү камтыган, жылына бир нече китептер түзөт. 1800-жылга, кылмыш жылына 98 млн сөздөрдү өсөт; 1900-жылдары 1,8 млрд доллар; жана 2000-жылга карата 11 млрд. корпус адам окуй албайт. Эгер тамак-аш, же таттуу уйкудан ойгонуп, үзгүлтүксүз, 200 сөздөрдүн / мин жүйөлүү темп, жылына бир гана 2000-жылы гана англис тилиндеги жазууларды окуп, аракет болсо, анда ал 80 жыл талап кылынмак. тамгалардын тизмеги Адам геномунун караганда 1000 эсе көбүрөөк болот: бир түз сызык менен аны жазган болсо, ай жана кайра ичинде 10 жолу чейин жетет ", -дейт ал.
Бул маалыматтар масштабдуу, албетте, таасир, биз Google Books тобу жалпыга маалымдоо үчүн бул маалыматтарды жарыялады (Чынында, бул бөлүмдүн аягында иш кээ бир маалыматтарды колдонуу) баары бактылуу болуп саналат. Бирок, сиз берип көрүшүбүз керек ушул сыяктуу бир нерсе көрүп сайын: баары чындыгында бир нерсе кылып жатат? маалыматтарды кайра бир гана жолу Айга чейин жетет жана мүмкүн болсо, ошол эле изилдөө кылсам болмок беле? маалыматтарды гана тоосунун Everest чокусуна же Eiffel мунарасынын чокусуна жете турган болсо эмне?
Бул учурда алардын илимий-изилдөө, чындыгында, узак мезгил бою сөз зор Корпус-талап айрым жыйынтыктарын бар. Мисалы, бир жерде, айрыкча, туура эмес этиш жактоонун курсунун өзгөрүп, тил эволюция экенин изилдөө. кээ бир этиштер өтө сейрек болгондуктан, маалыматтардын бир ири өлчөмдөгү убакыттын өтүшү өзгөрүүлөрдү аныктоо үчүн зарыл болуп саналат. Өтө көп, бирок, изилдөөчүлөр бир жыгач сыяктуу ири маалымат булагынын өлчөмүн мамиле көрүнгөн кээ бир маанилүү илимий максаттарына каражаты -rather "Мен шакылдатып канча маалыматтарды карап".
Менин тажрыйбасы сейрек окуяларды изилдөө чоң топтому иштетүү үчүн, адатта, үч белгилүү илимий-кыйырына бири болуп саналат. Радж Chetty жана кесиптештери менен изилдеп көрүүгө болот эле экинчи, гетерогендүүлүк изилдөө болуп саналат (2014) Америка Кошмо Штаттарында коомдук кыймылдуулугуна. Мурда көптөгөн окумуштуулар ата-эне менен балдардын жашоосу жыйынтыктарын салыштыруу жолу менен коомдук мобилдүүлүгүн изилдеген. Бул адабият, бир ырааттуу тыянак пайдаланган ата пайдаланган балалуу болууга жакын экенин, бирок бул мамилелердин күчү убакыттын өтүшү менен өлкө боюнча ар кандай (Hout and DiPrete 2006) . Жакында эле, бирок, Chetty жана кесиптештери салык отчетун 40 миллион эли Кошмо Штаттарда аймактарында аралык кыймылдуулугун эместигин аныктоо (сүрөт 2.1) колдоно алышкан. Алар таап, мисалы, бала төмөнкү жашоонун бир үй-бүлө баштап улуттук киреше бөлүштүрүү жогорку жетиштүү жетет ыктымалдыгы Түндүк Каролинада Сан-Хосе, California-жылы 13%, ал эми болгону 4% деп. Эгер бир саамга 2.1 сүрөттө карап көрсөк, анда аралык мобилдүүлүк башкаларга караганда кээ бир жерлерде эмне себептен жогору экенин ойлоно башташы мүмкүн. Chetty жана кесиптештери да дал ушундай суроо бар эле, алар ошол жогорку мобилдүүлүк аймактар аз турак бөлүштүрүүнүн, аз киреше озин, жакшы башталгыч мектептерди, көбүрөөк коомдук борбор жана көп үй-бүлөлүк туруктуулук бар деп табылган. Албетте, бир гана бул катыштар бул жагдайлар жогорку мобилдүүлүккө алып көрсөткөн эмес, бирок алар Chetty жана кесиптештери кийинки иш кылган так болуп мүмкүн механизмдерин андан ары ишке изилдесе болот, сунуш кылышат. маалыматтардын көлөмү бул долбоорго абдан маанилүү экенин карап көрөлү. Chetty жана кесиптештер, тескерисинче, 40 млн 40 мин адамга салык эсебин колдонулган болсо, алар аймактык эместигин баа алышкан жана алар көп өзгөрбөйт түзүү механизмдерин аныктоого аракет качан кийинки изилдөө алат беле эмес.
Акыр-аягы, сейрек окуяларды изилдеп, эместигин изилдеп тышкары, чоң топтому да кичинекей айырмачылыктарды аныктоо үчүн изилдөөчүлөр берет. Чынында эле, ал эми өнөр жайында чоң маалыматтары боюнча басым көп бул аз эле айырмачылыктар жөнүндө: ишенимдүү жарнама боюнча 1% жана 1,1% чыкылдатуу аркылуу чендердин ортосундагы айырманы аныктоо кошумча киреше миллион АКШ долларын которууга болот. Айрым илимий орнотуулар Бирок, мисалы, бир аз айырмачылыктар, алар статистикалык маанилүү болсо да, маанилүү, өзгөчө болушу мүмкүн (Prentice and Miller 1992) . Бирок, кээ бир саясат орнотуулар, алар чогуу алганда караганда маанилүү болуп калышы мүмкүн. Мисалы, анда кыйла натыйжалуу кийлигишүүсүн терип кошумча өмүрүн ми үнөмдөөчү аякташы мүмкүн, эки коомдук саламаттык сактоо иш-аракеттер жана башка бир караганда бир аз көбүрөөк натыйжалуу бар болсо.
окшойбуз жалпысынан туура пайдалануу жакшы менчиги болуп саналат да, ал кээде бир түшүнүк каталарга алып келиши мүмкүн экенин байкадык. Кандайдыр бир себептерден улам, бедел маалыматтар түзүлгөн кантип четке изилдөөчүлөр алып көрүнөт. Окшойбуз кокустук кылмышым тууралуу кабатыр болгон муктаждыкты азайтып жатат, ал эми иш жүзүндө системалуу каталар жөнүндө тынчсыздануунун зарылдыгы, мен каталарды түрү деген маалыматтар түзүлгөн кандай кызыкчылыктардан улам келип чыккан төмөнкү сүрөттөп аласыз жогорулатат. Мисалы, бир долбоор Мен бул бөлүмдө кийинчерээк сүрөттөп берейин, изилдөөчүлөр 11-сентябрда түзүлгөн билдирүүлөрдү колдонулган, 2001-жылкы АКШдагы террордук чабуулга жооп жогорку чечилиштеги жубайынан мөөнөтүн өндүрүү үчүн (Back, Küfner, and Egloff 2010) . изилдөөчүлөр билдирүүлөрдүн көп санда болгондуктан, алар, чынында, алар албетте каары-өсүп байкалган түрүнө карабастан, күнү-турган кокустук өзгөрүү менен түшүндүрүлөт тынчсызданбай койгон эмес. бардык статистикалык статистикалык сыноолор, бул чыныгы үлгүсү деп сунуш ушунчалык айкын бар көп маалыматтар менен үлгү болгон. Бирок, бул статистикалык тесттер маалыматтар түзүлдү кандай ойлору бар эле. Чынында эле, ал оймо-көп күн бою көбүрөөк маанисиз билдирүүлөрдү түзүлгөн бир бот таандык болчу экен. Бул бир Bot толугу менен кагаз негизги корутундуларынын айрымдары жок өчүрдү (Pury 2011; Back, Küfner, and Egloff 2011) . Жообу жөнөкөй эле, системалык ката жөнүндө эмес деп ойлойм изилдөөчүлөр мындай дардын бот тарабынан өндүрүлгөн мааниси кабарлардын дүйнөсү мазмуну катары анча маанисиз саны, бир так баа алуу үчүн, алардын ири топтомун колдонуу коркунучуна дуушар.
Жыйынтыктап айтканда, чоң топтому өзү аягы эмес, бирок, алар сейрек окуяларды изилдөө, анын ичинде изилдөө айрым түрлөрүн, гетерогендүүлүк баалоо, жана аз эле айырмачылыктар табууга мүмкүндүк берет. Big топтому да болчудай санынын так баа алуу үчүн, аларды алып келиши мүмкүн болгон кээ бир изилдөөчүлөр маалыматтар түзүлгөн кантип көрмөксөн, алып окшойт.