Large datasets ne a wajen wani karshen. ba su da wani karshen a kansu.
Mafi yawan fasalulluka da aka fi sani da manyan bayanai shine cewa su BIG ne. Yawancin takardu, alal misali, farawa ta hanyar tattaunawa-da kuma wani lokacin yin girman kai-game da yawan bayanai da suka bincikar. Alal misali, takarda da aka wallafa a cikin Kimiyya nazarin abubuwan da ake amfani da maganganu a cikin Google Books corpus sun haɗa da waɗannan (Michel et al. 2011) :
"[Mu] ya ƙunshi fiye da biliyan 500, a Turanci (biliyan 361), Faransanci (biliyan 45), Mutanen Espanya (biliyan 45), Jamusanci (biliyan 37), Sinanci (biliyan 13), Rasha (biliyan 35), da Ibrananci (2 biliyan). An wallafa ayyukan mafi girma a cikin 1500s. Shekarun da suka wuce an wakilce su ne kawai ta wasu littattafan littattafai a kowace shekara, wanda ya ƙunshi kalmomi dubu dari. A shekara ta 1800, kullun yana tsiro zuwa miliyan 98 a kowace shekara; by 1900, biliyan 1.8; kuma ta 2000, biliyan 11. Mutum ba zai iya karantawa ba. Idan kuna ƙoƙari ku karanta kawai daga cikin harsunan Ingilishi daga shekarar 2000 kawai, a daidai lokacin 200 kalmomi / min, ba tare da katsewar abinci ko barci ba, zai ɗauki shekaru 80. Hanyoyin haruffa sau 1000 ne fiye da mutuntakar mutum: Idan ka rubuta shi a cikin layi madaidaiciya, zai kai ga Moon kuma ya sake sau goma. "
Gwargwadon wannan bayanai ba shakka ba ne, kuma muna farin cikin cewa ƙungiyar Google Books ta saki wadannan bayanai ga jama'a (a gaskiya, wasu ayyukan da ke ƙarshen wannan babi suna amfani da wannan bayanan). Duk da haka, duk lokacin da ka ga irin wannan ya kamata ka tambayi: shin duk abin da wannan bayanan yake yin wani abu? Shin sun iya yin irin wannan bincike idan bayanai zasu iya kaiwa ga wata kuma sau ɗaya kawai? Mene ne idan har bayanan bayanan zai iya kaiwa saman Dutsen Everest ko saman Hasumiyar Eiffel?
A wannan yanayin, binciken su, a gaskiya, suna da wasu binciken da ke buƙatar babban abu na kalmomi a cikin dogon lokaci. Alal misali, abu daya da suka gano shi ne juyin halitta na bambance-bambance, musamman ma canje-canje a cikin jimillar jigilar maganganu. Tunda wasu kalmomin da ba daidai ba ne, suna da yawa, yawancin bayanai yana buƙatar gano canje-canje a tsawon lokaci. Sau da yawa, duk da haka, masu bincike sunyi la'akari da girman girman bayanan bayanai kamar yadda ƙarshen- "duba yadda yawancin bayanai zan iya crunch" - da dai sauransu fiye da hanyar zuwa wasu muhimman al'amurran kimiyya.
A cikin kwarewa, nazarin abubuwan da ke faruwa aukuwa shine daya daga cikin kimiyya guda uku da suka dace cewa ƙananan ɗakunan suna taimakawa. Na biyu shine nazarin ilimin jinsi, kamar yadda binciken da Raj Chetty da abokan aiki (2014) game da zamantakewar zamantakewa a Amurka. A baya, yawancin masu binciken sunyi nazarin zamantakewar zamantakewa ta hanyar kwatanta sakamakon rayuwar iyaye da yara. Binciken da aka samu daga wannan wallafe-wallafen shine iyayen da suka ci gaba da samun tallafin yara, amma ƙarfin wannan dangantaka ya bambanta a lokaci da kuma fadin kasashe (Hout and DiPrete 2006) . Kwanan nan kwanan nan, Chetty da abokan aiki sun iya amfani da asusun haraji daga mutane miliyan 40 don kimanta irin bambancin da suke ciki a cikin yankuna daban-daban a Amurka (lamba 2.1). Sun sami, alal misali, yiwuwar cewa yaron ya kai ga ƙaddarar da aka samu na asusun ajiyar kuɗi daga asali daga iyali a kasan kasa shine kimanin kashi 13% a San Jose, California, amma kimanin 4% a Charlotte, North Carolina. Idan ka dubi siffa 2.1 na dan lokaci, za ka iya fara mamaki dalilin da yasa motsa jiki ya kasance mafi girma a wasu wurare fiye da sauran. Chetty da abokan aiki sunyi daidai da wannan tambayar, kuma sun gano cewa wa] annan yankunan da ba su da ku] a] en ba su da raguwa, ba su da ku] a] en ku] a] en, makarantun firamare, mafi girma ga jama'a, da kuma zaman lafiyar iyali. Tabbas, waɗannan haɗin kan kawai ba su nuna cewa waɗannan dalilai suna sa mafi girma ba, amma sun bayar da shawarar yiwuwar hanyoyin da za a iya binciko su a cikin aikin da ake ciki, wanda shine daidai abin da Chetty da abokan aiki suka yi a cikin aikin. Ka lura yadda girman bayanai ke da muhimmanci sosai a wannan aikin. Idan Chetty da abokan aiki sun yi amfani da takardun haraji na mutane 40,000 fiye da miliyan 40, da ba su iya kwatanta mahallin yanki ba kuma ba za su iya yin bincike na gaba ba don kokarin gano hanyoyin da suka haifar da wannan bambancin.
A ƙarshe, ban da nazarin abubuwan da ya faru da yawa da kuma nazarin ilmantarwa, manyan bayanai sun taimaka ma masu bincike su gano ƙananan bambance-bambance. A gaskiya ma, yawancin mayar da hankali kan manyan bayanai a masana'antu shine game da waɗannan ƙananan bambance-bambance: Tabbataccen ganewa tsakanin bambancin 1% da 1.1% -da farashi a kan wani talla zai iya fassara zuwa miliyoyin daloli a karin kudin shiga. A cikin wasu saitunan kimiyya, duk da haka, waɗannan ƙananan bambance-bambance bazai da muhimmanci sosai, koda kuwa sune mahimmanci (Prentice and Miller 1992) . Amma, a wasu saitunan manufofin, za su iya zama mahimmanci idan aka duba su a tara. Alal misali, idan akwai sauye-sauye na jama'a biyu na kiwon lafiya kuma ɗayan dan kadan ya fi tasiri fiye da sauran, to, daukar nauyin da ya fi dacewa zai iya ceton dubban karin rayuka.
Kodayake zane-zane yana da kyawawan dukiyar idan aka yi amfani da shi daidai, Na lura cewa wani lokaci yakan iya haifar da kuskuren ra'ayi. Ga wani dalili, alamar alama tana jagorantar masu bincike don su manta da yadda aka samar da bayanai. Duk da yake damuwa yana rage bukatar damu game da kuskuren bazuwar, to hakika yana ƙaruwa da buƙatar damuwa game da kurakurai na ainihi, irin kurakuran da zan bayyana a kasa wanda ya samo daga rashin son yadda aka halicci bayanai. Alal misali, a cikin wani aikin zan bayyana a baya a cikin wannan babi, masu bincike sun yi amfani da saƙonnin da aka buga a ranar 11 ga watan Satumba, 2001 don samar da wani lokacin da za a yi na tunanin yadda za a kai ga harin ta'addanci (Back, Küfner, and Egloff 2010) . Saboda masu bincike sun sami saƙonnin da yawa, basu buƙatar damuwa ko ko wane tsari da suke lura da su - ƙara fushi a kan rana-za a iya bayyana ta ta hanyar bambancewar bazuwar. Akwai bayanai da yawa da kuma alamu sun kasance a fili cewa dukkanin jarrabawar lissafi sun nuna cewa wannan abu ne na ainihi. Amma, waɗannan gwaje-gwaje na lissafi ba su san yadda aka halicci bayanan ba. A gaskiya ma, ya bayyana cewa da yawa daga cikin alamomi sun kasance masu yiwuwa ne ga ɗayan daji wanda ya samar da saƙonni masu ma'ana da yawa a ko'ina cikin yini. Cire wannan burin daya ya hallaka wasu daga cikin mahimman bayanai a cikin takarda (Pury 2011; Back, Küfner, and Egloff 2011) . Abin mahimmanci shine, masu binciken da basuyi tunani game da kuskuren kuskure ba su fuskanci haɗarin yin amfani da manyan rubutattun bayanai don samun kimantaccen kimanin nau'i mai mahimmanci, irin su murmushi na saƙonnin maras amfani da aka samar da wani kwararru mai sarrafa kansa.
A ƙarshe, manyan bayanan ba su da iyaka a kansu, amma suna iya taimaka wa wasu nau'o'in bincike ciki har da nazarin abubuwan da suka faru, abubuwan da suka faru, da ƙididdigar ƙananan bambance-bambance. Har ila yau, manyan shafukan yanar gizo suna sa ran wasu masu bincike su yi watsi da yadda aka halicce su, wanda zai iya jagoranci su don samun kimanin ƙimar da ba ta da yawa.