ትልቅ የውሂብ ፍጻሜ መንገድ ነው; እነርሱ ራሳቸው ወደ ውስጥ ግን መጨረሻው ገና ነው.
በትልቅ የውሂብ ምንጮች ሰፊው ሰፊ ክፍል ባዮ ግራም ነው. ለምሳሌ ያህል ብዙ ወረቀቶች ለመተንበይ ምን ያህል መረጃ እንደሚተያዩ እና አንዳንዴም በጉን በመወያየት ይጀምራሉ. ለምሳሌ, በ Google መጽሐፍት ኮፒፕ ውስጥ የቃላት አጠቃቀም አጠቃቀም የቃላትን ጥናት በሳይንስ የታተመ ወረቀት የሚከተሉትን ያካትታል (Michel et al. 2011) -
"ኮርፐስ ከ 500 ቢሊዮን የሚበልጡ ቃላት በእንግሊዝኛ (361 ቢልዮን), በፈረንሳይኛ 45 ቢልዮን, በስፔን (45 ቢሊዮን), በጀርመን (37 ቢሊዮን), በቻይና (13 ቢሊዮን), በሩሲያኛ (35 ቢሊዮን) እና በዕብራይስጥ (2 ቢሊዮን). በጣም ጥንታዊ ሥራዎች በ 1500 ዎቹ ውስጥ ታትመዋል. የቀድሞዎቹ አሥርተ ዓመታት በዓመት ጥቂት መጻሕፍት ብቻ የተወጡት በመቶ ሺዎች የሚቆጠሩ ቃላት ናቸው. በ 1800, ኮርፐሱ በየዓመቱ እስከ 98 ሚሊዮን ቃላት ያድጋል. በ 1900, 1.8 ቢሊዮን; እና በ 2000 ደግሞ 11 ቢሊዮን. ኮርፐሱ በሰዎች ሊነበብ አይችልም. ከ 2000 ጀምሮ ብቻ በእንግሊዝኛ ቋንቋን ብቻ ለማንበብ ከሞከሩ በ 200 ቃላቶች / ደቂቃዎች ለምግብ ወይም ለመተኛት ምንም ጣልቃ ገብነት ሳይነገሩ 80 ዓመታት ይወስዳል. የፊደሎቹ ቅደም ተከተል ከሰብአዊው ጂኖም 1000 እጥፍ ይረዝማል :: ቀጥታ መስመር ቢፃፍሉ, ወደ ጨረቃ እና ከ 10 እጥፍ በላይ ነው. "
የዚህ መረጃ ስፋት በከፍተኛ ሁኔታ ማራኪ ነው, እናም እኛ የ Google መጽሐፍት ቡድን ይህንን መረጃ ለህዝብ አሳልፎ የሰጠው እኛ ሁላችንም ዕድለኞች ነን (በእርግጥ, በዚህ ምዕራፍ መጨረሻ ላይ ያሉ አንዳንድ ተግባራት ይህን ውሂብ ይጠቀማሉ). ነገር ግን, እንደዚህ አይነት ነገሮችን በሚያዩበት ጊዜ ይህ ሁሉ ነገር በእርግጥ የሚያደርገው ነገር ነው? መረጃው ለጨረቃ እና አንድ ጊዜ ብቻ ለመመለስ ከሆነ ተመሳሳይ ጥናት ያካሂዱ ይሆን? መረጃው ሊደርስ የሚችለው በኤቨረስት ተራራ ጫፍ ወይም በ Eiffel ማእከሉ አናት ላይ ብቻ ከሆነስ?
በዚህ ጉዳይ ላይ ምርምራቸው ለረዥም ጊዜ ውስጥ እጅግ በጣም ብዙ ቃላትን የሚጠይቁ ግኝቶችን ያቀርባል. ለምሳሌ, ሲዳስሱ አንድ ነገር የሰዋሰው የአዝጋሚ ለውጥ ነው, በተለይም በመጠኑ የማያቋርጥ ግርሽር ለውጥ. አንዳንድ ያልተለመዱ ግሶች በጣም እምብዛም ስለማይገኙ, ብዛት ያላቸው መረጃዎች ብዙ ጊዜ ለውጦችን መለየት ያስፈልጋል. ብዙውን ጊዜ ተመራማሪዎች ትልቁ የመረጃ ምንጭ ምን ያህል መጠን እንደሚኖራቸው - "ምን ያህል መረጃዎችን ማሰባሰብ እንደምችል ተገንዝቤያለሁ" - ለአንዳንድ እጅግ አስፈላጊ የሆኑ የሳይንሳዊ አላማዎች ከመነሻነት በላይ ነው.
በእኔ ልምድ እጅግ አልፎ አልፎ የተደረጉ ጥናቶች ትላልቅ የውሂብ ስብስቦች ሊጠቀሙባቸው ከሚችሉት ሦስት ሳይንሳዊ ግቦች አንዱ ነው. ሁለተኛው ደግሞ የአዕላፍነት ጥናት ነው, በሪቻቲ ቺቲ እና ባልደረቦቹ (2014) ላይ በዩናይትድ ስቴትስ በማህበራዊ ተንቀሳቃሽነት ላይ የተደረገ ጥናት ነው. ቀደም ባሉት ዓመታት በርካታ ተመራማሪዎች የወላጆችንና የልጆችን ሕይወት በማወዳደር በማህበራዊ ሞገዶች ጥናት አካሂደዋል. ከዚህ ሥነ-ጽሑፍ ላይ የተገኘ ግኝት (Hout and DiPrete 2006) ወላጆች ጥሩ እድል ያላቸው ልጆች ናቸው, ግን የዚህ ግንኙነት ጥንካሬ በጊዜ ሂደት እና በመላው ሀገራት ይለያያል (Hout and DiPrete 2006) . በቅርቡ ግን, Chetty እና ባልደረቦች ከ 400 ሚሊዮን ሰዎች የግብር መዝገቦችን መጠቀም የቻሉት በዩናይትድ ስቴትስ ክልሎች ውስጥ በሚገኙ በሀገር-አቀፍ ዝውውሮች መካከል ያለውን ልዩነት ነው. (ምስል 2.1). ለምሳሌ ያህል, ከታች ከዝቅተኛው ሀገራዊ የቤተሰብ መነሻነት አንድ ሕፃን በብሔራዊ የገቢ ማከፋፈያ ማዕከላት ከፍተኛ ደረጃ ላይ ቢደረስ በ 13 ዓመት ውስጥ በሳን ዮሴስ, ካሊፎርኒያ ውስጥ ቢደረስ ግን በ 4 ዓመት በቻርሎት, ሰሜን ካሮላይና ውስጥ 4 በመቶ ብቻ ነው. ቁጥርን 2.1 ን ለተወሰነ ጊዜ ከተመለከቱ, ከሌሎቹ ይልቅ ከሌሎች ክልሎች የበለጠ የትርጓሜ ማነጻጸሪያዎች ለምን እንደሚከሰቱ ማሰብ ሊጀምሩ ይችላሉ. ኩቲ እና ባልደረቦቼ ተመሳሳይ ተመሳሳይ ጥያቄዎች ነበሯቸው, ከፍተኛ ተንቀሳቃሽነት ያላቸው አካባቢዎች ብዙ የመኖሪያ ክፍተት, አነስተኛ የገቢ አለመመጣጠን, የመጀመሪያ ደረጃ ትምህርት ቤቶች, ከፍተኛ የማህበራዊ ካፒታል እና የተረጋጋ የቤተሰብ ምቹ ናቸው. በርግጥ እነዚህ ግንኙነቶች ብቻ ናቸው እነዚህ ምክንያቶች ከፍተኛ የእጅ መንቀሳቀስ መጀመራቸውን አያሳዩም, ነገር ግን እነሱ በተጨማሪ ስራዎች ሊታዩ የሚችሉ ሊሆኑ የሚችሉ ዘዴዎችን ይጠቁማሉ, ይህም Chetty እና ባልደረቦች በሚቀጥለው ሥራው ያደረጉትን ነው. በዚህ ፕሮጀክት ውስጥ የመረጃው መጠን ምን ያህል ጠቃሚ እንደሆነ ልብ ይበሉ. Chetty እና ባልደረቦቹ 40 ሚልዮን ሳይሆን 40 ሺህ ሰዎች የግብር መዝገቦችን ቢጠቀሙ ኖሮ የክላስተር ቅልጥፍናዎችን ለመገመት አልቻሉም ነበር, እና ይህን ልዩነት የሚፈጥሩ ስልቶችን ለመለየት ከዚያ በኋላ የተደረጉ ምርምሮች ከዚያ በኋላ ሊነቁ አይችሉም.
በመጨረሻም, ያልተለመዱ ክስተቶችን ከማጥናትና ልዩነትን ከማጥናት ባሻገር, ትላልቅ የውሂብ ስብስቦች ተመራማሪዎቹ ትናንሽ ልዩነቶችን ለይተው እንዲያስተውሉ ያስችላቸዋል. በእርግጥ በኢንዱስትሪ ውስጥ ትልቅ መረጃ ላይ ያተኩራል በአብዛኛው እነዚህ ልዩ ልዩነቶች ናቸው. በ 1 እና በ 1.1% የማስታወቂያዎች መጠን አማካኝነት መካከል ያለው ልዩነት በቢሊዮኖች ከሚቆጠር ዶላር ወደ ተጨማሪ ሚሊዮነር ገቢ ይደርሳል. ይሁን እንጂ, በአንዳንድ ሳይንሳዊ ሁኔታዎች ውስጥ, በስታቲስቲክስ የታወቀ ቢሆንም እንኳ እንዲህ ዓይነቶቹ ትናንሽ ልዩነቶች በጣም አስፈላጊነት ላይኖራቸው ይችላል (Prentice and Miller 1992) . ነገር ግን, በአንዳንድ የፖሊሲ ቅንብሮች ውስጥ, በጥቅሉ ሲታይ ጠቃሚ ሊሆኑ ይችላሉ. ለምሳሌ, ሁለት የህዝብ ጤና ጥበቃ ጣልቃ ገብነቶች እና አንዱ ከሌላው በተወሰነ ደረጃ ውጤታማ ከሆነ, ይበልጥ ውጤታማ የሆነ ጣልቃ መግባት መምረጥ በሺዎች የሚቆጠሩ ህይወቶችን ይቆጥባል.
ምንም እንኳን ክብደት በአጠቃላይ በትክክል ጥቅም ላይ ሲውል ጥሩ ንብረት ቢሆንም, አንዳንድ ጊዜ ወደ አንድ ጽንሰ-ሐሳብ ሊመራ እንደሚችል አስተውያለሁ. ለምን ጥቂት ምክንያቶች ተመራማሪዎች ተመራማሪዎቹ መረጃዎቻቸው እንዴት እንደሚፈጠሩ ችላ እንዲሉ ያስችላቸዋል. ትንታኔ ስለአውድል ስህተቶች መጨነቅ ቢያስቀምጥም ስልታዊ ስህተቶች ላይ መጨነቅ ስለሚያስፈልገኝ, ከዚህ በታች በተገለጹት ስህተቶች ምክንያት በሚከሰቱ ስህተቶች ላይ ስለሚያስከትለው ችግር የበለጠ ይጨምራል . ለምሳሌ, በዚህ ምእራፍ በተጠቀሰው መርሃግብር ውስጥ ተመራማሪዎቹ በመስከረም 11, 2001 የተገኙ መልዕክቶችን በመጠቀም አሸባሪው ጥቃት (Back, Küfner, and Egloff 2010) ከፍተኛ የሆነ ስሜታዊ የጊዜ ሰንጠረዥ ለማድረስ ይጠቀማሉ. ተመራማሪዎቹ ብዙ ቁጥር ያላቸው መልዕክቶች ነበሯቸው, በዘመቻው ውስጥ በቀን ውስጥ ቁጣ መጨመር / አለመገጣጠም በአለመረብ ልዩነት ሊተረጎሙ ይችላሉ. በጣም ብዙ መረጃዎች ነበሩ, እናም የስርዓተ-ቅደም ተከተል በጣም ግልፅ ነው, ሁሉም እስታቲስቲክቲካዊ ስታትስቲክስ ሙከራዎች ይህ ትክክለኛ ንድፈ-ሐሳብ መሆኑን አሳውቀዋል. ነገር ግን, እነዚህ ስታትስቲኮች ሙከራ ውሂቡ እንዴት እንደተፈጠረ ያውቅ ነበር. እንደ እውነቱ ከሆነ, አብዛኛው ንድፍ በቀን ውስጥ ብዙ እና ትርጉም የሌላቸው መልዕክቶች ከሚፈጥረው አንድ ነጠላ ቦይት ነው የተገኘው. ይህንን አንድ ቦት (Pury 2011; Back, Küfner, and Egloff 2011) በወረቀት ላይ የተገኙትን አንዳንድ ግኝቶች ሙሉ በሙሉ አጠፋቸው (Pury 2011; Back, Küfner, and Egloff 2011) . በአጠቃላይ ሲስተም የስርዓተ-ፆታ ስህተቶችን የማይስቡ ተመራማሪዎች በትላልቅ አውቶማቲክ (ባዶ) የተሰሩ ትርጉም የሌላቸው መልዕክቶች (ስሜታዊ ያልሆኑ) መልዕክቶች (ለምሳሌ ያህል በጣም ስሜታዊ ያልሆነ) መጠን ለመለየት ከፍተኛ መጠን ያላቸውን የውሂብ ስብስቦቻቸውን የመጠቀም አደጋን ይጋፈጣሉ.
በማጠቃለያ ውስጥ ትላልቅ የውሂብ ስብስቦች በራሳቸው መደምደሚያዎች አይደሉም, ነገር ግን አንዳንድ ያልተለመዱ ጥናቶችን ጨምሮ, ያልተለመዱ ክስተቶችን ግምት, ግትርነት እና ግኝት መለየት. በተጨማሪም ትላልቅ የውሂብ ስብስቦች አንዳንድ ተመራማሪዎች መረጃዎቻቸው እንዴት እንደተፈጠረ ችላ እንዲሉ ያስገድዷቸዋል, ይህም በጣም አስፈላጊ ያልሆኑትን ብዛት በትክክል እንዲገመት ያደርገዋል.