2.3.1.1 Үлкен

Үлкен көлемді деректер соңына құралы болып табылады; өздері мақсат емес.

Big Data үш жақсы сипаттамаларын алғашқы ең талқыланды болып табылады: осы үлкен деректер болып табылады. көптеген адамдар, бір адамға ақпараттың көп немесе ұзақ уақыт бойы, көптеген бақылаулар: Бұл деректер көздері үш түрлі тәсілдермен үлкен болуы мүмкін. үлкен деректер жиынын бар шағын айырмашылықтарды анықтау, сирек оқиғалар оқитын, ғылыми-өлшеу гетерогенді кейбір нақты түрлерін береді, және бақылау деректерден себепті бағалауларды. Ол сондай-ақ разгильдяйства нақты түріне әкелуі сияқты.

мөлшері, әсіресе пайдалы болып табылатын бірінші нәрсе нақты кіші сметасын жасауға орташа шегінен тыс қозғалады. Мысалы, Гэри патша, Дженнифер Пан және Молли Робертс (2013) Қытайда әлеуметтік медиа хабарламалар үкіметі цензураға ұшыраған болуы еді ықтималдығын өлшенеді. өзі жою, бұл орташа ықтималдығы Үкімет кейбір лауазымдар бірақ басқа цензура неге түсіну үшін өте пайдалы болып табылады. олардың деректер 11 млн лауазымдарды енгізілген, өйткені Бірақ, патша мен әріптестер, сондай-ақ 85 жекелеген санаттарын (Пекинде мысалы, порнография, Тибет және Traffic) бойынша лауазымдарға цензураның ықтималдығы сметасын өндірді. түрлі санаттарға лауазымдарға цензура ықтималдығын салыстыра отырып, олар мемлекеттік лауазымдарға жекелеген түрлерін цензура қалай және неге туралы көбірек түсіне алды. 11 мың лауазымдарының (гөрі 11 млн хабарламалар), олар осы санаты нақты бағалаулар өндіруге қабілетті болар еді.

Екіншіден, мөлшері сирек оқиғалардың зерттеу үшін әсіресе пайдалы. Мысалы, Goel мен әріптестер (2015) Tweets вирустық баруға болады түрлі жолдарын зерттеп келеді. қайта твит ірі сарқырамалары 3000-олар талдау үшін жеткілікті үлкен сарқырамалары табу үшін миллиардтан астам хабарламаларды оқуға қажетті өте сирек-бір болғандықтан.

Үшіншіден, үлкен деректер жиынымен шағын айырмашылықтарды анықтау үшін зерттеушілер мүмкіндік береді. Шын мәнінде, өнеркәсіпте үлкен деректерге назар аудара көп осы шағын айырмашылықтар туралы болып табылады: сенімді жарнама 1% және 1,1% нұқу арқылы ставкалар арасындағы айырмашылықты анықтау үшін қосымша түсім миллион доллар аудару мүмкін. Кейбір ғылыми параметрлері, мұндай шағын айырмашылықтар (олар статистикалық маңызды болып табылады, тіпті егер) маңызды, атап айтқанда, болуы мүмкін емес. жиынтығында қаралған кезде Бірақ, кейбір саясаты параметрлерінде, мұндай шағын айырмашылықтар маңызды бола алады. екі денсаулық сақтау араласу болып табылады және басқа бір сәл неғұрлым тиімді болып табылады Мысалы, егер, онда неғұрлым тиімді араласу ауысу қосымша мыңдаған өмірін үнемдеу тап болуыңыз мүмкін.

Соңында, үлкен деректер жиындарын айтарлықтай бақылау деректерінен себеп-салдарлық сметасын жасауға біздің қабілетін арттыру. үлкен деректер жиынымен түбегейлі бақылау деректерінен себептік қорытынды жасауға проблемалар, сәйкес және табиғи эксперименттерді-екі зерттеушілер айтарлықтай үлкен көлемді деректер оның пайдасын бақылау деректер-екеуінен де себеп-салдарлық арыздарды беру әзірледі әдістер өзгертуге қажеті жоқ болса да. Мен зерттеу стратегиясын сипаттау кезде Мен кейінірек осы тарауда толығырақ осы талап-арыз түсіндіруге және суреттейді болады.

бүкіл ұлылығын, әдетте, жақсы қасиеті болып табылады, дегенмен дұрыс қолданған кезде, мен бүкіл ұлылығын әдетте тұжырымдамалық қателік әкеледі екенін байқадық. Қандай да бір себептермен, бүкіл ұлылығын олардың деректер жинақталатын қалай елемеуге зерттеушілерді әкелуі сияқты. Бүкіл ұлылығын кездейсоқ қате туралы алаңдатты қажеті азайту жасайды, ал ол шын мәнінде жүйелі қателіктер туралы алаңдатты қажеті арттырады, Мен көп төмен сипаттау алатындарыңыз қателер түрлері деректер құрылады және жиналған қалай жалтара туындайтын. шағын деректер, кездейсоқ қате және жүйелі қате, екі маңызды болуы мүмкін, бірақ үлкен деректер жиынтығы кездейсоқ қате алыс орташаланған болады және жүйелі қате басым. жүйелі қате туралы емес деп ойлаймын Зерттеушілер дұрыс нәрсе дәл бағалауды алуға олардың үлкен деректер жиыны арқылы аяқталады; олар дәл дұрыс емес болады (McFarland and McFarland 2015) .