2.3.1.1 Биг

Големи бази на податоци се средство за крај; тие не се цел сама по себе.

Првиот од трите добри карактеристики на големите податоци се најдискутираните: овие се големи податоци. Овие извори на податоци може да биде голема во три различни начини: многу луѓе, многу информации по лице, или многу забелешки текот на времето. Има голема базата овозможува некои специфични видови на истражувања за мерење на хетерогеност, проучување ретки настани, откривање мали разлики, и правење на причинско-последична проценките на податоци од набљудувањата. Тоа, исто така, се чини дека да доведе до конкретен тип на несовесноста.

Првата работа за која големина е особено корисно во просек се движи надвор да се направи проценки за одредени подгрупи. На пример, Гери Кинг, Џенифер Пан, и Моли Робертс (2013) пак мери веројатноста дека социјалните медиуми мислења во Кина ќе бидат цензурирани од страна на владата. Сам по себе овој просек веројатноста за бришење не е многу корисна за да се разбере зошто владата цензура некои мислења, но не и другите. Но, бидејќи нивните базата вклучени 11 милиони работни места, кралот и неговите колеги, исто така, произведува проценки за веројатноста за цензура мислења на 85 одделни категории (на пример, порнографија, Тибет и сообраќајот во Пекинг). Со споредување на веројатноста за цензура за постови во различни категории, тие беа во можност да се разбере повеќе за тоа како и зошто на владините цензори одредени видови на теми. Со 11 илјади работни места (наместо 11 милиони постови), тие не би биле во можност да се произведуваат овие категорија специфични проценки.

Второ, големината е особено корисно за студира на ретки настани. На пример, Гоел и колеги (2015) сакал да учат на различни начини на кои tweets може да одат вирусна. Бидејќи голем каскади на ре-tweets се исклучително ретки за еден во 3000 тие се потребни за да учат, повеќе од милијарда твитови со цел да се најде доволно голем каскади за анализа.

Трето, големи бази на податоци овозможуваат на истражувачите да се открие мали разлики. Всушност, голем дел од фокусот на големи податоци во индустријата е во врска со овие мали разлики: сигурно откривање на разликата помеѓу 1% и 1,1% кликнете-преку стапки на рекламата може да се претвори милиони долари во екстра приходи. Во некои научни поставувања, како мали разлики не може да биде особено важно (дури и ако тие се статистички значајни). Но, во некои од поставките на политики, како мали разлики може да стане важен кога се гледа во агрегат. На пример, ако има две јавни здравствени интервенции, а еден е малку поефикасни од другите, тогаш ќе се премине на поефикасна интервенција може да заврши заштеда на илјадници дополнителни животи.

Конечно, големи збирки на податоци во голема мера се зголеми нашата способност да се направи причинска проценките на податоци од набљудувањата. Иако големи бази на податоци не се суштински промени на проблеми со правење на каузална инференција од набљудување на податоци, за појавување и физички експерименти и две техники кои истражувачите развија за правење причинска побарувања од набљудување на податоци и голема корист од големи бази на податоци. Ќе објасни и ги илустрираат ова тврдење подетално подоцна во ова поглавје, кога јас го опишам истражување стратегии.

Иако bigness е генерално добар имотот кога се користи правилно, сум забележал дека bigness најчесто доведува до концептуална грешка. Поради некоја причина, bigness се чини дека да доведе истражувачите да се игнорира како е генерирана нивните податоци. Додека bigness не ја намали потребата да се грижите за случајна грешка, тоа всушност се зголемува потребата да се грижите за систематски грешки, видови на грешки кои јас ќе се опише во повеќе под кои произлегуваат од предрасуди во тоа како се создаваат и собраните податоци. Во мал базата, и случајна грешка и систематска грешка може да биде важно, но во голема базата на случајна грешка е може да се во просек далеку и систематска грешка доминира. Истражувачите кои не размислуваат за систематска грешка ќе заврши со користење на нивните големи бази на податоци за да се добие прецизна проценка на погрешна работа; тие ќе бидат токму неточни (McFarland and McFarland 2015) .