Вялікія крыніцы дадзеных , як правіла, маюць дзесяць характарыстык; некаторыя з іх добрыя для сацыяльных даследаванняў і некаторыя з іх дрэнна.
Калі даследчыкі збіраюцца атрымаць з вялікіх аб'ёмаў дадзеных, якія яны не стваралі або збіраць, то яны павінны разумець яе агульныя характарыстыкі. Замест таго, каб браць платформу з дапамогай платформы падыходу (напрыклад, вось што вам трэба ведаць аб Twitter, вось што вам трэба ведаць аб дадзеных пошуку Google і г.д.), я збіраюся апісаць дзесяць агульных характарыстык вялікіх аб'ёмаў дадзеных, характарыстыкі, якія ўзнікаюць таму што дадзеныя не была створана з мэтай сацыяльных даследаванняў. Па адыходзячы ад дэталяў кожнай канкрэтнай сістэмы і, гледзячы на гэтыя агульныя ўласцівасці, даследчыкі могуць хутка даведацца больш аб існуючых крыніцах дадзеных і мець цьвёрдую набор ідэй, каб прымяніць да будучых крыніц дадзеных.
Я лічу карысным згрупаваць характарыстыкі на дзве катэгорыі:
Груба кажучы, дзяржаўныя адміністрацыйныя запісы з'яўляюцца менш нерепрезентативная, менш алгарытмічных пасаромлена, і менш дрэйфуючых. З іншага боку, бізнэс-адміністрацыйныя дакументы, як правіла, больш буйныя і заўсёды на.