2.3.1.1 Big

Sekumpulan data gedhe sing liya pungkasan; lagi ora pungkasan ing awake dhewe.

Pisanan saka telung ciri apik saka data amba paling rembugan: iki data amba. sumber data iki bisa dadi amba ing telung cara: akeh wong, persil informasi saben wong, utawa akeh pengamatan liwat wektu. Duwe perlengkapan data amba mbisakake sawetara jinis tartamtu saka beda-beda riset-ukuran, sinau acara langka, pendeteksi beda cilik, lan nggawe prakiraan nyebabake saka data pangamatan. Uga misale jek mimpin kanggo jinis tartamtu saka sloppiness.

Wangsulan: Bab ingkang pisanan sing ukuran iku utamané migunani obah ngluwihi roto kanggo nggawe prakiraan kanggo subgroups tartamtu. Contone, Gary King, Jennifer Pan, lan Molly Roberts (2013) diukur kemungkinan sing kiriman media sosial ing China bakal censored dening pemerintah. Dhewe kemungkinan saben iki pambusakan ora banget mbiyantu kanggo mangerténi apa pemerintah censors sawetara kiriman nanging ora liyane. Nanging, amarga perlengkapan data sing klebu 11 yuta posting, King lan kolega uga diprodhuksi prakiraan kanggo kemungkinan censorship kanggo kiriman ing 85 kategori kapisah (eg, porno, Tibet, lan Lintas ing Beijing). Miturut mbandingaken kemungkinan censorship kanggo kiriman ing macem-macem kategori, padha bisa ngerti liyane babagan carane lan apa pemerintah censors jinis-jinis tartamtu saka kiriman. Kanthi 11 ewu postingan (tinimbang 11 yuta posting), padha ora bakal wis bisa kanggo gawé prakiraan kategori-tartamtu iki.

Kapindho, ukuran iku utamané migunani kanggo sinau acara langka. Contone, Goel lan kolega (2015) wanted kanggo nyinaoni cara sing tweets bisa pindhah virus. Amarga cascades akeh re-tweets arang banget-bab siji ing 3.000-padha needed kanggo sinau luwih saka milyar tweets supaya golek cukup cascades gedhe kanggo analisis.

Katelu, sekumpulan data gedhe ngaktifake peneliti kanggo ndeteksi beda cilik. Ing kasunyatan, akeh fokus ing data amba ing industri kira iki beda cilik: andal pendeteksi prabédan antarane 1% lan 1.1% tarif klik-liwat ing iklan bisa nerjemahake menyang yuta dolar ing revenue ekstra. Ing sawetara setelan ngelmu, beda cilik kuwi bisa uga ora tartamtu penting (sanajan lagi wujud kecatet). Nanging, ing sawetara setelan privasi, beda cilik kuwi bisa dadi penting nalika viewed ing kanthi jumlah ongko. Contone, yen ana loro campur kesehatan umum lan siji wis rada luwih efektif tinimbang liyane, banjur ngoper menyang melu-melu liyane efektif bisa mungkasi munggah nyimpen ewonan nyawa tambahan.

Akhire, mranata data gedhe nemen nambah kemampuan kita kanggo nggawe prakiraan nyebabake saka data pangamatan. Senajan sekumpulan data gedhe ora dhasar ngganti masalah karo nggawe kesimpulan nyebabake saka data pangamatan, cocog lan nyobi-loro alam Techniques sing peneliti wis dikembangaké kanggo nggawe claims nyebabake saka pangamatan data-loro nemen entuk manfaat saka sekumpulan data gedhe. Aku bakal nerangake lan ilustrasi pratelan iki ing luwih rinci mengko ing bab iki nalika aku njlèntrèhaké Sastranegara riset.

Senajan bigness iku umume property apik nalika digunakake kanthi bener, aku wis ngeweruhi sing bigness umum ndadékaké kanggo kesalahan konsep. Kanggo sawetara alesan, bigness misale jek mimpin kanggo riset nglirwakake carane data sing kui. Nalika bigness ora ngurangi perlu padha sumelang ing bab kesalahan acak, iku bener mundhak perlu padha sumelang ing bab kasalahan rapi, jinis kasalahan aku bakal njlèntrèhaké ing luwih ngisor sing njedhul saka biases ing carane data sing digawe banjur diklumpukake. Ing perlengkapan data cilik, loro acak kesalahan lan kesalahan rapi wigati, nanging ing kesalahan acak gedhe perlengkapan data wis bisa averaged adoh lan kesalahan rapi nedya. Peneliti sing ora mikir bab kesalahan rapi bakal mungkasi munggah nggunakake sekumpulan data gedhe sing kanggo njaluk ngira pas ing bab salah; padha bakal sabenere pas (McFarland and McFarland 2015) .