Daneyên mezin yên bi şîrket û hikûmetê ji bo armancên din ji lêkolînê ve têne avakirin. Bikaranîna vê daneyên ji bo lêkolînê, hingê hewceyê hewce dike.
Riya yekem ku gelek kes di lêkolîna sosyalê de di temenê dîjîtal de ye ku ew bi gelemperî kîjan agahdariya mezin tê tê gotin. Tevî vê karanîna berfireh a vê termê, li ser vê yekê çi tête danûstandinan tune. Lêbelê, yek ji navnîşên herî gelemperî yên daneyên mezin ên li "3 Vs" li ser hûrbigere: Volume, Variety û Velocity. Bi gelemperî, di gelek pelan de hene, ew gelek celeb hene, û ew bi berdewam têne afirandin. Hin fonksiyetên daneyên mezin ên din jî "Vs" wekî "Veracity û Value", zêdebû, lê hin rexnegiran Vs wekî Vague û Vacuous. Ji bila armancên lêkolînê yên civakî ji 3-ê "Vs" an "7" Vs "an" 7 "Vs"), ji bo armancên çêtirîn difikirim ku 5 destpêka "Ws" ye: Kî, Çi, Çi, Ku û çima Bi rastî, ez difikirim ku gelek pirsgirêkan û derfetên ku ji hêla çavkaniyên daneyên mezin de têne çêkirin ji tenê tenê yekem "W" çima.
Di temenê analog de, piranîya daneyên ku ji bo lêkolîna sosyalî tê bikaranîn ji bo armanca lêkolînê pêk hat. Di temenê dîjîtal de, hejmareke mezin ji hêla şîrket û hikûmetê ji bo armancên din ên lêkolînê, ji bo xizmetê pêşkêş dikin, qezenckirina hilber û qanûnên birêvebiriyê ji hêla gelemperî ve têne çêkirin. Gelê Creative, lê belê, fehm kir, ku tu ev welat şîrketan û hikûmetê ji bo lêkolîn repurpose. Dema ku Duchamp ji bo armanca dîtina hunerê veguhestin, di weya 1ê de duyemîn anjî hunerê li pêşniyara hunermend, paşê zanist dikarin nuha daneyên danûstandinên lêkolînê bikin.
Dema ku bêhtir derfetên ku ji bo veguhestin, gelek karanîna karanîna ku ji bo armancên lêkolînê jî ne jî pêşniyarên nû yên nû ve hatine afirandin. Ji bo nimûne, mînak, xizmeta çapemeniya civakî, wekî Twitter, bi raya giştî ya raya giştî ya kevneşopî, wekî wek Surveya Civakî ya Giştî. Armancên sereke yên Twitter ji bo bikarhênerên wê û xizmetkariyê pêşkêş dikin. Surveya Civakî ya Giştî ya Sosyal, li ser lêkolîneriya civakî ya giştî, bi taybetî ji bo lêkolîna gelemperî ji bo afirandina armancên gelemperî pêk tê. Ev cûdahî di armancên armanca wateya ku daneyên Twitter ji hêla afirandî û ji hêla Siyaseta Civakî ya Giştî ve hatî afirandin, hemî xaniyên cuda hene, her weha herdu dikarin ji bo ramanên gelemperî bixwînin. Twitter li ser pîvan û lezgarkirina xebata civakî ya Civakî nikare bi hev re nabe, lê, di heman demê de Surveya Civakî ya Civakî, bi Twitter bi baldarî bi bikarhêner bikarhêneran nimûne û hewce nakin ku di demên dahatir de bêhtir dakêşin. Ji ber ku ev çavkaniyên du data gelek celeb in, ew wateya ku hûn dibêjin ku Surveya Civaka Giştî ya Twitter-ê ji Twitter-ê-an-ê re çêtir e. Heke hûn tedbîrên giyanî yên cîhanê dixwazin (mînak, Golder and Macy (2011) ), Twitter çêtir e. Li alîyê din, eger hûn dixwazin guhartinên dirêj ên demokrasiyê li Dewletên Yekgirtî (wek mînak, DiMaggio, Evans, and Bryson (1996) ), fêm bikin, paşê vekolîna Civakî ya herî baş e. Bi gelemperî, ji ber ku hewce dike ku çavkaniyên daneyên daneyên mezintir dipeyivin an jî ji bilî cûreyên din ên din jî ne, ew ê hewce dike ku ji bo kîjan çavkaniyên pirsan ên çavkaniyên mezin ên çavkaniyên mezin ên xwedan balkêş hene hene û ji bo kîjan pirsan xwestekî.
Gava çavkaniya çavkaniya agahdariya mezin ya mezin, gelek lêkolîner bi zûtirîn li ser dagirkeriya danûstandinên dagirkeran ve têne damezirandin û ji hêla şîrketan ve têne dagir kirin, wekî parsên lêgerîna lêgerîn û medyayê yên civakî yên civakî. Lêbelê, hûrgelên wê tengahî du çavkaniyên girîng ên daneyên mezin. Ya yekemîn, bi zûtirîn çavkaniyên daneyên mezin ên karsaziyê ji cîhana fîzîkî di cîhazên dîjîtal de têne. Ji bo nimûne, di vê beşê de, ez ê li ser lêkolînek we ji we re dibêjim ku dakêşeyên supermarkirina supermarkirina veguhestina lêkolînê da ku ez çawa bikim ka çawa hilberîna hilberê karkerê hilberîna hevalên wê (Mas and Moretti 2009) . Piştre, di paşîn de paşê, ez ê li ser lêkolînerên ku ji telefonên ji telefonên telefonî tê bikaranîn (Blumenstock, Cadamuro, and On 2015) tête daneyên daneyên danûstandinên bi elektrîkê (Allcott 2015) . Wekî ev mînakan diyar dikin, çavkaniyên daneyên mezin ên karsaziyê tenê ji riya nûvek in.
Duyemîn çavkaniya girîng ya giraniya mezin ji hêla fikrên teng ên li ser riya nû ve tête dane ye ku ew daneyên hikûmetê têne afirandin. Ev daneyên hikûmetê, ku lêkolînvanan re belgeyên îdarî yên hikûmetê dibêjin, tiştên ku wekî qeydên bacê, raportên dibistanê, û tomareyên wêjeyên girîng ên girîng hene (mînak, regîsên zewac û mirin). Hikûmetê ev daneyên ji bo hinek rewşan, sedan salan, û zanyariyên sosyal ji wan re nêzîkî hema ku zanistên civakî yên sosyal bûne wan kar dikin. Lê çi guhertin, lêbelê, digitîzasyonê ye, ku ji bo hikumetên komkirina veguhestin, veguhestin, veşartin û analîzkirina danûstandinên hêsan e. Ji bo nimûne, di vê beşê de, ez ê li ser lêkolînek ji we re agahdariya ku daneyên aborî (Farber 2015) karbidestê (Farber 2015) danûstandinên bingehîn a navnîşa ji muxalefeya daktor a Dewletê ya New York City veguherand. Piştre, di paşîn de paşê, ez ê ji we re dibêjim ka qeydên dengdanê-hilbijêre dengdana (Ansolabehere and Hersh 2012) û ceribandin (Bond et al. 2012) .
Ez difikirim ku fikra veguhestina bingehîn ji çavkaniyên agahdariya mezin û hîn dikir berî berî bi taybetî li ser taybetmendiyên mezin ên çavkaniyên agahdariya mezin (beşa 2.3) û çawa dikare di lêkolînê de (beşa 2.4), ez dixwazim bikar bînin. ji bo şewitandina du herdu şêwirmendên gelemperî pêşkêş dikin. Ya yekem, ew dikare ji bo ku lihevhatina wê ya ku di navbera damezrandina "dane" û "dane" hatine damezrandin. Ew nêzîk e, lê ew ne rast e. Her çiqas, ji ber çavdêriya lêkolîner, çavkaniyên daneyên mezin ên "found," ew ne tenê ji ezmên ketin. Di şûna de, çavkaniyên daneyên ku "lêkolîn" têne lêkolîner têne ji aliyê kesek ve ji bo hinek armanc ve têne çêkirin. Ji ber ku "daneyên" daneyên kesek ji hêla kesek ve hatiye çêkirin, ez herdem pêşniyar dikin ku hûn hewce bikim ku hûn bi der barê mirov û pêvajoyên ku ji daneyên we ve çêbibe bizanibin. Duyemîn, dema ku hûn daneyên dubare kirin, ew pir caran alîkarî dide ku datasetek ji bo pirsgirêka we ya xwe bifikirînin û paşê wê dataset-yê îdeal bi hev re bikar tînin. Heke hûn xwe daneyên xwe danîn, dibe ku hebin ku di nav xwe de bixwazin û kîjan we hene. Di vê mijarê de nirxandina van cudahiyan dê alîkarî bikin ku hûn çi dikane û ji agahiyên ku we hene ne fêr bibin, û dibe ku ew daneyên nû yên pêşniyar bikin ku hûn kom bikin.
Di ezmûnê min de, zanistên zanistî û zanistên zanistî digerin ku nêzîkî pir cuda ye. Zanistên civakî, yên ku bi daneyên lêkolînê hatine damezrandin, bi gelemperî zûtirîn ku pirsgirêkên bi danûstandinên danûstandinan di dema ku hêza xwe berbiçav dikin têne kirin. Ji aliyê din ve, zanistên zanyarî bi gelemperî bi awayekî zelal têne xistin ku fonksiyonên danûstandinên danûstandinan û dema kêmasiyên wê nebînin. Bi taybetî, nêzîkbûna çêtirîn çêtir e. Ew e ku, lêkolîner divê hewceyên taybetmendiyên çavkaniya daneyên mezin ên-fêr bikin - herdu baş û xirab-û paşê bizanin ka çawa çawa ji wan re fêr bibin. Û, planek ji bo mayî ya vê beşê ye. Di beşa paşê de, ez ê taybetmendiyên gelemperî yên çavkaniyên daneyên mezin ên girîng binivîse. Piştre, di beşa jêr de, ez ê rêbazên sê lêkolînan binirxînin ku dikare bi daneyên bi vî rengî re dixebite.