داده های بزرگ توسط شرکت ها و دولت ها برای اهداف غیر از تحقیق ایجاد و جمع آوری می شوند. بنابراین، با استفاده از این داده ها برای تحقیق، نیاز به بازنویسی دارد.
اولین راه که بسیاری از مردم در عصر دیجیتال با تحقیقات اجتماعی مواجه می شوند، از طریق آنچه اغلب به نام داده های بزرگ می گویند. علی رغم استفاده گسترده از این اصطلاح، هیچ توافقی در مورد اینکه چه اطلاعاتی حتی بزرگ است، وجود ندارد. با این حال، یکی از رایج ترین تعاریف داده بزرگ بر "3 Vs" تمرکز دارد: حجم، تنوع و سرعت. تقریبا اطلاعات زیادی در فرمت های مختلف وجود دارد و به طور مداوم ایجاد می شود. بعضی از طرفداران داده های بزرگ نیز "Vs" دیگر مانند Veracity و Value را اضافه می کنند، در حالی که برخی از منتقدان Vs مانند Vague و Vacuous را اضافه می کنند. به جای 3 "Vs" (یا 5 "Vs" یا 7 "Vs")، برای اهداف تحقیق اجتماعی، من فکر می کنم یک مکان بهتر برای شروع است 5 "Ws": چه کسی، چه، کجا، زمانی ، و چرا. در حقیقت، من فکر می کنم که بسیاری از چالش ها و فرصت های ایجاد شده توسط منابع اطلاعاتی بزرگ تنها از یک "W" پیروی می کنند: چرا.
در عصر انحصاری، بیشتر داده هایی که برای تحقیقات اجتماعی مورد استفاده قرار گرفته اند، به منظور انجام تحقیقات ایجاد شده اند. با این حال، در عصر دیجیتال، تعداد زیادی اطلاعات توسط شرکت ها و دولت ها برای اهداف غیر از تحقیق، مانند ارائه خدمات، تولید سود و اجرای قوانین، ایجاد می شود. افراد خلاق، با این حال، متوجه شده اند که شما می توانید این اطلاعات شرکت ها و دولت برای تحقیقات repurpose. دانشمندان می توانند با استفاده از قیاس هنر در فصل 1، همانطور که دوشامپ یک شیء یافت شده برای ایجاد هنر را به نمایش بگذارد، دانشمندان می توانند داده های موجود را برای تحقیق ایجاد کنند.
در حالی که بدون شک فرصت های بزرگی برای بازپرداخت وجود دارد، استفاده از داده هایی که برای اهداف تحقیق ایجاد نشده است نیز چالش های جدیدی را ارائه می دهد. برای مثال، یک سرویس رسانه ای اجتماعی مانند توییتر را با نظرسنجی عمومی نظرسنجی عمومی مانند نظرسنجی عمومی اجتماعی مقایسه کنید. اهداف اصلی توییتر ارائه خدمات به کاربران آن و سود است. از سوی دیگر، نظرسنجی عمومی اجتماعی بر روی ایجاد داده های کلی برای تحقیقات اجتماعی، به ویژه برای تحقیقات عمومی، تمرکز دارد. این تفاوت در اهداف به این معنی است که داده های ایجاد شده توسط توییتر و ایجاد شده توسط نظرسنجی اجتماعی عمومی دارای ویژگی های مختلف هستند، هر چند که هر دو می توانند برای مطالعه افکار عمومی استفاده شوند. توییتر در مقیاس و سرعت عمل می کند که نظرسنجی اجتماعی عمومی نمی تواند مطابقت داشته باشد، اما بر خلاف نظرسنجی اجتماعی عمومی، توییتر کاربران را به دقت نمونه نمی گیرد و به سختی کار می کند تا بتواند در طول زمان با هم مقایسه شود. از آنجا که این دو منبع داده بسیار متفاوت هستند، معنی ندارد که نظری عمومی اجتماعی بهتر از توییتر یا برعکس باشد. اگر شما می خواهید اقدامات روزانه خلق و خوی جهانی (به عنوان مثال، Golder and Macy (2011) )، توییتر بهترین است. از سوی دیگر، اگر شما بخواهید تغییرات طولانی مدت در قطبیت نگرش در ایالات متحده (به عنوان مثال، DiMaggio, Evans, and Bryson (1996) ) را درک کنید، سپس نظرسنجی عمومی اجتماعی بهترین انتخاب است. به طور کلی، به جای تلاش برای استدلال بر این که منابع بزرگ داده بهتر یا بدتر از انواع دیگر داده ها هستند، در این فصل سعی خواهد کرد که کدامیک از سوالات تحقیق را روشن کند که منابع داده بزرگ دارای ویژگی های جذاب و برای کدام دسته از سوالات آنها ممکن است ایده آل.
هنگام فکر کردن در مورد منابع بزرگ داده، بسیاری از محققان بلافاصله بر اطلاعات آنلاین ایجاد شده و جمع آوری شده توسط شرکت ها، مانند موتورهای جستجوگر و پست های رسانه های اجتماعی تمرکز می کنند. با این حال، این تمرکز باریک دو منبع مهم دیگر از اطلاعات بزرگ را از بین می برد. اول، به طور فزاینده ای از منابع داده های بزرگ شرکت های بزرگ از دستگاه های دیجیتال در دنیای فیزیکی آمده است. به عنوان مثال، در این فصل، من به شما در مورد یک مطالعه که بازنویسی داده های بازنشستگی سوپرمارکت را برای بررسی اینکه چگونه بهره وری کارگری تحت تاثیر بهره وری از همسالان خود (Mas and Moretti 2009) تحت تاثیر قرار داد. سپس، در فصل های بعد، شما را در مورد محققانی که پرونده های تماس از تلفن های همراه (Blumenstock, Cadamuro, and On 2015) و داده های صورتحساب ایجاد شده توسط برق (Allcott 2015) کنند، به شما می (Allcott 2015) . همانطور که این مثال ها را نشان می دهد، منابع اطلاعاتی شرکت بزرگ بیشتر از رفتار آنلاین است.
دومین منبع مهم داده های بزرگ که توسط تمرکز محدود بر رفتار آنلاین از دست رفته است، اطلاعاتی است که توسط دولت ها ایجاد شده است. این اطلاعات دولتی که محققان سوابق اداری دولتی نامیده اند شامل مواردی مانند سوابق مالیاتی، سوابق مدارس و پرونده های آمار حیاتی (مانند ثبت نام تولد و مرگ و میر) است. دولت ها این نوع داده ها را در برخی از موارد صدها ساله ایجاد کرده اند و دانشمندان علوم اجتماعی تا حدودی تا زمانی که دانشمندان علوم اجتماعی وجود دارند بهره برداری کنند. با این حال، چه چیزی تغییر کرده است، دیجیتال سازی است، که به موجب آن دولت ها برای جمع آوری، انتقال، ذخیره و تجزیه و تحلیل اطلاعات آسان تر ساخته اند. به عنوان مثال، در این فصل، من به شما در مورد یک مطالعه که داده ها را از مترجمان تاکسی دیجیتال دولت ایالت نیویورک ارائه می دهم، به منظور بررسی یک بحث اساسی در اقتصاد کار (Farber 2015) به شما می گویم. سپس، در فصل بعد، من به شما در مورد چگونگی استفاده از پرونده های رأی گیری جمع آوری شده توسط دولت در یک بررسی (Ansolabehere and Hersh 2012) و یک آزمایش (Bond et al. 2012) مورد استفاده قرار می (Ansolabehere and Hersh 2012) .
من فکر می کنم ایده بازپرداخت برای یادگیری از منابع داده های بزرگ اساسی است و بنابراین قبل از صحبت کردن به طور خاص درباره خواص منابع داده بزرگ (بخش 2.3) و نحوه استفاده از آنها در پژوهش (بخش 2.4)، من می خواهم برای ارائه دو قطعه مشاوره عمومی در مورد reurposing. اولا می تواند وسوسه انگیز باشد که درمورد کنتراستی که بین داده های "یافته" و "داده های طراحی شده" ایجاد کرده ام فکر کنم. این نزدیک است اما کاملا درست نیست. با این وجود، از دیدگاه محققان، منابع داده بزرگ "یافت می شوند"، آنها نه تنها از آسمان سقوط می کنند. در عوض، منابع داده ای که توسط محققان "یافته" یافت می شوند، توسط برخی افراد طراحی شده اند. از آنجا که داده های "یافته شده" توسط شخص طراحی شده است، من همیشه توصیه می کنم که در مورد افراد و فرایندهایی که داده های شما را ایجاد کرده اند، درک کنید. دوم، هنگامی که شما داده ها را بارگزاری می کنید، اغلب بسیار مفید است که مجموعه داده ای ایده آل برای مشکل خود را تصور کنید و سپس آن مجموعه داده های ایده آل را با استفاده از آن مقایسه کنید. اگر خودتان داده های خود را جمع آوری نکردید، احتمالا تفاوت های مهم بین آنچه که می خواهید و آنچه شما دارید، وجود دارد. با توجه به این تفاوت ها، به شما کمک می کند که آنچه را که می توانید و نمی توانید از داده های شما یاد بگیرد، و ممکن است داده های جدیدی را که باید جمع آوری کنید، نشان می دهد.
در تجربه من، دانشمندان علوم اجتماعی و دانشمندان اطلاعات بسیار متفاوت هستند. دانشمندان علوم اجتماعی، که به کار با داده های طراحی شده برای تحقیق عادت می کنند، به طور معمول سریع به اشاره مشکلات با داده های repurposed در حالی که نادیده گرفتن نقاط قوت آن است. از سوی دیگر، دانشمندان داده معمولا سریع به منافع داده های بازپرداخت شده اشاره می کنند و نقاط ضعف خود را نادیده می گیرند. به طور طبیعی، بهترین روش یک ترکیبی است. به این ترتیب، محققان باید ویژگی های منابع داده های بزرگ - هر دو خوب و بد را درک کنند و سپس از نحوه یادگیری آنها یاد بگیرند. و این برنامه برای بقیه این فصل است. در بخش بعد، من ده ویژگی مشترک از منابع داده بزرگ را توصیف می کنم. سپس، در بخش بعد، من سه رویکرد تحقیقاتی را که می توانند با چنین داده هایی کار کنند، شرح خواهم داد.