Daftar Isi:
Video: Uji Validitas Part IV 2024
Volume tinggi, variasi tinggi, dan kecepatan tinggi adalah karakteristik penting dari data besar. Tapi karakteristik lain dari data besar sama pentingnya, terutama saat Anda menerapkan data besar ke proses operasional. Rangkaian karakteristik "V" kedua yang merupakan kunci untuk mengoperasikan data besar mencakup
-
Validity: Apakah data benar dan akurat untuk penggunaan yang dimaksud?
-
Veracity: Apakah hasilnya bermakna untuk ruang masalah yang diberikan?
-
Volatilitas: Berapa lama Anda perlu menyimpan data ini?
Keabsahan data yang besar
Anda menginginkan hasil yang akurat. Tapi pada tahap awal menganalisis petabyte data, kemungkinan Anda tidak akan khawatir tentang seberapa efektif setiap elemen data. Aliran awal data besar sebenarnya bisa sangat kotor. Pada tahap awal, lebih penting untuk melihat apakah ada hubungan antara elemen dalam sumber data masif ini daripada memastikan bahwa semua elemen valid.
Namun, setelah sebuah organisasi menentukan bahwa bagian dari analisis data awal itu penting, subset data besar ini harus divalidasi karena sekarang akan diterapkan pada kondisi operasional. Bila data bergerak dari penjelajahan ke tindakan yang dapat ditindaklanjuti, data harus divalidasi. Validitas sumber data yang besar dan analisis selanjutnya harus akurat jika Anda menggunakan hasilnya untuk pengambilan keputusan.
Data masukan yang valid diikuti dengan pengolahan data yang benar harus menghasilkan hasil yang akurat. Dengan data yang besar, Anda harus ekstra waspada berkenaan dengan validitasnya. Misalnya, dalam perawatan kesehatan, Anda mungkin memiliki data dari uji klinis yang dapat dikaitkan dengan gejala penyakit pasien. Tapi dokter yang merawat orang tersebut tidak bisa begitu saja mengambil hasil uji klinisnya tanpa memvalidasi mereka.
Bayangkan bahwa satelit cuaca menunjukkan bahwa badai mulai terjadi di satu bagian dunia. Bagaimana badai itu mempengaruhi individu? Dengan sekitar setengah miliar pengguna, adalah mungkin untuk menganalisis stream Twitter untuk menentukan dampak badai pada populasi lokal. Oleh karena itu, menggunakan Twitter dalam kombinasi dengan data dari satelit cuaca dapat membantu peneliti memahami kebenaran prediksi cuaca.
Data volatilitas yang besar
Jika data Anda valid dan dapat membuktikan kebenaran hasilnya, berapa lama data perlu "hidup" untuk memenuhi kebutuhan Anda? Dalam pengaturan data standar, Anda dapat menyimpan data selama beberapa dekade karena Anda memiliki, dari waktu ke waktu, membangun pemahaman tentang data apa yang penting untuk apa yang Anda lakukan dengannya.Anda telah menetapkan peraturan untuk data mata uang dan ketersediaan yang memetakan ke proses kerja Anda.
Misalnya, beberapa organisasi mungkin hanya menyimpan data dan transaksi pelanggan terbaru dalam sistem bisnis mereka. Ini akan memastikan pencarian cepat informasi ini bila diperlukan. Jika mereka perlu melihat tahun sebelumnya, tim TI mungkin perlu mengembalikan data dari penyimpanan offline untuk menghormati permintaan tersebut. Dengan data yang besar, masalah ini diperbesar.
Jika penyimpanan terbatas, lihat sumber data yang besar untuk menentukan apa yang perlu Anda kumpulkan dan berapa lama Anda harus menyimpannya. Dengan beberapa sumber data yang besar, Anda mungkin perlu mengumpulkan data untuk analisis cepat.
Anda kemudian dapat menyimpan informasi tersebut secara lokal untuk diproses lebih lanjut. Jika Anda tidak memiliki cukup penyimpanan untuk semua data ini, Anda dapat memproses data "on the fly" dan hanya menyimpan potongan informasi yang relevan secara lokal. Berapa lama Anda menyimpan data besar yang tersedia tergantung pada beberapa faktor:
-
Berapa banyak data yang disimpan di sumbernya?
-
Apakah Anda perlu mengolah data berulang kali?
-
Apakah Anda perlu mengolah data, mengumpulkan data tambahan, dan melakukan lebih banyak pemrosesan?
-
Apakah Anda memiliki peraturan atau peraturan yang mewajibkan penyimpanan data?
-
Apakah pelanggan Anda bergantung pada data Anda untuk pekerjaan mereka?
-
Apakah data masih memiliki nilai atau tidak relevan lagi?
Karena volume, variasi, dan kecepatan data yang besar, Anda perlu memahami volatilitas. Untuk beberapa sumber, datanya akan selalu ada; Bagi orang lain, ini tidak terjadi. Memahami data apa yang ada di luar sana dan untuk berapa lama dapat membantu Anda menentukan persyaratan dan kebijakan retensi untuk data besar.
Sebagai konsumen, data besar akan membantu menentukan profil yang lebih baik untuk bagaimana dan kapan Anda membeli barang dan jasa. Sebagai pasien, data besar akan membantu untuk menentukan pendekatan yang lebih disesuaikan dengan perawatan dan perawatan kesehatan. Sebagai profesional, data besar akan membantu Anda untuk mengidentifikasi cara yang lebih baik untuk merancang dan memberikan produk dan layanan Anda.
Ini hanya akan terjadi bila data besar diintegrasikan ke dalam proses operasi perusahaan dan organisasi.