Daftar Isi:
Video: 2: Dealing with missing data 2024
Salah satu masalah data yang paling sering dan paling berantakan untuk ditangani adalah kehilangan data. File bisa tidak lengkap karena catatan dijatuhkan atau perangkat penyimpanan terisi. Atau bidang data tertentu mungkin tidak berisi data untuk beberapa catatan. Yang pertama dari masalah ini dapat didiagnosis dengan hanya melakukan verifikasi jumlah rekaman untuk file. Masalah kedua adalah lebih sulit untuk dihadapi.
Untuk memasukkannya ke dalam istilah sederhana, ketika Anda menemukan bidang yang berisi nilai yang hilang, Anda memiliki dua pilihan:
-
Abaikan itu.
-
Stick sesuatu di lapangan.
Mengabaikan masalah
Dalam beberapa kasus, Anda mungkin hanya menemukan satu bidang dengan sejumlah besar nilai yang hilang. Jika demikian, hal yang paling mudah dilakukan adalah mengabaikan lapangan saja. Jangan memasukkannya ke dalam analisis Anda.
Cara lain untuk mengabaikan masalahnya adalah dengan mengabaikan catatan. Cukup hapus catatan yang berisi data yang hilang. Ini mungkin masuk akal jika hanya ada sedikit catatan nakal. Tetapi jika ada beberapa bidang data yang berisi sejumlah besar nilai yang hilang, pendekatan ini dapat mengurangi jumlah rekaman Anda ke tingkat yang tidak dapat diterima.
Hal lain yang harus diwaspadai sebelum menghapus catatan hanyalah tanda sebuah pola. Misalnya, Anda menganalisis kumpulan data terkait saldo kartu kredit secara nasional. Anda mungkin menemukan sejumlah besar catatan yang menunjukkan $ 0. 00 saldo (mungkin sekitar setengah dari catatan). Ini bukan dengan sendirinya merupakan indikasi kehilangan data. Namun, jika semua catatan dari, katakanlah, California menunjukkan $ 0. 00 saldo, yang mengindikasikan potensi nilai-nilai yang hilang. Dan itu bukan masalah yang bisa dipecahkan dengan mudah dengan menghapus semua catatan dari negara bagian terbesar di negara ini. Dalam kasus ini, mungkin ini adalah masalah sistem dan menunjukkan bahwa file baru harus dibuat.
Secara umum, menghapus catatan adalah solusi yang mudah namun tidak ideal untuk masalah nilai yang hilang. Jika masalahnya relatif kecil dan tidak ada pola yang jelas terhadap kelalaiannya, mungkin tidak masalah membuang rekaman yang menyinggung dan terus berlanjut. Tapi seringkali pendekatan yang lebih prima diperlukan.
Mengisi data yang hilang
Mengisi data yang hilang berarti membuat dugaan terdidik tentang apa yang ada di bidang itu. Ada cara bagus dan buruk untuk melakukan ini. Salah satu pendekatan sederhana (tapi buruk) adalah mengganti nilai yang hilang dengan rata-rata yang tidak ada yang hilang. Di bidang non-numerik, Anda mungkin tergoda untuk mengisi catatan yang hilang dengan nilai yang paling umum di catatan lainnya (mode).
Pendekatan ini, sayangnya, masih sering digunakan dalam beberapa aplikasi bisnis.Tapi mereka dianggap secara luas oleh ahli statistik sebagai ide buruk. Untuk satu hal, keseluruhan dari analisis statistik adalah mencari data yang membedakan satu hasil dengan hasil yang lain. Dengan mengganti semua catatan yang hilang dengan nilai yang sama, Anda belum membedakan apapun.
Pendekatan yang lebih highbrow adalah mencoba menemukan cara untuk memprediksi dengan cara yang berarti nilai apa yang harus diisi pada setiap record yang kehilangan nilai. Ini melibatkan melihat catatan lengkap dan mencoba menemukan petunjuk mengenai nilai yang mungkin hilang.
Misalkan Anda menganalisis file demografis untuk memprediksi kemungkinan pembeli salah satu produk Anda. Dalam file yang Anda miliki, antara lain bidang, informasi tentang status perkawinan, jumlah anak, dan jumlah mobil. Untuk beberapa alasan, jumlah bidang autos hilang dalam sepertiga dari catatan.
Dengan menganalisis dua bidang lainnya - status perkawinan dan jumlah anak - Anda mungkin menemukan beberapa pola. Orang lajang cenderung memiliki satu mobil. Orang yang sudah menikah tanpa anak cenderung memiliki dua mobil. Menikah dengan lebih dari satu anak mungkin lebih mungkin memiliki tiga mobil. Dengan cara ini, Anda bisa menebak nilai yang hilang dengan cara yang benar-benar membedakan catatan. Lebih lanjut tentang pendekatan ini untuk datang.
Ada istilah umum dalam statistik dan pengolahan data yang mengacu pada data yang dipertanyakan. Istilah ribut digunakan untuk menggambarkan data yang tidak dapat dipercaya, korup, atau kurang dari yang asli. Data yang hilang hanyalah salah satu contohnya. Penjelasan rinci tentang teknik pembersihan data berisik pada umumnya berada di luar cakupan buku ini. Sebenarnya, ini adalah bidang penelitian yang aktif dalam teori statistik. Fakta bahwa semua kebisingan tidak semudah dilihat karena nilai yang hilang membuatnya merepotkan untuk dihadapi.