Video: Python Tutorial For Beginners | Python Full Course From Scratch | Python Programming | Edureka 2024
Sekalipun Anda memiliki cukup banyak contoh untuk melatih algoritma pembelajaran mesin sederhana dan rumit, mereka harus menyajikan nilai lengkap pada fitur, tanpa data yang hilang Memiliki contoh yang tidak lengkap membuat menghubungkan semua sinyal di dalam dan di antara fitur yang tidak mungkin. Nilai yang hilang juga menyulitkan algoritma untuk belajar selama latihan. Anda harus melakukan sesuatu tentang data yang hilang.
Paling sering, Anda dapat mengabaikan nilai yang hilang atau memperbaikinya dengan menebak kemungkinan nilai pengganti. Namun, terlalu banyak nilai yang hilang membuat prediksi lebih tidak pasti karena informasi yang hilang dapat menyembunyikan kemungkinan angka; Akibatnya, nilai yang lebih hilang dalam fitur, semakin bervariasi dan tidak tepat prediksi.
Sebagai langkah awal, hitung jumlah kasus yang hilang di setiap variabel. Bila variabel memiliki terlalu banyak kasus yang hilang, Anda mungkin perlu membuangnya dari kumpulan data pelatihan dan tes. Aturan praktis yang bagus adalah menjatuhkan variabel jika lebih dari 90 persen kasusnya hilang.
Sebaliknya, mereka sangat berbeda. Oleh karena itu, Anda tidak bisa hanya menggunakan nilai rata-rata untuk mengganti nilai yang hilang - Anda harus menggunakan pendekatan yang rumit dan menyetelnya dengan hati-hati.Selain itu, mengidentifikasi kasus yang tidak kehilangan data secara acak sulit karena memerlukan pemeriksaan lebih dekat mengenai bagaimana nilai yang hilang dikaitkan dengan variabel lain dalam dataset.
Bila data hilang secara acak, Anda dapat dengan mudah memperbaiki nilai kosong karena Anda mendapatkan petunjuk tentang nilai sebenarnya dari variabel lain. Bila data tidak hilang secara acak, Anda tidak bisa mendapatkan petunjuk bagus dari informasi lain yang tersedia kecuali jika Anda memahami keterkaitan data dengan kasus yang hilang.
Karena itu, jika Anda harus mengetahui pendapatan yang hilang dalam data Anda, dan ini hilang karena orang itu kaya raya, Anda tidak dapat mengganti nilai yang hilang dengan rata-rata sederhana karena Anda akan menggantinya dengan penghasilan menengah. Sebagai gantinya, Anda harus menggunakan rata-rata penghasilan orang kaya sebagai pengganti.
Bila data tidak hilang secara acak, fakta bahwa nilainya hilang informatif karena membantu melacak grup yang hilang. Anda dapat meninggalkan tugas mencari alasan bahwa itu hilang dari algoritma pembelajaran mesin Anda dengan membangun fitur biner baru yang melaporkan kapan nilai variabel hilang. Akibatnya, algoritma pembelajaran mesin akan mencari nilai terbaik untuk digunakan sebagai pengganti dengan sendirinya.