Rumah Keuangan Pribadi Mengidentifikasi Data Hilang untuk Pembelajaran Mesin - dummies

Mengidentifikasi Data Hilang untuk Pembelajaran Mesin - dummies

Video: Python Tutorial For Beginners | Python Full Course From Scratch | Python Programming | Edureka 2024

Video: Python Tutorial For Beginners | Python Full Course From Scratch | Python Programming | Edureka 2024
Anonim

Sekalipun Anda memiliki cukup banyak contoh untuk melatih algoritma pembelajaran mesin sederhana dan rumit, mereka harus menyajikan nilai lengkap pada fitur, tanpa data yang hilang Memiliki contoh yang tidak lengkap membuat menghubungkan semua sinyal di dalam dan di antara fitur yang tidak mungkin. Nilai yang hilang juga menyulitkan algoritma untuk belajar selama latihan. Anda harus melakukan sesuatu tentang data yang hilang.

Paling sering, Anda dapat mengabaikan nilai yang hilang atau memperbaikinya dengan menebak kemungkinan nilai pengganti. Namun, terlalu banyak nilai yang hilang membuat prediksi lebih tidak pasti karena informasi yang hilang dapat menyembunyikan kemungkinan angka; Akibatnya, nilai yang lebih hilang dalam fitur, semakin bervariasi dan tidak tepat prediksi.

Sebagai langkah awal, hitung jumlah kasus yang hilang di setiap variabel. Bila variabel memiliki terlalu banyak kasus yang hilang, Anda mungkin perlu membuangnya dari kumpulan data pelatihan dan tes. Aturan praktis yang bagus adalah menjatuhkan variabel jika lebih dari 90 persen kasusnya hilang.

Banyak alasan ada untuk kehilangan data, namun yang penting adalah apakah data tersebut hilang secara acak atau dalam urutan tertentu. Data acak yang hilang sangat ideal karena Anda bisa menebak nilainya menggunakan rata-rata sederhana, median, atau algoritma pembelajaran mesin lainnya, tanpa terlalu banyak masalah. Beberapa kasus mengandung bias yang kuat terhadap beberapa jenis contoh tertentu. Misalnya, pikirkan kasus mempelajari pendapatan suatu populasi. Orang kaya (karena alasan perpajakan, mungkin) cenderung menyembunyikan pendapatan sebenarnya mereka dengan melaporkan kepada Anda bahwa mereka tidak tahu. Orang miskin, di sisi lain, mungkin mengatakan bahwa mereka tidak ingin melaporkan pendapatan mereka karena takut penilaian negatif. Jika Anda kehilangan informasi dari strata tertentu dari populasi, memperbaiki data yang hilang bisa menjadi sulit dan menyesatkan karena Anda mungkin berpikir bahwa kasus seperti itu sama seperti kasus lainnya.

Sebaliknya, mereka sangat berbeda. Oleh karena itu, Anda tidak bisa hanya menggunakan nilai rata-rata untuk mengganti nilai yang hilang - Anda harus menggunakan pendekatan yang rumit dan menyetelnya dengan hati-hati.Selain itu, mengidentifikasi kasus yang tidak kehilangan data secara acak sulit karena memerlukan pemeriksaan lebih dekat mengenai bagaimana nilai yang hilang dikaitkan dengan variabel lain dalam dataset.

Bila data hilang secara acak, Anda dapat dengan mudah memperbaiki nilai kosong karena Anda mendapatkan petunjuk tentang nilai sebenarnya dari variabel lain. Bila data tidak hilang secara acak, Anda tidak bisa mendapatkan petunjuk bagus dari informasi lain yang tersedia kecuali jika Anda memahami keterkaitan data dengan kasus yang hilang.

Karena itu, jika Anda harus mengetahui pendapatan yang hilang dalam data Anda, dan ini hilang karena orang itu kaya raya, Anda tidak dapat mengganti nilai yang hilang dengan rata-rata sederhana karena Anda akan menggantinya dengan penghasilan menengah. Sebagai gantinya, Anda harus menggunakan rata-rata penghasilan orang kaya sebagai pengganti.

Bila data tidak hilang secara acak, fakta bahwa nilainya hilang informatif karena membantu melacak grup yang hilang. Anda dapat meninggalkan tugas mencari alasan bahwa itu hilang dari algoritma pembelajaran mesin Anda dengan membangun fitur biner baru yang melaporkan kapan nilai variabel hilang. Akibatnya, algoritma pembelajaran mesin akan mencari nilai terbaik untuk digunakan sebagai pengganti dengan sendirinya.

Mengidentifikasi Data Hilang untuk Pembelajaran Mesin - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...