Rumah Keuangan Pribadi Missing Values ​​in Your Data - dummies

Missing Values ​​in Your Data - dummies

Daftar Isi:

Video: 2: Dealing with missing data 2024

Video: 2: Dealing with missing data 2024
Anonim

Salah satu masalah data yang paling sering dan paling berantakan untuk ditangani adalah kehilangan data. File bisa tidak lengkap karena catatan dijatuhkan atau perangkat penyimpanan terisi. Atau bidang data tertentu mungkin tidak berisi data untuk beberapa catatan. Yang pertama dari masalah ini dapat didiagnosis dengan hanya melakukan verifikasi jumlah rekaman untuk file. Masalah kedua adalah lebih sulit untuk dihadapi.

Untuk memasukkannya ke dalam istilah sederhana, ketika Anda menemukan bidang yang berisi nilai yang hilang, Anda memiliki dua pilihan:

  • Abaikan itu.

  • Stick sesuatu di lapangan.

Mengabaikan masalah

Dalam beberapa kasus, Anda mungkin hanya menemukan satu bidang dengan sejumlah besar nilai yang hilang. Jika demikian, hal yang paling mudah dilakukan adalah mengabaikan lapangan saja. Jangan memasukkannya ke dalam analisis Anda.

Cara lain untuk mengabaikan masalahnya adalah dengan mengabaikan catatan. Cukup hapus catatan yang berisi data yang hilang. Ini mungkin masuk akal jika hanya ada sedikit catatan nakal. Tetapi jika ada beberapa bidang data yang berisi sejumlah besar nilai yang hilang, pendekatan ini dapat mengurangi jumlah rekaman Anda ke tingkat yang tidak dapat diterima.

Hal lain yang harus diwaspadai sebelum menghapus catatan hanyalah tanda sebuah pola. Misalnya, Anda menganalisis kumpulan data terkait saldo kartu kredit secara nasional. Anda mungkin menemukan sejumlah besar catatan yang menunjukkan $ 0. 00 saldo (mungkin sekitar setengah dari catatan). Ini bukan dengan sendirinya merupakan indikasi kehilangan data. Namun, jika semua catatan dari, katakanlah, California menunjukkan $ 0. 00 saldo, yang mengindikasikan potensi nilai-nilai yang hilang. Dan itu bukan masalah yang bisa dipecahkan dengan mudah dengan menghapus semua catatan dari negara bagian terbesar di negara ini. Dalam kasus ini, mungkin ini adalah masalah sistem dan menunjukkan bahwa file baru harus dibuat.

Secara umum, menghapus catatan adalah solusi yang mudah namun tidak ideal untuk masalah nilai yang hilang. Jika masalahnya relatif kecil dan tidak ada pola yang jelas terhadap kelalaiannya, mungkin tidak masalah membuang rekaman yang menyinggung dan terus berlanjut. Tapi seringkali pendekatan yang lebih prima diperlukan.

Mengisi data yang hilang

Mengisi data yang hilang berarti membuat dugaan terdidik tentang apa yang ada di bidang itu. Ada cara bagus dan buruk untuk melakukan ini. Salah satu pendekatan sederhana (tapi buruk) adalah mengganti nilai yang hilang dengan rata-rata yang tidak ada yang hilang. Di bidang non-numerik, Anda mungkin tergoda untuk mengisi catatan yang hilang dengan nilai yang paling umum di catatan lainnya (mode).

Pendekatan ini, sayangnya, masih sering digunakan dalam beberapa aplikasi bisnis.Tapi mereka dianggap secara luas oleh ahli statistik sebagai ide buruk. Untuk satu hal, keseluruhan dari analisis statistik adalah mencari data yang membedakan satu hasil dengan hasil yang lain. Dengan mengganti semua catatan yang hilang dengan nilai yang sama, Anda belum membedakan apapun.

Pendekatan yang lebih highbrow adalah mencoba menemukan cara untuk memprediksi dengan cara yang berarti nilai apa yang harus diisi pada setiap record yang kehilangan nilai. Ini melibatkan melihat catatan lengkap dan mencoba menemukan petunjuk mengenai nilai yang mungkin hilang.

Misalkan Anda menganalisis file demografis untuk memprediksi kemungkinan pembeli salah satu produk Anda. Dalam file yang Anda miliki, antara lain bidang, informasi tentang status perkawinan, jumlah anak, dan jumlah mobil. Untuk beberapa alasan, jumlah bidang autos hilang dalam sepertiga dari catatan.

Dengan menganalisis dua bidang lainnya - status perkawinan dan jumlah anak - Anda mungkin menemukan beberapa pola. Orang lajang cenderung memiliki satu mobil. Orang yang sudah menikah tanpa anak cenderung memiliki dua mobil. Menikah dengan lebih dari satu anak mungkin lebih mungkin memiliki tiga mobil. Dengan cara ini, Anda bisa menebak nilai yang hilang dengan cara yang benar-benar membedakan catatan. Lebih lanjut tentang pendekatan ini untuk datang.

Ada istilah umum dalam statistik dan pengolahan data yang mengacu pada data yang dipertanyakan. Istilah ribut digunakan untuk menggambarkan data yang tidak dapat dipercaya, korup, atau kurang dari yang asli. Data yang hilang hanyalah salah satu contohnya. Penjelasan rinci tentang teknik pembersihan data berisik pada umumnya berada di luar cakupan buku ini. Sebenarnya, ini adalah bidang penelitian yang aktif dalam teori statistik. Fakta bahwa semua kebisingan tidak semudah dilihat karena nilai yang hilang membuatnya merepotkan untuk dihadapi.

Missing Values ​​in Your Data - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...