Daftar Isi:
Video: Tutorial Excel Belajar Kasus Rekapitulasi Data #1 Pendahuluan 2024
Saat Anda melakukan data mining, terkadang Anda memiliki lebih banyak data daripada yang Anda butuhkan untuk sebuah proyek tertentu. Berikut adalah cara untuk mengurangi apa yang Anda butuhkan.
Mempersempit sawah
Bila Anda memiliki banyak variabel dalam kumpulan data, sulit untuk menemukan atau melihat minat yang Anda minati. Dan jika dataset Anda berukuran besar, dan Anda tidak memerlukan semua variabel, jaga agar ekstra tidak menyerap sumber daya secara tidak perlu. Jadi, terkadang Anda perlu menyimpan beberapa variabel dan menjatuhkan yang lain. Angka tersebut menunjukkan contoh di KNIME, di mana alat yang tepat disebut Column Filter.
Contoh penyiapan untuk alat ini ditunjukkan pada gambar berikut.
Untuk mempersempit bidang, cari alat seleksi variabel dalam aplikasi penambangan data Anda; Ini ditemukan dengan alat lain untuk manipulasi data. Seperti alat pertambangan data lainnya, namanya bervariasi dari satu produk ke produk lain. Cari variasi pada pemetaan kolom, variabel, atau , dan objek atau .
Memilih kasus yang relevan
Kasus dengan data tidak lengkap dapat disaring sebelum membangun model. Melepaskan kasus yang tidak lengkap adalah salah satu contoh umum pemilihan data, atau penyaringan.
Tapi bagaimana Anda hanya memilih kasus yang relevan untuk setiap segmen yang Anda minati? Anda akan menggunakan alat pemilihan data.
Gambar berikut menunjukkan alat pemilihan data pada aplikasi penambangan data lain.
Gambar berikutnya menunjukkan bagaimana Anda menyiapkan alat itu untuk jenis pilihan yang lain, yang satu ini berdasarkan nilai variabel.
Sudah umum menggunakan pemilihan data semacam ini, dan beberapa aplikasi menyediakan segala macam fungsi built-in untuk membantu Anda menentukan dengan tepat kasus yang Anda inginkan. Yang satu ini memiliki beberapa fitur yang luar biasa; Ini menampilkan statistik ringkasan untuk variabel dan memberitahu Anda dengan tepat berapa banyak kasus yang memenuhi kriteria seleksi.
Sebagian besar aplikasi data mining memiliki alat untuk memilih hanya kasus yang Anda butuhkan. Lihat di menu (atau cari) untuk filter pilih atau .
Sampling
Gagasan yang populer akhir-akhir ini adalah bahwa lebih banyak data adalah data yang lebih baik. Ini bukan ide baru. Aplikasi data mining selalu dikembangkan untuk bekerja dengan sejumlah besar data. Bahkan nama "data mining" menunjukkan jumlah besar. Tetapi seringkali, bekerja dengan sampel data Anda akan memberi Anda informasi yang sama bergunanya, membuat pekerjaan Anda lebih mudah, dan menghemat waktu dan sumber daya Anda.
Sampling memainkan peran penting dalam data mining. Jika data seimbang artinya model menggunakan jumlah kasus yang sama pada masing-masing kelompok yang dibandingkan (pada contoh itu, kelompok adalah sifat yang berpindah tangan dan sifat yang tidak), walaupun satu kelompok memiliki lebih banyak kasus daripada lainnya di data asli.
Kemudian, data dipecah, dipisahkan menjadi satu subset untuk digunakan untuk melatih model dan satu lagi untuk pengujian. Dengan hanya menggunakan sampel data dalam plot koordinat paralel, lebih mudah untuk melihat dan menafsirkannya. (Scatterplots dengan ribuan poin bisa sangat sulit dibaca!) Mungkin yang terpenting, sampling hanya mengurangi jumlah data, jadi semuanya berjalan lebih cepat.