Daftar Isi:
- Tugas: Memilih data
- Tugas: Membersihkan data
- Tugas: Membangun data
- Tugas: Mengintegrasikan data
- Tugas: Memformat data
Video: CRISP DM 2024
Penambang data menghabiskan sebagian besar waktunya pada tahap ketiga dari model Proses Standar Industri Silang untuk Proses Data Mining (CRISP-DM): persiapan data. Sebagian besar data yang digunakan untuk pengumpulan data pada awalnya dikumpulkan dan dipelihara untuk keperluan lain dan memerlukan penyempurnaan sebelum siap digunakan untuk pemodelan.
Tahap persiapan data mencakup lima tugas . Ini adalah
-
Memilih data
-
Membersihkan data
-
Membangun data
-
Mengintegrasikan data
-
Memformat data
Panduan langkah demi langkah CRISP-DM tidak secara eksplisit menyebutkan kumpulan data sebagai kiriman untuk masing-masing tugas penyusunan data, namun kumpulan data tersebut sudah lebih baik dan benar diarsipkan dan didokumentasikan. Dataset tidak akan sesuai satu-ke-satu dengan tugas, namun informasi tentang data yang digunakan harus disertakan dalam setiap laporan pengiriman.
Tugas: Memilih data
Sekarang Anda akan menentukan bagian data yang Anda miliki sebenarnya akan digunakan untuk data mining.
Penyerahan tugas ini adalah alasan untuk memasukkan dan mengucilkan. Di dalamnya, Anda akan menjelaskan data apa yang akan dan tidak akan digunakan untuk pekerjaan penambangan data lebih lanjut.
Anda akan menjelaskan alasan untuk menyertakan atau mengecualikan setiap bagian data yang Anda miliki, berdasarkan relevansi dengan sasaran, kualitas data, dan masalah teknis - seperti batasan jumlah bidang atau baris yang dapat digunakan alat Anda. menangani, atau kesesuaian format data untuk kebutuhan anda.
Tugas: Membersihkan data
Data yang Anda pilih untuk digunakan tidak mungkin sangat bersih (bebas dari kesalahan). Anda akan melakukan perubahan, mungkin melacak sumber untuk membuat koreksi data yang spesifik, tidak termasuk beberapa kasus atau sel individual (item data), atau mengganti beberapa item data dengan nilai default atau penggantian yang dipilih dengan teknik pemodelan yang lebih canggih. Anda dapat memilih untuk hanya menggunakan himpunan bagian data untuk semua atau beberapa pekerjaan penambangan data Anda.
Penyerahan tugas ini adalah laporan pembersihan data, yang mendokumentasikan, dalam detail yang menyiksa, setiap keputusan dan tindakan yang digunakan untuk membersihkan data Anda. Laporan ini harus mencakup dan mengacu pada setiap masalah kualitas data yang diidentifikasi dalam memverifikasi kualitas data dalam tahap pemahaman data proses. Laporan Anda juga harus mengatasi dampak potensial pada hasil pilihan yang Anda buat selama pembersihan data.
Tugas: Membangun data
Anda mungkin perlu mendapatkan beberapa bidang baru (misalnya, gunakan tanggal pengiriman dan tanggal ketika pelanggan memesan untuk menghitung berapa lama pelanggan menunggu untuk menerima pesanan), data agregat, atau membuat bentuk data baru.
Hasil yang dapat diterima untuk tugas ini mencakup dua laporan:
-
Atribut berurutan: Laporan yang menjelaskan bidang baru yang telah Anda bangun, bagaimana Anda melakukannya, dan mengapa.
-
Catatan yang dihasilkan: Laporan yang menjelaskan kasus baru (baris) yang telah Anda bangun, bagaimana Anda melakukannya, dan mengapa.
Meskipun menggabungkan data dan memformat tugas data tercantum terakhir dalam tahap proses ini, namun tidak selalu datang terakhir, dan mungkin tidak muncul satu kali saja. Anda mungkin harus melakukan penggabungan atau pemformatan awal di tahap persiapan data.
Tugas: Mengintegrasikan data
Data Anda mungkin ada di beberapa kumpulan data yang berbeda. Anda harus menggabungkan beberapa atau semua kumpulan data yang berbeda untuk bersiap-siap untuk tahap pemodelan.
Penyerahan tugas ini adalah data gabungan. (Dan tidak ada salahnya untuk mendokumentasikan bagaimana gabungan itu dilakukan.)
Tugas: Memformat data
Data sering kali masuk ke Anda dalam format selain format yang paling sesuai untuk pemodelan. (Perubahan format biasanya didorong oleh disain alat Anda.) Jadi, ubahlah formatnya sekarang.
Penyerahan tugas ini adalah data diformat ulang Anda. (Dan sedikit laporan yang menjelaskan perubahan yang Anda buat akan menjadi hal yang cerdas untuk disertakan.)
Anda harus mengakhiri tahap persiapan data proses penambangan data dengan dataset yang siap dipodelkan dan laporan menyeluruh yang menjelaskan kumpulan data.