Rumah Keuangan Pribadi Fase 3 dari Model Proses CRISP-DM: Data Preparation - dummies

Fase 3 dari Model Proses CRISP-DM: Data Preparation - dummies

Daftar Isi:

Video: CRISP DM 2024

Video: CRISP DM 2024
Anonim

Penambang data menghabiskan sebagian besar waktunya pada tahap ketiga dari model Proses Standar Industri Silang untuk Proses Data Mining (CRISP-DM): persiapan data. Sebagian besar data yang digunakan untuk pengumpulan data pada awalnya dikumpulkan dan dipelihara untuk keperluan lain dan memerlukan penyempurnaan sebelum siap digunakan untuk pemodelan.

Tahap persiapan data mencakup lima tugas . Ini adalah

  • Memilih data

  • Membersihkan data

  • Membangun data

  • Mengintegrasikan data

  • Memformat data

Panduan langkah demi langkah CRISP-DM tidak secara eksplisit menyebutkan kumpulan data sebagai kiriman untuk masing-masing tugas penyusunan data, namun kumpulan data tersebut sudah lebih baik dan benar diarsipkan dan didokumentasikan. Dataset tidak akan sesuai satu-ke-satu dengan tugas, namun informasi tentang data yang digunakan harus disertakan dalam setiap laporan pengiriman.

Tugas: Memilih data

Sekarang Anda akan menentukan bagian data yang Anda miliki sebenarnya akan digunakan untuk data mining.

Penyerahan tugas ini adalah alasan untuk memasukkan dan mengucilkan. Di dalamnya, Anda akan menjelaskan data apa yang akan dan tidak akan digunakan untuk pekerjaan penambangan data lebih lanjut.

Anda akan menjelaskan alasan untuk menyertakan atau mengecualikan setiap bagian data yang Anda miliki, berdasarkan relevansi dengan sasaran, kualitas data, dan masalah teknis - seperti batasan jumlah bidang atau baris yang dapat digunakan alat Anda. menangani, atau kesesuaian format data untuk kebutuhan anda.

Tugas: Membersihkan data

Data yang Anda pilih untuk digunakan tidak mungkin sangat bersih (bebas dari kesalahan). Anda akan melakukan perubahan, mungkin melacak sumber untuk membuat koreksi data yang spesifik, tidak termasuk beberapa kasus atau sel individual (item data), atau mengganti beberapa item data dengan nilai default atau penggantian yang dipilih dengan teknik pemodelan yang lebih canggih. Anda dapat memilih untuk hanya menggunakan himpunan bagian data untuk semua atau beberapa pekerjaan penambangan data Anda.

Penyerahan tugas ini adalah laporan pembersihan data, yang mendokumentasikan, dalam detail yang menyiksa, setiap keputusan dan tindakan yang digunakan untuk membersihkan data Anda. Laporan ini harus mencakup dan mengacu pada setiap masalah kualitas data yang diidentifikasi dalam memverifikasi kualitas data dalam tahap pemahaman data proses. Laporan Anda juga harus mengatasi dampak potensial pada hasil pilihan yang Anda buat selama pembersihan data.

Tugas: Membangun data

Anda mungkin perlu mendapatkan beberapa bidang baru (misalnya, gunakan tanggal pengiriman dan tanggal ketika pelanggan memesan untuk menghitung berapa lama pelanggan menunggu untuk menerima pesanan), data agregat, atau membuat bentuk data baru.

Hasil yang dapat diterima untuk tugas ini mencakup dua laporan:

  • Atribut berurutan: Laporan yang menjelaskan bidang baru yang telah Anda bangun, bagaimana Anda melakukannya, dan mengapa.

  • Catatan yang dihasilkan: Laporan yang menjelaskan kasus baru (baris) yang telah Anda bangun, bagaimana Anda melakukannya, dan mengapa.

Meskipun menggabungkan data dan memformat tugas data tercantum terakhir dalam tahap proses ini, namun tidak selalu datang terakhir, dan mungkin tidak muncul satu kali saja. Anda mungkin harus melakukan penggabungan atau pemformatan awal di tahap persiapan data.

Tugas: Mengintegrasikan data

Data Anda mungkin ada di beberapa kumpulan data yang berbeda. Anda harus menggabungkan beberapa atau semua kumpulan data yang berbeda untuk bersiap-siap untuk tahap pemodelan.

Penyerahan tugas ini adalah data gabungan. (Dan tidak ada salahnya untuk mendokumentasikan bagaimana gabungan itu dilakukan.)

Tugas: Memformat data

Data sering kali masuk ke Anda dalam format selain format yang paling sesuai untuk pemodelan. (Perubahan format biasanya didorong oleh disain alat Anda.) Jadi, ubahlah formatnya sekarang.

Penyerahan tugas ini adalah data diformat ulang Anda. (Dan sedikit laporan yang menjelaskan perubahan yang Anda buat akan menjadi hal yang cerdas untuk disertakan.)

Anda harus mengakhiri tahap persiapan data proses penambangan data dengan dataset yang siap dipodelkan dan laporan menyeluruh yang menjelaskan kumpulan data.

Fase 3 dari Model Proses CRISP-DM: Data Preparation - dummies

Pilihan Editor

Bertahan dalam Zombie Sieges di Minecraft - dummies

Bertahan dalam Zombie Sieges di Minecraft - dummies

Bermasalah dengan zombie yang menyerang desa Anda pada malam hari di Minecraft? Pelajari bagaimana untuk membela diri, menyembuhkan penduduk desa zombie, dan pulihkan dunia Anda!

Zaman Batu di Minecraft - dummies

Zaman Batu di Minecraft - dummies

Tonggak penting dalam mode Minecraft Survival, dan yang dicapai oleh beberapa pemain di Hari pertama, mencapai Zaman Batu. Setelah Anda membuat pickax kayu dan Anda bisa menemukan gua atau menggali lubang, item dalam tabel berikut tersedia untuk Anda. Sebagian besar bahan berbasis batu lebih padat dari yang lain ...

Zaman Looting di Minecraft - dummies

Zaman Looting di Minecraft - dummies

Anda mencapai Usia Looting di Minecraft di awal permainan - kadang-kadang, bahkan paralel untuk mencapai Era Kayu. Anda mulai dengan membunuh musuh untuk menjarah, dan dengan menggunakan jarahan untuk memperbaiki repertoar kerajinan Anda. Lebih banyak item kemudian tersedia bagi Anda, seperti tercantum dalam tabel. Semua alat meningkatkan jumlah ...

Pilihan Editor

Infografis tepat waktu: Berbagi Breaking News - dummies

Infografis tepat waktu: Berbagi Breaking News - dummies

Walaupun infografik Anda tidak mungkin menjadi satu-satunya sumber berita, Ini bisa membantu pemahaman pembaca akan sebuah acara berita. Misalnya, banyak orang belajar di Twitter pada bulan Oktober, 2011 bahwa pendiri Apple Steve Jobs telah meninggal dunia. Infografis tidak akan menjadi orang pertama yang mendengarnya. Tapi orang-orang ...

Pilihan Editor

GED Contoh Pertanyaan: Pertanyaan Ilmu Fisik - dummies

GED Contoh Pertanyaan: Pertanyaan Ilmu Fisik - dummies

Ketika Anda mencapai bagian Sains GED, Anda akan diharapkan memiliki pengetahuan umum di semua cabang Ilmu Pengetahuan, termasuk Ilmu Fisika. Berikut adalah contoh jenis pertanyaan yang mungkin Anda hadapi pada hari ujian. Kecepatan dan Kecepatan Ada perbedaan antara kecepatan dan kecepatan, meskipun terkadang Anda ...

Latihan GED RLA: Reading Comprehension - dummies

Latihan GED RLA: Reading Comprehension - dummies

Cara terbaik untuk mempersiapkan bagian pemahaman bacaan GED Tes RLA adalah melakukan sebanyak mungkin pertanyaan latihan. Simak sampel untuk melihat apa yang akan Anda hadapi pada hari ujian. Contoh Pertanyaan Pertanyaan 1-6 mengacu pada bagian berikut. Fasilitas untuk Akses ke Perusahaan Kreatif (FACE) Awalnya didirikan ...

GED Penalaran melalui Latihan Keterampilan Membaca Bahasa Seni - dummies

GED Penalaran melalui Latihan Keterampilan Membaca Bahasa Seni - dummies

Komponen bacaan Penalaran meskipun Bahasa Seni Bagian pada GED terdiri dari kutipan dari fiksi dan nonfiksi. Setiap kutipan diikuti oleh beberapa item pilihan berdasarkan bahan bacaan. Untuk pertanyaan di bagian ini, pilih satu jawaban terbaik untuk setiap pertanyaan. Bekerja dengan hati-hati, tapi jangan terlalu banyak menghabiskan waktu ...