Bagaimana Menguji Model Analisis Prediktif - dummies

Untuk dapat menguji model analisis prediktif yang Anda bangun, Anda perlu membagi dataset Anda menjadi dua set: kumpulan data pelatihan dan tes. Kumpulan data ini harus dipilih secara acak dan harus merupakan representasi yang baik dari populasi sebenarnya.

Data serupa harus digunakan untuk dataset pelatihan dan tes.
Biasanya dataset pelatihan secara signifikan lebih besar daripada dataset tes.
Menggunakan dataset uji membantu Anda menghindari kesalahan seperti overfitting.
Model yang dilatih dijalankan terhadap data uji untuk melihat seberapa baik model akan tampil.

Beberapa data ilmuwan lebih memilih untuk memiliki dataset ketiga yang memiliki karakteristik yang mirip dengan dua data pertama: sebuah validation dataset . Idenya adalah bahwa jika Anda secara aktif menggunakan data pengujian untuk menyempurnakan model Anda, Anda harus menggunakan perangkat terpisah (ketiga) untuk memeriksa keakuratan model.

Memiliki dataset validasi, yang tidak digunakan sebagai bagian dari proses pengembangan model Anda, membantu memastikan perkiraan netral tentang keefektifan dan keefektifan model.

Jika Anda telah membuat beberapa model dengan menggunakan berbagai algoritma, sampel validasi juga dapat membantu Anda mengevaluasi model mana yang terbaik.

Pastikan Anda memeriksa ulang pekerjaan Anda untuk mengembangkan dan menguji modelnya. Secara khusus, bersikap skeptis jika performa atau keakuratan model nampaknya terlalu bagus untuk menjadi kenyataan. Kesalahan bisa terjadi di mana Anda paling tidak mengharapkannya. Tanggal penghitungan yang salah untuk data deret waktu, misalnya, dapat menyebabkan hasil yang keliru.

Cara menggunakan cross-validation

Cross-validation adalah teknik populer yang dapat Anda gunakan untuk mengevaluasi dan memvalidasi model Anda. Prinsip penggunaan dataset yang sama untuk pengujian dan pelatihan berlaku di sini: Data pelatihan digunakan untuk membangun model; model dijalankan terhadap pengujian yang ditetapkan untuk memprediksi data yang belum pernah dilihat sebelumnya, yang merupakan salah satu cara untuk mengevaluasi keakuratannya.

Dalam validasi silang, data historis dibagi menjadi bilangan X dari himpunan bagian. Setiap kali subset dipilih untuk digunakan sebagai data uji, sisa himpunan bagian digunakan sebagai data pelatihan. Kemudian, pada tahap berikutnya, set tes sebelumnya menjadi salah satu set pelatihan dan salah satu dari rangkaian pelatihan sebelumnya menjadi rangkaian tes.

Proses berlanjut sampai setiap subset dari jumlah set X itu telah digunakan sebagai rangkaian tes.

Sebagai contoh, bayangkan Anda memiliki kumpulan data yang telah Anda terbagi menjadi 5 set yang diberi nomor 1 sampai 5. Pada tahap pertama, Anda menggunakan set 1 sebagai set tes dan gunakan set 2, 3, 4 dan 5 sebagai set pelatihan..Kemudian, pada run kedua, Anda menggunakan set 2 sebagai set tes dan menetapkan 1, 3, 4, dan 5 sebagai set pelatihan.

Anda melanjutkan proses ini sampai setiap subset dari 5 set telah digunakan sebagai test set.

Validasi silang memungkinkan Anda menggunakan setiap titik data dalam data historis Anda untuk pelatihan dan pengujian. Teknik ini lebih efektif daripada hanya membelah data historis Anda menjadi dua set, menggunakan himpunan dengan data terbanyak untuk pelatihan, dengan menggunakan rangkaian tes lainnya, dan membiarkannya pada saat itu.

Saat Anda menyvalidasi silang data Anda, Anda melindungi diri dari data uji pemindaian secara acak yang terlalu mudah diprediksi - yang akan memberi kesan palsu bahwa model Anda akurat. Atau, jika Anda kebetulan memilih data uji yang terlalu sulit diprediksi, Anda mungkin secara keliru menyimpulkan bahwa model Anda tidak berkinerja seperti yang Anda harapkan.

Cross-validation banyak digunakan tidak hanya untuk memvalidasi keakuratan model tapi juga untuk membandingkan kinerja beberapa model.

Bagaimana menyeimbangkan bias dan varians

Bias dan varians adalah dua sumber kesalahan yang dapat terjadi saat Anda membangun model analitis Anda.

Bias adalah hasil dari membangun model yang secara signifikan menyederhanakan penyajian hubungan antara titik data dalam data historis yang digunakan untuk membangun model.

Varians adalah hasil dari membangun model yang secara eksplisit spesifik untuk data yang digunakan untuk membangun model.

Mencapai keseimbangan antara bias dan varians - dengan mengurangi varians dan toleransi beberapa bias - dapat menyebabkan model prediksi yang lebih baik. Trade-off ini biasanya mengarah pada pengembangan model prediktif yang kurang kompleks.

Banyak algoritma data mining telah dibuat untuk memperhitungkan trade-off antara bias dan varians ini.

Cara memecahkan masalah gagasan

Saat menguji model Anda dan mendapati diri Anda tidak menuju ke mana-mana, inilah beberapa gagasan yang perlu dipertimbangkan agar bisa kembali berjalan:

Selalu periksa kembali pekerjaan Anda. Anda mungkin telah mengabaikan sesuatu yang Anda anggap benar tapi sebenarnya tidak. Kelemahan seperti itu bisa muncul (misalnya) di antara nilai variabel prediktif dalam dataset Anda, atau dalam preprocessing yang Anda gunakan pada data.
Jika algoritma yang Anda pilih tidak menghasilkan hasil apapun, cobalah algoritma lain. Misalnya, Anda mencoba beberapa algoritma klasifikasi yang tersedia dan bergantung pada data dan tujuan bisnis model Anda, salah satunya mungkin berkinerja lebih baik daripada yang lain.
Coba pilih variabel yang berbeda atau buat variabel turunan baru. Jadilah selalu mencari variabel yang memiliki kekuatan prediktif.
Sering berkonsultasi dengan pakar domain bisnis yang dapat membantu Anda memahami data, memilih variabel, dan menafsirkan hasil model.