Rumah Keuangan Pribadi Bagaimana Menguji Model Analisis Prediktif - dummies

Bagaimana Menguji Model Analisis Prediktif - dummies

Daftar Isi:

Video: Uji Regresi dengan Variabel Moderasi MRA dalam SPSS 2024

Video: Uji Regresi dengan Variabel Moderasi MRA dalam SPSS 2024
Anonim

Untuk dapat menguji model analisis prediktif yang Anda bangun, Anda perlu membagi dataset Anda menjadi dua set: kumpulan data pelatihan dan tes. Kumpulan data ini harus dipilih secara acak dan harus merupakan representasi yang baik dari populasi sebenarnya.

  • Data serupa harus digunakan untuk dataset pelatihan dan tes.

  • Biasanya dataset pelatihan secara signifikan lebih besar daripada dataset tes.

  • Menggunakan dataset uji membantu Anda menghindari kesalahan seperti overfitting.

  • Model yang dilatih dijalankan terhadap data uji untuk melihat seberapa baik model akan tampil.

Beberapa data ilmuwan lebih memilih untuk memiliki dataset ketiga yang memiliki karakteristik yang mirip dengan dua data pertama: sebuah validation dataset . Idenya adalah bahwa jika Anda secara aktif menggunakan data pengujian untuk menyempurnakan model Anda, Anda harus menggunakan perangkat terpisah (ketiga) untuk memeriksa keakuratan model.

Memiliki dataset validasi, yang tidak digunakan sebagai bagian dari proses pengembangan model Anda, membantu memastikan perkiraan netral tentang keefektifan dan keefektifan model.

Jika Anda telah membuat beberapa model dengan menggunakan berbagai algoritma, sampel validasi juga dapat membantu Anda mengevaluasi model mana yang terbaik.

Pastikan Anda memeriksa ulang pekerjaan Anda untuk mengembangkan dan menguji modelnya. Secara khusus, bersikap skeptis jika performa atau keakuratan model nampaknya terlalu bagus untuk menjadi kenyataan. Kesalahan bisa terjadi di mana Anda paling tidak mengharapkannya. Tanggal penghitungan yang salah untuk data deret waktu, misalnya, dapat menyebabkan hasil yang keliru.

Cara menggunakan cross-validation

Cross-validation adalah teknik populer yang dapat Anda gunakan untuk mengevaluasi dan memvalidasi model Anda. Prinsip penggunaan dataset yang sama untuk pengujian dan pelatihan berlaku di sini: Data pelatihan digunakan untuk membangun model; model dijalankan terhadap pengujian yang ditetapkan untuk memprediksi data yang belum pernah dilihat sebelumnya, yang merupakan salah satu cara untuk mengevaluasi keakuratannya.

Dalam validasi silang, data historis dibagi menjadi bilangan X dari himpunan bagian. Setiap kali subset dipilih untuk digunakan sebagai data uji, sisa himpunan bagian digunakan sebagai data pelatihan. Kemudian, pada tahap berikutnya, set tes sebelumnya menjadi salah satu set pelatihan dan salah satu dari rangkaian pelatihan sebelumnya menjadi rangkaian tes.

Proses berlanjut sampai setiap subset dari jumlah set X itu telah digunakan sebagai rangkaian tes.

Sebagai contoh, bayangkan Anda memiliki kumpulan data yang telah Anda terbagi menjadi 5 set yang diberi nomor 1 sampai 5. Pada tahap pertama, Anda menggunakan set 1 sebagai set tes dan gunakan set 2, 3, 4 dan 5 sebagai set pelatihan..Kemudian, pada run kedua, Anda menggunakan set 2 sebagai set tes dan menetapkan 1, 3, 4, dan 5 sebagai set pelatihan.

Anda melanjutkan proses ini sampai setiap subset dari 5 set telah digunakan sebagai test set.

Validasi silang memungkinkan Anda menggunakan setiap titik data dalam data historis Anda untuk pelatihan dan pengujian. Teknik ini lebih efektif daripada hanya membelah data historis Anda menjadi dua set, menggunakan himpunan dengan data terbanyak untuk pelatihan, dengan menggunakan rangkaian tes lainnya, dan membiarkannya pada saat itu.

Saat Anda menyvalidasi silang data Anda, Anda melindungi diri dari data uji pemindaian secara acak yang terlalu mudah diprediksi - yang akan memberi kesan palsu bahwa model Anda akurat. Atau, jika Anda kebetulan memilih data uji yang terlalu sulit diprediksi, Anda mungkin secara keliru menyimpulkan bahwa model Anda tidak berkinerja seperti yang Anda harapkan.

Cross-validation banyak digunakan tidak hanya untuk memvalidasi keakuratan model tapi juga untuk membandingkan kinerja beberapa model.

Bagaimana menyeimbangkan bias dan varians

Bias dan varians adalah dua sumber kesalahan yang dapat terjadi saat Anda membangun model analitis Anda.

Bias adalah hasil dari membangun model yang secara signifikan menyederhanakan penyajian hubungan antara titik data dalam data historis yang digunakan untuk membangun model.

Varians adalah hasil dari membangun model yang secara eksplisit spesifik untuk data yang digunakan untuk membangun model.

Mencapai keseimbangan antara bias dan varians - dengan mengurangi varians dan toleransi beberapa bias - dapat menyebabkan model prediksi yang lebih baik. Trade-off ini biasanya mengarah pada pengembangan model prediktif yang kurang kompleks.

Banyak algoritma data mining telah dibuat untuk memperhitungkan trade-off antara bias dan varians ini.

Cara memecahkan masalah gagasan

Saat menguji model Anda dan mendapati diri Anda tidak menuju ke mana-mana, inilah beberapa gagasan yang perlu dipertimbangkan agar bisa kembali berjalan:

  • Selalu periksa kembali pekerjaan Anda. Anda mungkin telah mengabaikan sesuatu yang Anda anggap benar tapi sebenarnya tidak. Kelemahan seperti itu bisa muncul (misalnya) di antara nilai variabel prediktif dalam dataset Anda, atau dalam preprocessing yang Anda gunakan pada data.

  • Jika algoritma yang Anda pilih tidak menghasilkan hasil apapun, cobalah algoritma lain. Misalnya, Anda mencoba beberapa algoritma klasifikasi yang tersedia dan bergantung pada data dan tujuan bisnis model Anda, salah satunya mungkin berkinerja lebih baik daripada yang lain.

  • Coba pilih variabel yang berbeda atau buat variabel turunan baru. Jadilah selalu mencari variabel yang memiliki kekuatan prediktif.

  • Sering berkonsultasi dengan pakar domain bisnis yang dapat membantu Anda memahami data, memilih variabel, dan menafsirkan hasil model.

Bagaimana Menguji Model Analisis Prediktif - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...