Bagaimana Menggunakan Pemasangan Curve di Predictive Analytics - dummies

Kurva pas adalah proses yang digunakan dalam analisis prediktif yang tujuannya untuk membuat sebuah kurva yang menggambarkan fungsi matematis yang paling sesuai dengan data asli (asli) dalam rangkaian data.

Kurva dapat melewati setiap titik data atau bertahan dalam sebagian besar data, mengabaikan beberapa titik data dengan harapan dapat menarik tren dari data. Dalam kedua kasus tersebut, satu fungsi matematika tunggal diberikan ke seluruh data, dengan tujuan untuk memasukkan semua titik data ke dalam kurva yang menggambarkan tren dan prediksi alat bantu.

Pemasangan kurve dapat dicapai dengan satu dari tiga cara berikut ini:

Dengan menemukan kecocokan yang tepat untuk setiap titik data (sebuah proses yang disebut interpolasi )
Dengan tetap berada di dalam sebagian besar data sambil mengabaikan beberapa titik data dengan harapan bisa menarik tren dari data
Dengan menggunakan perataan data untuk menghasilkan fungsi yang mewakili grafik yang merapikan

Kurva pas dapat digunakan untuk mengisi titik data yang mungkin untuk menggantikan nilai yang hilang atau membantu analis memvisualisasikan data.

Saat Anda berupaya menghasilkan model analisis prediktif, hindari menyesuaikan model Anda agar sesuai dengan sampel data Anda dengan sempurna. Model seperti itu akan gagal - dengan menyedihkan - untuk memprediksi dataset yang serupa namun berbeda di luar sampel data. Memasukkan model terlalu dekat ke sampel data tertentu adalah kesalahan klasik yang disebut overfitting .

Kesengsaraan yang melebihi batas

Intinya, kelebihan model adalah apa yang terjadi saat Anda meluluskan model untuk hanya mewakili data sampel Anda - yang bukan representasi data yang bagus secara keseluruhan.. Tanpa dataset yang lebih realistis untuk terus berlanjut, model tersebut kemudian dapat diganggu dengan kesalahan dan risiko saat beroperasi - dan konsekuensinya terhadap bisnis Anda bisa menjadi serius.

Overfitting model adalah jebakan umum karena orang ingin membuat model yang bekerja - dan begitu tergoda untuk menjaga variabel dan parameter tweaker sampai model bekerja dengan sempurna - dengan terlalu sedikit data. Berbuat salah adalah manusia Untungnya, manusia juga menciptakan solusi yang realistis.

Untuk menghindari overfitting model Anda ke dataset sampel Anda, pastikan untuk memiliki kumpulan data uji yang tersedia yang terpisah dari data sampel Anda. Maka Anda bisa mengukur kinerja model Anda secara mandiri sebelum membuat model operasional.

Jadi, satu pengaman umum melawan overfitting adalah membagi data Anda ke dua bagian: data pelatihan dan data uji. Kinerja model terhadap data uji akan memberi tahu Anda banyak tentang apakah model sudah siap untuk dunia nyata.

Praktik terbaik lainnya adalah memastikan bahwa data Anda mewakili populasi domain yang lebih besar yang Anda modelkan. Semua model overtrained tahu adalah fitur spesifik dari dataset sampel yang dilatihnya. Jika Anda melatih model hanya pada (katakanlah) penjualan sepatu salju di musim dingin, jangan heran jika gagal total saat dijalankan lagi pada data dari musim lain.

Cara menghindari overfitting

Ini perlu diulang: Terlalu banyak tweaker model cenderung menghasilkan overfitting. Salah satu tweak tersebut termasuk terlalu banyak variabel dalam analisis. Jauhkan variabel-variabel itu seminimal mungkin. Hanya sertakan variabel yang Anda anggap benar-benar diperlukan - yang Anda yakin akan membuat perbedaan yang signifikan pada hasilnya.

Wawasan ini hanya berasal dari pengetahuan yang mendalam tentang domain bisnis tempat Anda berada. Di situlah keahlian ahli domain dapat membantu mencegah Anda terjerumus ke dalam perangkap yang terlalu banyak.

Berikut adalah daftar praktik terbaik untuk membantu Anda menghindari selesaikan model Anda:

Memilih kumpulan data untuk bekerja dengan yang mewakili populasi secara keseluruhan.
Bagi dataset Anda ke dua bagian: latih data dan uji data.
Jaga agar variabel dianalisis sampai minimum yang sehat untuk tugas yang sedang dikerjakan.
Mintalah bantuan pakar pengetahuan domain.

Di pasar saham, misalnya, sebuah teknik analisis klasik adalah back-testing - menjalankan sebuah model terhadap data historis untuk mencari strategi trading terbaik.

Misalkan, setelah menjalankan model barunya melawan data yang dihasilkan oleh pasar bull baru-baru ini, dan men-tweak jumlah variabel yang digunakan dalam analisisnya, analis menciptakan strategi trading yang optimal - yang akan menghasilkan tingkat pengembalian tertinggi < jika dia bisa kembali dan berdagang hanya sepanjang tahun yang menghasilkan data uji. Sayangnya, dia tidak bisa. Jika dia mencoba menerapkan model itu di pasar beruang saat ini, lihat di bawah ini: Dia akan menanggung kerugian dengan menerapkan model yang terlalu dioptimalkan untuk jangka waktu yang sempit dan serangkaian kondisi yang tidak sesuai dengan kenyataan saat ini. (Jadi banyak untuk keuntungan hipotetis.)

Model ini hanya bekerja untuk pasar bull yang lenyap karena dilipat ganda, membawa atribut dari konteks yang menghasilkan data sampel - lengkap dengan spesifik, outlier, dan kekurangannya. Semua keadaan seputar dataset itu mungkin tidak akan berulang di masa depan, atau dalam representasi sebenarnya dari keseluruhan populasi - namun semuanya muncul dalam model yang overfitted.

Jika keluaran model terlalu akurat, pertimbangkan petunjuk untuk melihat lebih dekat. Mintalah bantuan pakar pengetahuan domain untuk melihat apakah hasil Anda benar-benar terlalu bagus untuk menjadi kenyataan, dan jalankan model itu pada lebih banyak data uji untuk perbandingan lebih lanjut.