Video: Pelatihan dan Pengembangan 2024
Di dunia yang sempurna, Anda dapat melakukan tes pada data yang algoritma pembelajaran mesin Anda tidak pernah dipelajari sebelumnya. Namun, menunggu data segar tidak selalu layak dalam hal waktu dan biaya.
Sebagai obat sederhana pertama, Anda dapat membagi data Anda secara acak menjadi alat uji dan tes. Perpecahan bersama adalah 25 sampai 30 persen untuk pengujian dan 75 sampai 70 persen sisanya untuk pelatihan. Anda membagi data Anda yang terdiri dari tanggapan dan fitur Anda pada saat bersamaan, menjaga korespondensi antara setiap respons dan fitur-fiturnya.
Obat kedua terjadi saat Anda perlu menyetel algoritma pembelajaran Anda. Dalam kasus ini, data uji split bukanlah praktik yang baik karena menyebabkan jenis overfitting lain yang disebut pengintaian. Untuk mengatasi pengintaian, Anda memerlukan split ketiga, yang disebut set validasi. Pembagian yang disarankan adalah contoh Anda dipartisi sebagai pertiga: 70 persen untuk pelatihan, 20 persen untuk validasi, dan 10 persen untuk pengujian.
Anda harus melakukan split secara acak, yaitu, terlepas dari urutan awal data. Jika tidak, tes Anda tidak akan dapat diandalkan, karena pemesanan dapat menyebabkan overestimasi (bila ada beberapa pemesanan yang berarti) atau meremehkan (bila distribusi terlalu banyak). Sebagai solusi, Anda harus memastikan bahwa distribusi kumpulan tes tidak terlalu berbeda dengan distribusi pelatihan, dan urutan pemesanan terjadi dalam data split.
Misalnya, periksa apakah nomor identifikasi, jika tersedia, terus berlanjut di perangkat Anda. Terkadang, bahkan jika Anda benar-benar mematuhi sampling secara acak, Anda tidak dapat selalu mendapatkan distribusi serupa di antara rangkaian, terutama bila jumlah contoh Anda kecil.
Bila jumlah contoh Anda n tinggi, seperti n> 10, 000, Anda dapat dengan penuh percaya diri membuat kumpulan data yang dibagi secara acak. Bila dataset lebih kecil, membandingkan statistik dasar seperti mean, mode, median, dan varians di seluruh respon dan fitur dalam rangkaian tes dan pelatihan akan membantu Anda memahami apakah rangkaian tes tidak sesuai. Bila Anda tidak yakin bahwa perpecahan itu benar, cukup hitung ulang yang baru.