Video: Penjelasan AI ( Artificial Intelligence ) - HD 2024
Sebelum memberi pengganda Mesin Vektor Pendukung (SVM) dengan data yang dimuat untuk analisis prediktif, Anda harus membagi kumpulan data lengkap ke dalam rangkaian pelatihan dan set tes
Untungnya, scikit-learn telah menerapkan sebuah fungsi yang akan membantu Anda dengan mudah membagi dataset penuh. Fungsi train_test_split mengambil sebagai masukan satu dataset dan nilai persentase. Nilai persentase digunakan untuk menentukan ukuran set tes. Fungsi mengembalikan dua dataset: dataset tes (dengan ukuran yang ditentukan) dan dataset pelatihan (yang menggunakan data yang tersisa).
Biasanya, seseorang dapat mengambil sekitar 70-80 persen data untuk digunakan sebagai rangkaian pelatihan dan menggunakan data yang tersisa sebagai rangkaian tes. Tapi dataset Iris sangat kecil (hanya 150 contoh), jadi Anda bisa mengambil 90 persennya untuk melatih model dan menggunakan 10 persen lainnya sebagai data uji untuk melihat bagaimana model prediktif Anda akan tampil.
Ketik kode berikut untuk membagi dataset Anda: >>>> dari sklearn import cross_validation >>> X_train, X_test, y_train, y_test = cross_validation. train_test_split (iris data, target iris, test_size = 0, 10, random_state = 111)
Baris pertama mengimpor perpustakaan validasi silang ke dalam sesi Anda. Baris kedua membuat rangkaian uji dari 10 persen sampel.
y_train akan berisi 135 label dalam urutan yang sama dengan 135 pengamatan.
x_test akan berisi 15 (atau 10 persen) pengamatan dan fiturnya.
y_test akan berisi 15 label dalam urutan yang sama dengan 15 pengamatan.
Kode berikut memverifikasi bahwa perpecahan adalah apa yang Anda harapkan:
Banyak pemula di bidang analisis prediktif lupa untuk membagi kumpulan data - yang memperkenalkan kelemahan desain yang serius ke dalam proyek. Jika 150 contoh penuh dimasukkan ke dalam mesin sebagai data pelatihan, data tersebut tidak akan meninggalkan data yang tidak terlihat untuk menguji model. Kemudian Anda harus menggunakan kembali beberapa contoh latihan untuk menguji model prediktif.
Anda akan melihat bahwa dalam situasi seperti ini, model selalu memprediksi kelas yang benar - karena Anda menggunakan data persis yang sama dengan yang Anda gunakan untuk melatih model ini.Model sudah pernah melihat pola ini sebelumnya; Tidak akan ada masalah hanya mengulangi apa yang dilihatnya. Model prediksi kerja perlu membuat prediksi untuk data yang belum dilihatnya.
Bila Anda memiliki instance dari classifier SVM, dataset pelatihan, dan dataset tes, Anda siap melatih model ini dengan data pelatihan. Mengetik kode berikut ke dalam penerjemah akan melakukan hal itu: >>>> svmClassifier. fit (X_train, y_train)
Baris kode ini menciptakan model kerja untuk membuat prediksi dari. Secara khusus, model prediktif yang akan memprediksi kelas Iris dataset yang tidak diberi label baru miliknya. Contoh svmClassifier akan memiliki beberapa metode yang dapat Anda panggil untuk melakukan berbagai hal.
Misalnya, setelah memanggil metode kecocokan, metode yang paling berguna untuk dipanggil adalah metode prediksi. Itu metode yang akan Anda berikan pada data baru; Sebagai gantinya, ia memprediksi hasilnya.