Daftar Isi:
Video: Cara Mudah Uji Validitas Menggunakan SPSS - Full Tutorial 2024
Saat Anda mempelajari bahasa pemrograman baru, biasanya menulis program "hello world". Untuk pembelajaran mesin dan analisis prediktif, membuat model untuk mengklasifikasikan dataset Iris adalah program setara hello world. Ini adalah contoh yang agak sederhana, tapi sangat efektif dalam mengajarkan dasar-dasar pembelajaran mesin dan analisis prediktif.
Cara mendapatkan dataset sampel
Untuk membuat model prediktif kami, Anda harus mendownload dataset Iris Iris. Dataset ini tersedia secara bebas dari berbagai sumber, terutama di institusi akademik yang memiliki departemen mesin-belajar. Untungnya, orang-orang di cukup baik untuk memasukkan beberapa kumpulan data sampel dan fungsi pemuatan data beserta paketnya. Untuk keperluan contoh-contoh ini, Anda hanya perlu menjalankan beberapa baris kode sederhana untuk memuat data.
Bagaimana memberi label pada data Anda
Berikut adalah satu pengamatan dan fiturnya dari masing-masing kelas dataset Bunga Iris.
Panjang Sepal | Lebar Sepal | Panjang Petal | Lintang Petal | Kelas / Label Sasaran |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Ayatol (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
Setosa dapat dipisahkan dari dua kelas lainnya dengan menggambar garis lurus pada grafik di antara keduanya. Kelas Virginica dan Versicolor tidak dapat dipisahkan dengan sempurna menggunakan garis lurus - meskipun sudah dekat. Hal ini menjadikannya sebagai dataset kandidat yang sempurna untuk melakukan analisis klasifikasi namun tidak begitu baik untuk analisis clustering. Data sampel sudah diberi label. Kolom kanan (Label) di atas menunjukkan nama masing-masing kelas bunga Iris.Nama kelas disebut label label
atau ; biasanya ditugaskan ke variabel bernama y . Ini pada dasarnya adalah hasil atau hasil dari apa yang diprediksi. Dalam statistik dan pemodelan, sering disebut sebagai variabel dependen
. Hal ini tergantung pada input yang sesuai dengan panjang dan lebar sepal dan untuk kelopak panjang dan lebar. Anda mungkin juga ingin tahu apa yang berbeda tentang dataset Iris scikit preprocessed, dibandingkan dengan dataset asli. Untuk mencari tahu, Anda perlu mendapatkan file data asli. Anda bisa melakukan pencarian Google untuk iris dataset
dan mendownloadnya atau melihatnya dari salah satu institusi akademis. Hasil yang biasanya muncul lebih dulu adalah repositori belajar mesin kelas Universitas California Irvine (UCI). Dataset Iris dalam keadaan aslinya dari repositori mesin UCI dapat ditemukan di situs UCI. Jika Anda mendownloadnya, Anda harus bisa melihatnya dengan editor teks apapun. Setelah melihat data dalam file, Anda akan melihat bahwa ada lima kolom di setiap baris. Empat kolom pertama adalah pengukuran (disebut sebagai
fitur) dan kolom terakhir adalah labelnya. Labelnya berbeda antara versi asli dan scikit dari dataset Iris. Perbedaan lainnya adalah baris pertama dari file data. Ini termasuk baris header yang digunakan oleh fungsi pemuatan data scikit. Ini tidak berpengaruh pada algoritma itu sendiri. Menormalkan fitur ke angka daripada menyimpannya sebagai teks memudahkan algoritme memproses - dan ini jauh lebih hemat memori. Hal ini terutama terbukti jika Anda menjalankan kumpulan data yang sangat besar dengan banyak fitur - yang sering terjadi dalam skenario nyata.
Berikut adalah contoh data dari kedua file tersebut. Semua kolom data sama kecuali untuk Col5. Perhatikan bahwa scikit memiliki nama kelas dengan label numerik; file asli memiliki label teks
Col7
Col2
Col3 | Col4 | Col5 | scikit | 5. 1 | 3. 5 |
---|---|---|---|---|---|
1. 4 | 0. 2 | 0 | asli | 5. 1 | 3. 5 |
1. 4 | 0. 2 | Iris-setosa | scikit | 7. 0 | 3. 2 |
4. 7 | 1. 4 | 1 | asli | 7. 0 | 3. 2 |
4. 7 | 1. 4 | Iris-versicolor | scikit | 6. 3 | 3. 3 |
6. 0 | 2. 5 | 2 | asli | 6. 3 | 3. 3 |
6. 0 | 2. 5 | Iris-virginica |