Batas Data Peringkat dalam Mesin Belajar - dummies

Video: Cara kerja Vbdata 2025

Data penilaian memiliki keterbatasan dalam pembelajaran mesin. Agar sistem recommender bekerja dengan baik, mereka perlu mengetahui tentang Anda dan juga orang lain, keduanya menyukai Anda dan berbeda dari Anda Memperoleh data rating memungkinkan sistem recommender untuk belajar dari pengalaman beberapa pelanggan. Data penilaian dapat diturunkan dari penilaian (seperti menilai produk menggunakan bintang atau angka) atau fakta (biner 1/0 yang sederhana menyatakan bahwa Anda membeli produk, melihat film, atau berhenti browsing di halaman web tertentu).

Tidak peduli sumber data atau jenisnya, data pemeringkatan selalu tentang perilaku. Untuk menilai film, Anda harus memutuskan untuk melihatnya, menontonnya, dan kemudian menilai berdasarkan pengalaman menonton film. Sistem rekomendasi yang sebenarnya belajar dari data penilaian dengan berbagai cara:

Penyaringan kolaboratif: Cocok Penilai berdasarkan kemiripan film atau produk yang digunakan di masa lalu. Anda bisa mendapatkan rekomendasi berdasarkan item disukai oleh orang-orang yang mirip dengan Anda atau barang serupa dengan yang Anda sukai.
Penyaringan berbasis konten: Melampaui kenyataan bahwa Anda menonton film. Ini memeriksa fitur yang relatif terhadap Anda dan film untuk menentukan apakah ada kecocokan berdasarkan kategori yang lebih besar yang mewakili fitur. Misalnya, jika Anda adalah wanita yang menyukai film laga, recommender akan mencari saran yang mencakup persimpangan dua kategori ini.
Rekomendasi berbasis pengetahuan: Berdasarkan metadata, seperti preferensi yang diungkapkan oleh pengguna dan deskripsi produk. Ini bergantung pada pembelajaran mesin dan efektif bila Anda tidak memiliki cukup data perilaku untuk menentukan karakteristik pengguna atau produk. Ini disebut cold start dan merupakan salah satu tugas recommender yang paling sulit karena Anda tidak memiliki akses ke pemfilteran kolaboratif atau penyaringan berbasis konten.

Bila menggunakan penyaringan kolaboratif, Anda perlu menghitung kesamaan. Terlepas dari jarak Euclidean, Manhattan, dan Chebyshev, sisa informasi ini membahas kesamaan kosinus. Kesamaan kosinus mengukur jarak kosinus sudut antara dua vektor, yang mungkin tampak seperti konsep yang sulit dipahami namun hanyalah cara untuk mengukur sudut pada ruang data.

Bayangkan sebuah ruang yang terbuat dari fitur dan memiliki dua titik. Anda bisa mengukur jarak antar titik. Misalnya, Anda bisa menggunakan jarak Euclidean, yang merupakan pilihan tepat saat Anda memiliki beberapa dimensi, namun gagal total bila Anda memiliki banyak dimensi karena kutukan dimensi.

Gagasan di balik jarak kosinus adalah dengan menggunakan sudut yang diciptakan oleh dua titik yang terhubung ke asal ruang (titik di mana semua dimensi adalah nol). Jika titik-titik di dekat, sudutnya sempit, tidak peduli berapa banyak dimensi yang ada. Jika jaraknya jauh, sudutnya cukup besar. Kesamaan kosinus menerapkan jarak kosinus sebagai persentase dan cukup efektif untuk mengetahui apakah pengguna mirip dengan yang lain atau apakah sebuah film dapat dikaitkan ke yang lain karena pengguna yang sama mendukungnya. Contoh berikut menempatkan film yang merupakan film yang paling mirip dengan film 50, Star Wars. print (colnames (MovieLense [50]))

[1] "Star Wars (1977)"

similar_movies <- kesamaan (MovieLense [50],

MovieLense [-50],

yang = "item")

colnames (similar_movies) [yang (similar_movies> 0. 70)]

[1] "Toy Story (1995)" < "Kekaisaran Kembali, The (1980)"

[3] "Raiders of the Lost Ark (1981)"

"Kembalinya Jedi (1983)"