Video: Prediksi Kinerja Karyawan dengan Predictive Analytics 2024
Regresi linier adalah metode statistik yang menganalisis dan menemukan hubungan antara dua variabel. Dalam analisis prediktif dapat digunakan untuk memprediksi nilai numerik masa depan suatu variabel.
Perhatikan contoh data yang berisi dua variabel: data masa lalu yang terdiri dari waktu kedatangan kereta api dan waktu tunda yang sesuai. Misalkan Anda ingin meramalkan penundaan apa yang akan terjadi untuk kereta berikutnya. Jika Anda menerapkan regresi linier ke dua variabel ini - waktu kedatangan dan penundaan - Anda dapat menghasilkan persamaan linier seperti
Delay = a + (b * Arrival time) + d
Persamaan ini mengungkapkan hubungan antara waktu tunda dan waktu kedatangan. Konstanta a dan b adalah parameter modelnya. Variabel d adalah istilah kesalahan (juga dikenal sebagai sisa ) - nilai numerik yang mewakili ketidakcocokan antara dua variabel delay > dan waktu kedatangan . Jika kesalahan tidak sama dengan nol, maka itu mungkin menunjukkan bahwa ada kriteria yang mempengaruhi variabel delay .
a, b, dan d . Regresi linier adalah (seperti yang Anda bayangkan) paling sesuai untuk data linier. Tapi itu sangat sensitif terhadap outlier di titik data. Pencilan dalam data Anda dapat memiliki dampak signifikan pada model. Dianjurkan agar Anda menyingkirkan outlier dari set pelatihan jika Anda berencana menggunakan regresi linier untuk model prediktif Anda.