Video: Jumlah dan Kepadatan Penduduk Indonesia 2024
Saat bekerja dengan statistik data yang besar, Anda mengidentifikasi penyebaran kumpulan data dari pusat dengan beberapa ukuran ringkasan yang berbeda: varians, standar deviasi, kuartil, kisaran interkuartil (IQR).
Varians adalah penyimpangan kuadrat rata-rata antara elemen dataset dan mean. Untuk contoh data, variansnya dihitung seperti ini:
dimana
-
x i adalah nilai dari satu elemen dalam sampel.
-
adalah mean sampel.
-
n adalah ukuran sampel.
Deviasi standar adalah akar kuadrat dari varians. Untuk sebagian besar aplikasi, standar deviasi lebih mudah digunakan daripada varians sebagai ukuran penyebaran. Itu karena varians diukur dalam satuan kuadrat , sedangkan standar deviasi diukur dalam satuan yang sama dengan data. Sebagai contoh, varians dari dataset yang terdiri dari harga akan diukur dalam dolar kuadrat, dan standar deviasi akan diukur dalam dolar. Standar deviasi adalah ukuran penyebaran yang paling banyak digunakan dalam kumpulan data.
Kuartil membagi dataset menjadi empat bagian yang sama. Data kuartil pertama (Q 1 ) membagi data menjadi 25 persen pengamatan terendah dan tertinggi 75 persen (25 persen dari pengamatan kurang dari Q 1 <, dan 75 persen lebih besar dari Q 1 ). Kuartil kedua (Q 2 ) membagi data menjadi 50 persen terendah dari pengamatan dan tertinggi 50 persen. Kuartil ketiga (Q 3 ) membagi data menjadi 75 persen terendah dari pengamatan dan 25 persen tertinggi. Rentang interkuartil (IQR) sama dengan perbedaan antara kuartil ketiga dan kuartil pertama:
Kuartil kumpulan data paling baik digambarkan dengan plot kotak
. Gambar berikut menunjukkan petak petir dari pengembalian harian ke ExxonMobil pada tahun 2013. Kotak petak pengembalian harian ke saham ExxonMobil pada tahun 2013.
Kotak petak menunjukkan beberapa statistik kunci untuk pengembalian ExxonMobil: > Hasil minimum ditunjukkan pada grafik sebagai satu titik di bagian bawah plot (petak kotak menunjukkanoutlier
sebagai titik individual). Q 1 ditampilkan sebagai bagian bawah kotak, Q 2 adalah garis hitam solid di tengah kotak, dan Q 3 adalah bagian atas kotak. Hasil maksimum ditampilkan sebagai satu titik di bagian atas plot.