Daftar Isi:
Video: Statistical Programming with R by Connor Harris 2024
Scatterplots sangat penting bagi ilmu data karena mereka dapat menunjukkan pola data yang tidak jelas bila dilihat dengan cara lain. Anda dapat melihat pengelompokan data dengan relatif mudah dan membantu pemirsa memahami kapan data dimiliki oleh grup tertentu. Anda juga dapat menunjukkan tumpang tindih antar kelompok dan bahkan menunjukkan kapan data tertentu berada di luar jangkauan yang diharapkan. Menampilkan berbagai macam hubungan dalam data ini adalah teknik lanjutan yang perlu Anda ketahui untuk memanfaatkan MatPlotLib sebaik mungkin.
Menggambarkan kelompok
Warna adalah sumbu ketiga saat bekerja dengan scatterplot. Menggunakan warna memungkinkan Anda menyoroti grup sehingga orang lain dapat melihatnya dengan lebih mudah. Contoh berikut menunjukkan bagaimana Anda dapat menggunakan warna untuk menunjukkan kelompok dalam scatterplot:
impor numpy sebagai np
import matplotlib. pyplot sebagai plt
x1 = 5 * np. acak. rand (50)
x2 = 5 * np. acak. rand (50) + 25
x3 = 30 * np. acak. rand (25)
x = np. concatenate ((x1, x2, x3))
y1 = 5 * np. acak. rand (50)
y2 = 5 * np. acak. rand (50) + 25
y3 = 30 * np. acak. rand (25)
y = np. concatenate ((y1, y2, y3))
color_array = ['b'] * 50 + ['g'] * 50 + ['r'] * 25
plt. scatter (x, y, s = [50], marker = "D", c = color_array)
plt. show ()
Contoh ini menggunakan array untuk warna. Namun, kelompok pertama berwarna biru, diikuti hijau untuk kelompok kedua. Setiap outlier muncul dalam warna merah.
Array warna bisa membuat kelompok scatterplot menonjol lebih baik.Menunjukkan korelasi
Dalam beberapa kasus, Anda perlu mengetahui arah umum yang diambil data Anda saat melihat scatterplot. Bahkan jika Anda membuat penggambaran yang jelas tentang kelompok, arah sebenarnya yang diambil data secara keseluruhan mungkin tidak jelas. Dalam hal ini, Anda menambahkan garis tren ke output. Inilah contoh menambahkan garis tren ke scatterplot yang mencakup grup.
impor numpy sebagai np
import matplotlib. pyplot sebagai plt
import matplotlib. pylab sebagai plb
x1 = 15 * np. acak. rand (50)
x2 = 15 * np. acak. rand (50) + 15
x3 = 30 * np. acak. rand (30)
x = np. concatenate ((x1, x2, x3))
y1 = 15 * np. acak. rand (50)
y2 = 15 * np. acak. rand (50) + 15
y3 = 30 * np. acak. rand (30)
y = np. concatenate ((y1, y2, y3))
color_array = ['b'] * 50 + ['g'] * 50 + ['r'] * 25
plt. scatter (x, y, s = [90], marker = "*", c = color_array)
z = np. polyfit (x, y, 1)
p = np. poly1d (z)
plb. plot (x, p (x), 'm -')
plt.show ()
Menambahkan garis tren berarti memanggil fungsi NumPy
polyfit ()
dengan data, yang mengembalikan sebuah vektor koefisien,
p
, yang meminimalkan kesalahan kuadrat terkecil. Regresi kuadrat terkecil adalah metode untuk menemukan garis yang merangkum hubungan antara dua variabel,
x
dan
y
dalam kasus ini, setidaknya di dalam domain variabel penjelas
x
. Parameter
polyfit ()
yang ketiga mengekspresikan derajat kecocokan polinomial.
Output vektor dari
polyfit ()
digunakan sebagai masukan untuk
poly1d ()
, yang menghitung titik data sumbu y sebenarnya. Panggilan untuk
plot ()
menciptakan garis tren pada scatterplot.