Daftar Isi:
- Anda telah melihat bagaimana menggunakan stat_bin () untuk meringkas data Anda ke tempat sampah, karena ini adalah stat default dari geom_bar (). Ini berarti bahwa dua baris kode berikut menghasilkan plot yang identik: >> ggplot (gempa, aes (x = kedalaman)) + geom_bar (binwidth = 50)> ggplot (gempa, aes (x = kedalaman)) + stat_bin (binwid th = 50)
- Hal yang menarik tentang stat_smooth () adalah bahwa hal itu membuat penggunaan regresi lokal secara default. R memiliki beberapa fungsi yang dapat melakukan hal ini, namun ggplot2 menggunakan fungsi loess () untuk regresi lokal. Ini berarti bahwa jika Anda ingin membuat model regresi linier, Anda harus memberi tahu stat_smooth () untuk menggunakan fungsi yang lebih halus.Anda melakukan ini dengan argumen metode.
Video: Statistical Programming with R by Connor Harris 2024
Setelah data, pemetaan, dan geom, elemen keempat dari lapisan ggplot2 di R menjelaskan bagaimana data harus diringkas. Dalam ggplot2, Anda mengacu pada ringkasan statistik ini sebagai stat.
Salah satu fitur ggplot2 yang sangat mudah digunakan adalah berbagai fungsi untuk meringkas data Anda dalam plot. Ini berarti bahwa Anda sering tidak perlu meringkas data Anda. Misalnya, tinggi batang dalam histogram menunjukkan berapa banyak pengamatan terhadap sesuatu yang Anda miliki di data Anda. Ringkasan statistik untuk ini adalah untuk menghitung pengamatan. Statistik menyebut proses ini sebagai binning, dan stat default untuk geom_bar () adalah stat_bin ().
Analog dengan cara setiap geom memiliki stat default yang terkait, masing-masing stat juga memiliki geom default.
Jadi, ini menimbulkan pertanyaan: Bagaimana Anda memutuskan apakah akan menggunakan geom atau stat? Secara teori tidak masalah apakah Anda memilih geom atau stat terlebih dahulu. Dalam prakteknya, bagaimanapun, seringkali intuitif untuk memulai dengan jenis plot terlebih dahulu - dengan kata lain, tentukan geom. Jika Anda ingin menambahkan lapisan ringkasan statistik lainnya, gunakan stat.
)
Berikut beberapa contoh praktis penggunaan fungsi stat.
Stat | Description | Default Geom |
---|---|---|
stat_bin () | Menghitung jumlah pengamatan di tempat sampah. | geom_bar () |
stat_smooth () | Buat garis halus | geom_line () |
stat_sum () | nilai tambah | geom_point () |
stat_identity () | Tidak ada rangkuman. Data plot seperti. | geom_point () |
stat_boxplot () | Ringkaskan data untuk plot kotak dan kumis. | geom_boxplot () |
Anda telah melihat bagaimana menggunakan stat_bin () untuk meringkas data Anda ke tempat sampah, karena ini adalah stat default dari geom_bar (). Ini berarti bahwa dua baris kode berikut menghasilkan plot yang identik: >> ggplot (gempa, aes (x = kedalaman)) + geom_bar (binwidth = 50)> ggplot (gempa, aes (x = kedalaman)) + stat_bin (binwid th = 50)
Data pemulusan
Paket ggplot2 juga membuatnya mudah untuk membuat garis regresi melalui data Anda. Anda menggunakan fungsi stat_smooth () untuk membuat jenis baris ini.
Hal yang menarik tentang stat_smooth () adalah bahwa hal itu membuat penggunaan regresi lokal secara default. R memiliki beberapa fungsi yang dapat melakukan hal ini, namun ggplot2 menggunakan fungsi loess () untuk regresi lokal. Ini berarti bahwa jika Anda ingin membuat model regresi linier, Anda harus memberi tahu stat_smooth () untuk menggunakan fungsi yang lebih halus.Anda melakukan ini dengan argumen metode.
Untuk menggambarkan penggunaan yang lebih halus, mulailah dengan menciptakan sebaran pengangguran di dataset panjang: >> p p
Selanjutnya, tambahkan yang lebih halus. Ini semudah menambahkan stat_smooth () ke baris kode Anda. >> p + stat_smooth ()
Grafik Anda akan terlihat seperti plot di sebelah kiri gambar di bawah ini.
Terkadang, ggplot2 menghasilkan pesan dengan tip dan informasi tambahan. Selama Anda tidak melihat peringatan atau kesalahan, Anda dapat dengan aman mengabaikan pesan ini. Dalam kasus ini, stat_smooth () memberitahu Anda bahwa defaultnya lebih halus adalah metode yang disebut
loess
(smoothing lokal). Pesan juga mengatakan Anda bisa menggunakan metode penghalusan alternatif.
Akhirnya, gunakan stat_smooth () untuk menyesuaikan dan merencanakan model regresi linier. Anda melakukan ini dengan menambahkan metode argumen = "lm": >> p + stat_smooth (method = "lm")
Grafik Anda sekarang seharusnya terlihat seperti plot ke kanan. stat_smooth (). "Width =" 535 "> Menambahkan baris regresi dengan stat_smooth ()
Tidak melakukan apapun dengan identitas
Kadang-kadang Anda tidak ingin ggplot2 meringkas data Anda dalam plot. Hal ini biasanya terjadi bila data Anda sudah diringkas sebelumnya atau bila setiap baris kerangka data Anda harus diplot secara terpisah. Dalam kasus ini, Anda ingin memberi tahu ggplot2 untuk tidak melakukan apa-apa sama sekali, dan stat untuk melakukan ini adalah stat_identity (). Anda mungkin memperhatikan bahwa stat_identity adalah statistik default untuk titik dan garis.