Bagaimana Merepot Data Diringkas dalam ggplot2 di R - dummies

Video: Excel: Groups and Subtotals 2024

Salah satu fitur ggplot2 yang sangat mudah digunakan adalah merangkum data R Anda di plot. Ini berarti bahwa Anda sering tidak perlu meringkas data Anda. Misalnya, tinggi batang dalam histogram menunjukkan berapa banyak pengamatan terhadap sesuatu yang Anda miliki di data Anda.

Ringkasan statistik untuk ini adalah untuk menghitung pengamatan. Statistik menyebut proses ini sebagai binning, dan stat default untuk geom_bar () adalah stat_bin ().

Analog dengan cara setiap geom memiliki stat default yang terkait, masing-masing stat juga memiliki geom default.

Jadi, ini menimbulkan pertanyaan: Bagaimana Anda memutuskan apakah akan menggunakan geom atau stat? Secara teori tidak masalah apakah Anda memilih geom atau stat terlebih dahulu. Dalam prakteknya, bagaimanapun, seringkali intuitif untuk memulai dengan jenis plot terlebih dahulu - dengan kata lain, tentukan geom. Jika Anda ingin menambahkan lapisan ringkasan statistik lainnya, gunakan stat.

Dalam plot ini, Anda menggunakan data yang sama untuk pertama kali membuat scatterplot dengan geom_point () dan kemudian Anda menambahkan garis halus dengan stat_smooth ().

Lihat beberapa contoh praktis penggunaan fungsi stat.

Stat	Deskripsi	Default Geom
stat_bin ()	Menghitung jumlah pengamatan di tempat sampah.	geom_bar ()
stat_smooth ()	Buat garis halus.	geom_line ()
stat_sum ()	Menambahkan nilai.	geom_point ()
stat_identity ()	Tidak ada rangkuman. Data plot seperti.	geom_point ()
stat_boxplot ()	Ringkaskan data untuk plot kotak-dan-kumis.	geom_boxplot ()
Bagaimana data bin di ggplot2

Anda telah melihat bagaimana menggunakan stat_bin () untuk meringkas data Anda ke tempat sampah, karena ini adalah stat default dari geom_bar (). Ini berarti bahwa dua baris kode berikut menghasilkan plot yang identik: >> ggplot (gempa, aes (x = kedalaman)) + geom_bar (binwidth = 50)> ggplot (gempa, aes (x = kedalaman)) + stat_bin binwidth = 50)

Cara menghaluskan data R dalam ggplot2

Paket ggplot2 juga membuatnya sangat mudah untuk membuat garis regresi melalui data Anda. Anda menggunakan fungsi stat_smooth () untuk membuat jenis baris ini.

Hal yang menarik tentang stat_smooth () adalah bahwa hal itu membuat penggunaan regresi lokal secara default. R memiliki beberapa fungsi yang dapat melakukan hal ini, namun ggplot2 menggunakan fungsi loess () untuk regresi lokal. Ini berarti bahwa jika Anda ingin membuat model regresi linier Anda harus memberi tahu stat_smooth () untuk menggunakan fungsi yang lebih halus. Anda melakukan ini dengan argumen metode.

Untuk menggambarkan penggunaan yang lebih halus, mulailah dengan menciptakan sebaran pengangguran di dataset panjang: >> ggplot (longley, aes (x = Tahun, y = Bekerja)) + geom_point ()

Berikutnya, tambahkan lebih halus.Ini semudah menambahkan stat_smooth () ke baris kode Anda. >> ggplot (longley, aes (x = Tahun, y = Bekerja)) + + geom_point () + stat_smooth ()

Akhirnya, beritahu stat_smooth untuk menggunakan model regresi linier. Anda melakukan ini dengan menambahkan metode argumen = "lm". >> ggplot (longley, aes (x = Tahun, y = Bekerja)) + + geom_point () + stat_smooth (method = "lm")

Bagaimana cara memberitahu ggplot2 untuk meninggalkan data Anda unsummarized

Kadang-kadang Anda tidak ingin ggplot2 meringkas data Anda dalam plot. Ini biasanya terjadi bila data Anda sudah diringkas sebelumnya atau bila setiap baris kerangka data Anda harus diplot secara terpisah. Dalam kasus ini, Anda ingin memberi tahu ggplot2 untuk tidak melakukan apa-apa, dan stat untuk melakukan ini adalah stat_identity ().