Video: R demo: Using the 'as.numeric' and 'as.factor' functions with data frames 2024
Sebelum Anda mencoba jelaskan data Anda di R, Anda harus memastikan data Anda dalam format yang benar. Ini berarti
-
Memastikan semua data Anda terkandung dalam bingkai data (atau dalam vektor jika itu adalah variabel tunggal)
-
Memastikan bahwa semua variabel ada pada tipe yang benar
-
Memeriksa bahwa semua nilai diproses benar
Beberapa data hanya memiliki sejumlah nilai yang berbeda. Misalnya, orang bisa menjadi pria atau wanita, dan Anda bisa menggambarkan jenis rambut paling banyak dengan hanya beberapa warna.
Kadang-kadang lebih banyak nilai secara teoritis mungkin namun tidak realistis. Misalnya, mobil bisa memiliki lebih dari 16 silinder di mesinnya, tapi Anda tidak akan menemukan banyak dari mereka. Dengan satu atau lain cara, semua data ini dapat dilihat sebagai kategoris . Dengan definisi ini, data kategoris juga mencakup data ordinal.
Di sisi lain, Anda memiliki data yang memiliki nilai kemungkinan yang tidak terbatas. Ini tidak berarti bahwa nilai bisa menjadi nilai yang Anda sukai. Misalnya, jarak tempuh sebuah mobil dinyatakan dalam mil per galon, sering dibulatkan ke keseluruhan mil. Namun, nilai sebenarnya akan sedikit berbeda untuk setiap mobil.
Satu - satunya yang menentukan berapa banyak nilai yang mungkin Anda izinkan adalah ketepatan yang Anda gunakan untuk mengekspresikan data. Data yang dapat diekspresikan dengan tingkat presisi yang dipilih adalah continuous . Kedua data berskala interval dan data berskala rasio biasanya merupakan data kontinyu.
Perbedaan antara data kategoris dan data kontinyu tidak selalu jelas. Usia pada intinya adalah variabel kontinu, namun sering dinyatakan dalam jumlah tahun sejak lahir.
Anda masih memiliki banyak kemungkinan nilai jika Anda melakukan itu, tapi apa jadinya jika Anda melihat usia anak-anak di sekolah menengah setempat? Tiba-tiba Anda hanya memiliki lima, mungkin enam, nilai yang berbeda dalam data Anda. Pada saat itu, Anda mungkin akan mendapatkan lebih banyak analisis Anda jika Anda memperlakukan data itu kategoris.
Saat menjelaskan data Anda, Anda perlu membuat perbedaan antara data yang mendapat manfaat dari konversi menjadi faktor dan data yang perlu disimpan secara numerik. Jika Anda dapat melihat data Anda sebagai kategori, ubahlah menjadi faktor yang membantu menganalisisnya.