Bagaimana Mencari Kata-kata Perorangan di R - dummies

Video: What is Philosophy?: Crash Course Philosophy #1 2024

Saat Anda bekerja dengan teks, seringkali Anda dapat memecahkan masalah jika Anda dapat menemukan kata atau pola di dalam teks. R membuat ini mudah dilakukan. Bayangkan Anda memiliki daftar negara bagian di Amerika Serikat, dan Anda ingin mengetahui negara mana yang berisi kata Baru.

Untuk menyelidiki masalah ini, Anda dapat menggunakan data dataset built-in. nama, yang berisi - Anda dapat menebaknya - nama negara bagian Amerika Serikat:

Secara umum, Anda dapat menemukan substring dalam teks dengan dua cara:

Dengan posisi:

Misalnya, Anda dapat memberi tahu R untuk mendapatkan tiga huruf mulai dari posisi 5. Dengan pola:
Misalnya, Anda dapat memberi tahu R untuk mendapatkan substring yang sesuai dengan kata atau pola tertentu. Pola agak mirip wildcard. Dalam beberapa permainan kartu, Anda dapat menggunakan kartu Joker untuk mewakili kartu lain. Demikian pula, pola di R dapat berisi kata-kata atau simbol tertentu dengan makna khusus.

Cari berdasarkan posisi di R

Jika Anda tahu persis posisi subteks di dalam elemen teks, Anda menggunakan fungsi substr () untuk mengembalikan nilainya. Untuk mengekstrak subteks yang dimulai pada posisi ketiga dan berhenti di posisi keenam negara. nama, gunakan yang berikut ini: >> kepala (substr (nama negara, mulai = 3, stop = 6)) [1] "abam" "aska" "izon" "kans" "lifo" "lora" > Cari berdasarkan pola di R

Untuk menemukan substring, Anda dapat menggunakan fungsi grep (), yang mengambil dua argumen penting:

pattern

Pola yang ingin Anda temukan.

x : vektor karakter yang ingin Anda cari.
Misalkan Anda ingin menemukan semua negara bagian yang berisi pola New. Lakukan seperti ini: >> grep ("New", state. Name) [1] 29 30 31 32 Hasil grep () adalah vektor numerik dengan posisi masing-masing elemen yang mengandung pola pencocokan Dengan kata lain, elemen ke-29 negara. nama berisi kata baru >> negara nama [29] New Hampshire

Fiuh, itu berhasil! Tapi mengetik di posisi masing-masing teks yang cocok akan banyak kerja. Untungnya, Anda bisa menggunakan hasil grep () secara langsung untuk mengelompokkan vektor asli: >> negara. Nama grep ("New", negara bagian)] [1] "New Hampshire" "New Jersey" [3] "New Mexico" "New York"

Fungsi grep () peka terhadap huruf - hanya cocok teks dalam kasus yang sama (huruf besar atau huruf kecil) sebagai pola pencarian Anda. Jika Anda mencari pola "baru" dalam huruf kecil, hasil pencarian Anda kosong: >> negara bagian. nama [grep ("baru", negaranama)] karakter (0)