Video: How to use regex to scrape HTML pages 2024
R mendukung konsep ekspresi reguler, yang memungkinkan Anda untuk mencari pola di dalam teks. Anda mungkin tidak pernah mendengar ungkapan biasa, tapi mungkin Anda sudah familiar dengan konsep yang luas. Jika Anda pernah menggunakan * atau? untuk menunjukkan surat apa pun dalam satu kata, berarti Anda telah menggunakan bentuk pencarian wildcard. Ungkapan biasa mendukung gagasan wildcard dan masih banyak lagi.
Ekspresi reguler memungkinkan tiga cara membuat pola pencarian lebih umum daripada ekspresi tunggal dan tetap:
-
Alternatif: Anda dapat mencari contoh dari satu pola atau pola lainnya, ditunjukkan oleh | simbol. Misalnya pantai | beech cocok dengan beech beach dan .
Pada keyboard Inggris dan Amerika Inggris, Anda biasanya dapat menemukan tombol | pada tombol yang sama seperti garis miring terbalik ().
-
Pengelompokan: Pola kelompok Anda bersama-sama menggunakan tanda kurung (). Misalnya Anda menulis be (a | e) ch untuk menemukan beech beach dan .
-
Quantifiers: Anda menentukan apakah elemen dalam pola harus diulang atau tidak dengan menambahkan * (terjadi nol atau berkali-kali) atau + (terjadi satu atau beberapa kali). Misalnya, untuk menemukan bach atau beech (nol atau lebih dari a dan e tapi tidak keduanya), Anda menggunakan b (e * | a *) ch.
Cobalah contoh berikut. Pertama, buat variabel baru dengan lima kata: >> rwords <- c ("bach", "back", "beech", "beach", "black")
Temukan pantai
> atau beech menggunakan pencocokan alternatif:
Terakhir, gunakan modifikasi pengukur untuk mengekstrak
bach < dan
beech
tapi tidak
pantai:
rwords [grep ("b (e * | a *) ch", rwords)] [1] "bach" "beech" > Untuk menemukan lebih banyak bantuan dalam R tentang ekspresi reguler, lihat halaman Bantuan? regexp. Beberapa sumber hebat lainnya untuk belajar lebih banyak tentang ekspresi reguler adalah Wikipedia dan, di mana Anda dapat menemukan panduan dan tutorial ringkas.