Daftar Isi:
- Scraping data dengan impor io
- Selimut gambar yang ditampilkan berasal dari pencarian gambar Google "Labeled for Reuse" dari kata
- memahat
Video: Intro to Web Scraping with Python and Beautiful Soup 2024
Apakah Anda memerlukan data untuk mendukung analisis bisnis atau bagian jurnalisme yang akan datang, penggalian web dapat membantu Anda melacak sumber data yang menarik dan unik. Di web-scraping Anda menyiapkan program otomatis dan kemudian membiarkan mereka menjelajahi web untuk data yang Anda butuhkan. Berikut adalah alat gratis szome yang bisa Anda gunakan untuk mengikis data atau gambar, termasuk impor. io, ImageQuilts, dan DataWrangler.
Scraping data dengan impor io
Pernahkah Anda mencoba menyalin dan menempelkan tabel dari web ke dalam dokumen Microsoft Office dan kemudian tidak dapat membuat kolom berbaris dengan benar? Frustrasi, kan? Inilah tepatnya titik rasa sakit yang diimpor. io dirancang untuk alamat.
impor io - dilafalkan "import-eye-oh" - adalah aplikasi desktop gratis yang dapat Anda gunakan untuk menyalin, menempel, membersihkan, dan memformat bagian dari halaman web dengan hanya beberapa klik mouse. Anda bahkan bisa menggunakan impor. io untuk merangkak dan mengekstrak data dari daftar multi-halaman secara otomatis.
Menggunakan impor. io, Anda dapat mengikis data dari rangkaian halaman web yang sederhana atau rumit:
-
Simple: Mengakses halaman web melalui hyperlink sederhana yang muncul di Page 1, Page 2
-
Rumit: > Isi formulir atau pilih dari daftar drop-down, lalu kirimkan permintaan penggosotan Anda ke alat ini. impor Fitur io yang paling mengesankan adalah kemampuannya untuk mengamati klik mouse Anda untuk mempelajari apa yang Anda inginkan, dan kemudian menawarkan cara untuk menyelesaikan tugas Anda secara otomatis untuk Anda. Meski impor. io belajar dan menyarankan tugas, tindakan tersebut tidak mengambil tindakan atas tugas tersebut sampai Anda menandai saran itu benar. Akibatnya, interaksi yang diperbesar oleh manusia ini menurunkan risiko bahwa mesin akan menarik kesimpulan yang salah karena terlalu menebak-nebak.
Tugas yang dilakukan oleh ImageQuilts cukup sederhana untuk dijelaskan namun sangat kompleks untuk diterapkan. ImageQuilts membuat kolase dari puluhan gambar dan potongannya menjadi satu "selimut" yang terdiri dari beberapa baris dengan tinggi yang sama. Tugas ini bisa jadi rumit karena gambar sumbernya hampir tidak pernah sama tingginya. ImageQuilts menggores dan mengubah ukuran gambar sebelum menjahitnya menjadi satu gambar keluaran.
Selimut gambar yang ditampilkan berasal dari pencarian gambar Google "Labeled for Reuse" dari kata
data
science
. ImageQuilts bahkan memungkinkan Anda memilih urutan gambar atau mengacaknya. Anda dapat menggunakan alat ini untuk menyeret dan menjatuhkan gambar ke tempat manapun, menghapus gambar, memperbesar semua gambar secara bersamaan, atau memperbesar setiap gambar secara terpisah. Anda bahkan dapat menggunakan alat ini untuk menyembunyikan antara warna gambar - dari warna ke warna abu-abu atau warna terbalik (yang berguna untuk membuat lembaran kontak negatif, jika Anda salah satu dari orang-orang langka yang masih memproses analog -fotografi). Wrangling data with DataWrangler
DataWrangler adalah alat online yang didukung oleh Laboratorium Data Interaktif Washington (pada saat DataWrangler dikembangkan, grup ini disebut Stanford Visualization Group). Kelompok yang sama ini mengembangkan Lyra, lingkungan visualisasi data interaktif yang dapat Anda gunakan untuk menciptakan visualisasi yang kompleks tanpa pengalaman pemrograman.
Jika tujuan Anda adalah untuk
memahat
kumpulan data Anda - atau membersihkan semuanya dengan memindahkan barang-barang di sekitar seperti pematung (membagi bagian ini menjadi dua, mengiris sedikit dan memindahkannya ke sana, mendorongnya ke bawah sehingga segala sesuatu di bawahnya akan bergeser ke kanan, dan seterusnya) - DataWrangler adalah alat untuk Anda.
Anda dapat melakukan manipulasi dengan DataWrangler yang serupa dengan apa yang dapat Anda lakukan di Excel menggunakan Visual Basic. Misalnya, Anda dapat menggunakan DataWrangler atau Excel dengan Visual Basic untuk menyalin, menempel, dan memformat informasi dari daftar di Internet. DataWrangler bahkan menyarankan tindakan berdasarkan kumpulan data Anda dan dapat mengulangi tindakan kompleks di seluruh kumpulan data - tindakan seperti menghilangkan baris yang terlewat, memecah data dari satu kolom menjadi dua, atau mengubah header menjadi data kolom. DataWrangler juga dapat menunjukkan di mana dataset Anda kehilangan data. Data yang hilang dapat mengindikasikan kesalahan pemformatan yang perlu dibersihkan.