Video: Beginilah Proses Pemasangan Kabel Optik 6 KM di Dasar Laut 2024
Penambang data sering memanfaatkan fitur khusus untuk mengemas lebih banyak informasi ke dalam grafik sederhana. Label, overlay, dan seleksi interaktif merupakan keunggulan aplikasi data mining, fitur khusus yang memungkinkan Anda menjadi lebih produktif.
Jarak tempuh menurun saat tenaga kuda meningkat, seperti yang terlihat pada gambar berikut.
Jarak tempuh meningkat seiring berjalannya waktu, seperti yang Anda lihat, scatterplot jarak tempuh versus model tahun. Akan sangat membantu untuk mendapatkan kedua gagasan ini menjadi satu grafik.
Pendekatan penambangan data umum untuk mengintegrasikan lebih dari dua variabel dalam grafik mencakup
-
Label: Label adalah nilai dari string atau variabel kategoris yang telah dilapiskan pada scatterplot. Gambar berikut menunjukkan scatterplot yang diberi label dengan model tahun mobil.
Dataset dengan banyak titik atau label panjang bisa membuat grafik ini tidak terbaca! Solusinya adalah hanya menggunakan sampel data. Setup untuk jenis sampling ini ditunjukkan pada gambar berikut.
-
Hamparan: Dengan hamparan, nilai variabel kategoris menentukan bentuk atau warna titik. Gambar berikut menunjukkan penyiapan scatterplot ke model overlay tahun pada scatterplot jarak tempuh-versus-tenaga kuda.
scatterplot hamparan yang diekspor muncul pada gambar berikut. Mungkin lebih mudah untuk membaca lapisan warna daripada lapisan bentuk titik. Pengaturannya biasanya sama.
Hal lain yang perlu diingat dengan scatterplots: Anda mungkin memiliki banyak titik jatuh di tempat yang sama! Jika demikian, Anda mungkin tidak dapat memberi tahu satu poin untuk satu kasus dari satu titik untuk 100 kasus. Obatnya adalah untuk memeriksa pilihan untuk membuat beberapa contoh terlihat. Carilah ukuran titik atau jitter (gerakkan sedikit poin dari lokasi sebenarnya untuk membuat semuanya terlihat) pilihan.
scatterplots Interaktif adalah penabung waktu yang bagus untuk penambang data.
Katakan bahwa Anda melihat sekelompok kasus menarik dalam grafik, dan Anda ingin menyelidiki lebih jauh kasus-kasus itu saja. Jika Anda hanya melihat satu atau dua titik, Anda mungkin mendapatkan informasi yang Anda inginkan dengan melayang, tapi itu tidak memuaskan saat Anda tertarik pada lebih dari beberapa poin.
Alat pemilihan data dalam scatterplots interaktif memberi Anda lebih banyak kekuatan untuk memilih data. Gambar berikut menunjukkan penyiapan grafik yang sama, namun dengan sekelompok titik yang dipilih dengan mengklik dan menyeret mouse di sekitar mereka. Ini bukan sekedar fitur visual.
Anda dapat mengekspor poin yang dipilih sebagai kumpulan data baru. Ini sangat berguna dan cepat!
Jika poin yang Anda butuhkan tidak sesuai dengan pilihan persegi panjang, Anda punya pilihan lain. Lihat area Zoom / Select. Anda bisa melihat sebuah tombol dengan persegi panjang untuk seleksi persegi panjang dan yang lainnya dengan bentuk bulat untuk pemilihan bentuk bebas.
Berikut adalah contoh pilihan bentuk bebas menggunakan data kandungan nikotin dari rokok yang dijual di berbagai belahan dunia. Scatterplot ini menunjukkan nikotin per batang rokok untuk sampel dari enam wilayah Perserikatan Bangsa-Bangsa. (Ini adalah penggunaan nontradisional dari scatterplot, karena wilayah bukanlah variabel yang kontinyu; ini kategoris. Penambang data sering menggunakan alat tradisional dengan cara nontradisional.
Poin di dalam suatu wilayah tidak jatuh dalam garis vertikal yang sempurna. Pergeseran kecil (jitter) ke kiri dan kanan dibuat untuk keterbacaan dan tampilan saja. Beberapa batang rokok memiliki tingkat nikotin yang sangat tinggi, dan Anda ingin memilih kasus-kasus tersebut.
Menu drop-down menawarkan pilihan pilihan. Pemilihan poligon memungkinkan Anda menandai area bebas di scatterplot.
Untuk menandai, klik pada grafik untuk membuat titik awal, dan kemudian klik lagi dan lagi di sekitar kelompok poin yang Anda inginkan sampai Anda membuat bentuk yang Anda butuhkan.
Klik kanan menunjukkan bahwa Anda telah menyelesaikan seleksi; ini terlihat dari sorotan pada grafik.