Bagaimana Mengkonversi Data Mentah menjadi Matriks Analisis Prediktif - dummies

Video: Cara Mudah Uji Validitas Menggunakan SPSS - Full Tutorial 2025

Sebelum Anda dapat mengekstrak grup dari item data serupa dari kumpulan data Anda untuk proyek analisis prediktif Anda, Anda mungkin perlu merepresentasikan data Anda dalam tabel format yang dikenal sebagai matriks data . Ini adalah langkah preprocessing yang datang sebelum pengelompokkan data.

Bagaimana membuat matriks analisis prediksi dari istilah dalam dokumen

Misalkan kumpulan data yang akan Anda analisis terkandung dalam sekumpulan dokumen Microsoft Word. Hal pertama yang perlu Anda lakukan adalah mengubah kumpulan dokumen menjadi matriks data. Beberapa alat komersial dan open source dapat menangani tugas itu, menghasilkan matriks, di mana setiap baris sesuai dengan dokumen dalam kumpulan data. Contoh alat ini termasuk paket penambangan teks RapidMiner, dan R.

A dokumen pada dasarnya adalah sekumpulan kata. istilah adalah satu set dari satu atau beberapa kata.

Setiap istilah yang disebutkan dalam dokumen disebutkan satu atau beberapa kali dalam dokumen yang sama. Frekuensi istilah yang disebutkan dalam dokumen dapat diwakili oleh istilah frekuensi (TF), sebuah nilai numerik.

Kami membuat matriks istilah dalam dokumen sebagai berikut:

Istilah yang muncul di semua dokumen tercantum di baris paling atas.
Judul dokumen dicantumkan di kolom paling kiri
Angka-angka yang muncul di dalam sel matriks sesuai dengan frekuensi masing-masing.

Misalnya, Dokumen A direpresentasikan sebagai kumpulan angka (5, 16, 0, 19, 0, 0.) di mana 5 sesuai dengan berapa kali istilah analisis prediktif diulang, 16 sesuai dengan angka ke masa ilmu komputer diulang, dan seterusnya. Ini adalah cara termudah untuk mengubah seperangkat dokumen menjadi matriks.

Predictive Analytics	Ilmu Komputer	Belajar	Clustering	2013	Antropologi
Dokumen A	5	16	0 < 19	0	0	Dokumen B
8	6	2	3	0	0	Dokumen C
0 < 5	2	3	3	9	Dokumen D	1
9	13	4	6	7 > Dokumen E	2	16
16	0	2	13	Dokumen F	13	0
19	16 > 4	2	Dasar-dasar pemilihan istilah prediktif	Salah satu tantangan dalam mengelompokkan dokumen teks adalah menentukan bagaimana memilih persyaratan terbaik untuk mewakili semua dokumen dalam koleksi. Seberapa penting sebuah istilah dalam kumpulan dokumen dapat dihitung dengan cara yang berbeda.	Jika, misalnya, Anda menghitung berapa kali sebuah istilah diulang dalam sebuah dokumen dan bandingkan jumlah itu dengan seberapa sering kejadian itu terjadi berulang-ulang dalam keseluruhan koleksi, Anda bisa merasakan kepentingan istilah tersebut relatif terhadap persyaratan lainnya.	Mendasarkan kepentingan relatif sebuah istilah pada frekuensi dalam sebuah koleksi sering dikenal dengan bobot

. Bobot yang Anda tetapkan dapat didasarkan pada dua prinsip:

Persyaratan yang muncul beberapa kali dalam dokumen lebih disukai daripada istilah yang hanya muncul satu kali.

Persyaratan yang digunakan dalam dokumen yang relatif sedikit disukai berdasarkan persyaratan yang disebutkan dalam semua dokumen. Jika (misalnya) istilah abad

disebutkan dalam semua dokumen dalam dataset Anda, maka Anda mungkin tidak mempertimbangkan untuk menugaskannya cukup berat untuk memiliki kolomnya sendiri di dalam matriks.
Demikian pula, jika Anda berurusan dengan kumpulan data pengguna jaringan sosial online, Anda dapat dengan mudah mengonversi kumpulan data menjadi matriks. User ID atau nama akan menempati baris; kolom akan menampilkan fitur yang paling tepat menggambarkan pengguna tersebut.