Rumah Keuangan Pribadi Bagaimana Mengkonversi Data Mentah menjadi Matriks Analisis Prediktif - dummies

Bagaimana Mengkonversi Data Mentah menjadi Matriks Analisis Prediktif - dummies

Daftar Isi:

Video: Cara Mudah Uji Validitas Menggunakan SPSS - Full Tutorial 2024

Video: Cara Mudah Uji Validitas Menggunakan SPSS - Full Tutorial 2024
Anonim

Sebelum Anda dapat mengekstrak grup dari item data serupa dari kumpulan data Anda untuk proyek analisis prediktif Anda, Anda mungkin perlu merepresentasikan data Anda dalam tabel format yang dikenal sebagai matriks data . Ini adalah langkah preprocessing yang datang sebelum pengelompokkan data.

Bagaimana membuat matriks analisis prediksi dari istilah dalam dokumen

Misalkan kumpulan data yang akan Anda analisis terkandung dalam sekumpulan dokumen Microsoft Word. Hal pertama yang perlu Anda lakukan adalah mengubah kumpulan dokumen menjadi matriks data. Beberapa alat komersial dan open source dapat menangani tugas itu, menghasilkan matriks, di mana setiap baris sesuai dengan dokumen dalam kumpulan data. Contoh alat ini termasuk paket penambangan teks RapidMiner, dan R.

A dokumen pada dasarnya adalah sekumpulan kata. istilah adalah satu set dari satu atau beberapa kata.

Setiap istilah yang disebutkan dalam dokumen disebutkan satu atau beberapa kali dalam dokumen yang sama. Frekuensi istilah yang disebutkan dalam dokumen dapat diwakili oleh istilah frekuensi (TF), sebuah nilai numerik.

Kami membuat matriks istilah dalam dokumen sebagai berikut:

  • Istilah yang muncul di semua dokumen tercantum di baris paling atas.

  • Judul dokumen dicantumkan di kolom paling kiri

  • Angka-angka yang muncul di dalam sel matriks sesuai dengan frekuensi masing-masing.

Misalnya, Dokumen A direpresentasikan sebagai kumpulan angka (5, 16, 0, 19, 0, 0.) di mana 5 sesuai dengan berapa kali istilah analisis prediktif diulang, 16 sesuai dengan angka ke masa ilmu komputer diulang, dan seterusnya. Ini adalah cara termudah untuk mengubah seperangkat dokumen menjadi matriks.

Predictive Analytics Ilmu Komputer Belajar Clustering 2013 Antropologi
Dokumen A 5 16 0 < 19 0 0 Dokumen B
8 6 2 3 0 0 Dokumen C
0 < 5 2 3 3 9 Dokumen D 1
9 13 4 6 7 > Dokumen E 2 16
16 0 2 13 Dokumen F 13 0
19 16 > 4 2 Dasar-dasar pemilihan istilah prediktif Salah satu tantangan dalam mengelompokkan dokumen teks adalah menentukan bagaimana memilih persyaratan terbaik untuk mewakili semua dokumen dalam koleksi. Seberapa penting sebuah istilah dalam kumpulan dokumen dapat dihitung dengan cara yang berbeda. Jika, misalnya, Anda menghitung berapa kali sebuah istilah diulang dalam sebuah dokumen dan bandingkan jumlah itu dengan seberapa sering kejadian itu terjadi berulang-ulang dalam keseluruhan koleksi, Anda bisa merasakan kepentingan istilah tersebut relatif terhadap persyaratan lainnya. Mendasarkan kepentingan relatif sebuah istilah pada frekuensi dalam sebuah koleksi sering dikenal dengan bobot

. Bobot yang Anda tetapkan dapat didasarkan pada dua prinsip:

Persyaratan yang muncul beberapa kali dalam dokumen lebih disukai daripada istilah yang hanya muncul satu kali.

Persyaratan yang digunakan dalam dokumen yang relatif sedikit disukai berdasarkan persyaratan yang disebutkan dalam semua dokumen. Jika (misalnya) istilah abad

  • disebutkan dalam semua dokumen dalam dataset Anda, maka Anda mungkin tidak mempertimbangkan untuk menugaskannya cukup berat untuk memiliki kolomnya sendiri di dalam matriks.

  • Demikian pula, jika Anda berurusan dengan kumpulan data pengguna jaringan sosial online, Anda dapat dengan mudah mengonversi kumpulan data menjadi matriks. User ID atau nama akan menempati baris; kolom akan menampilkan fitur yang paling tepat menggambarkan pengguna tersebut.

Bagaimana Mengkonversi Data Mentah menjadi Matriks Analisis Prediktif - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...