Rumah Keuangan Pribadi Data Science: Menggunakan Python to Perform Factor dan Principal Component Analysis - dummies

Data Science: Menggunakan Python to Perform Factor dan Principal Component Analysis - dummies

Daftar Isi:

Video: Principal Components Analysis - SPSS (part 1) 2024

Video: Principal Components Analysis - SPSS (part 1) 2024
Anonim

Ilmu data dapat menggunakan Python untuk melakukan analisis faktor dan komponen utama. SVD beroperasi secara langsung pada nilai numerik dalam data, namun Anda juga dapat mengekspresikan data sebagai hubungan antar variabel. Setiap fitur memiliki variasi tertentu. Anda dapat menghitung variabilitas sebagai ukuran varians di sekitar mean. Semakin banyak varians, semakin banyak informasi yang terkandung di dalam variabel.

Selain itu, jika Anda menempatkan variabel ke dalam satu set, Anda dapat membandingkan varians dua variabel untuk menentukan apakah keduanya berkorelasi, yang merupakan ukuran seberapa kuat nilai yang mereka miliki.

Memeriksa semua korelasi yang mungkin dari sebuah variabel dengan yang lainnya di lokasi syuting, Anda dapat menemukan bahwa Anda mungkin memiliki dua jenis varians:

  • Variance unik: Beberapa varians unik untuk variabel di bawah pemeriksaan Ini tidak dapat dikaitkan dengan apa yang terjadi pada variabel lainnya.

  • Varians bersama: Beberapa varians dibagikan dengan satu atau lebih variabel lainnya, menciptakan redundansi dalam data. Redundansi menyiratkan bahwa Anda dapat menemukan informasi yang sama, dengan nilai yang sedikit berbeda, dalam berbagai fitur dan di banyak pengamatan.

Tentu saja, langkah selanjutnya adalah menentukan alasan varians bersama. Mencoba menjawab pertanyaan semacam itu, dan juga menentukan bagaimana menghadapi varians unik dan bersama, menyebabkan terciptanya analisis faktor dan komponen utama.

Mengingat model psikometrik

Jauh sebelum banyak algoritma pembelajaran mesin dipikirkan, disiplin psikologi yang berkaitan dengan pengukuran psikologis, mencoba menemukan solusi statistik untuk mengukur dimensi secara efektif. dalam kepribadian Kepribadian manusia, seperti aspek manusia lainnya, tidak dapat diukur secara langsung. Misalnya, tidak mungkin mengukur dengan tepat berapa banyak seseorang yang tertutup atau cerdas. Kuesioner dan tes psikologis hanya mengisyaratkan nilai-nilai ini.

Psikolog mengetahui SVD dan mencoba menerapkannya pada masalah ini. Perbedaan bersama menarik perhatian mereka: Jika beberapa variabel hampir sama, mereka harus memiliki akar penyebab yang sama, pikir mereka. Psikolog menciptakan

analisis faktor

untuk melakukan tugas ini! Alih-alih menerapkan SVD secara langsung ke data, mereka menerapkannya pada matriks yang baru dibuat yang melacak varians umum, dengan harapan dapat mengkondensasi semua informasi dan memulihkan fitur baru yang berguna yang disebut fa c tors . Mencari faktor tersembunyi Cara yang baik untuk menunjukkan bagaimana menggunakan analisis faktor adalah memulai dengan dataset Iris.

dari sklearn. dataset mengimpor load_iris dari sklearn. dekomposisi impor FactorAnalisis iris = load_iris () X, y = iris. data, iris Faktor target = FactorAnalisis (n_components = 4, random_state = 101). fit (X)

Setelah memuat data dan menyimpan semua fitur prediktif, kelas FactorAnalysis diinisialisasi dengan permintaan untuk mencari empat faktor. Data kemudian dipasang. Anda dapat menjelajahi hasilnya dengan mengamati atribut component_, yang mengembalikan array yang berisi ukuran hubungan antara faktor yang baru dibuat, ditempatkan dalam baris, dan fitur asli, ditempatkan di kolom.

Di persimpangan masing-masing faktor dan fitur, angka positif menunjukkan bahwa ada proporsi positif antara keduanya; Angka negatif, sebagai gantinya, menunjukkan bahwa mereka berbeda dan yang satu bertentangan dengan yang lain.

Anda harus menguji berbagai nilai n_components karena tidak mungkin mengetahui berapa banyak faktor yang ada dalam data. Jika algoritma diperlukan untuk lebih banyak faktor daripada yang ada, maka akan menghasilkan faktor dengan nilai rendah pada array komponen_.

panda impor sebagai pd print pd. DataFrame (faktor. Komponen_, kolom = iris. Feature_names) panjang sepal (cm) sepal width (cm) kelopak (cm) kelopak (cm) 0 0. 707227 -0. 153147 1. 653151 0. 701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0. 000000 0. 000000 -0. 000000

Dalam tes pada dataset Iris, misalnya, faktor yang dihasilkan harus maksimal 2, bukan 4, karena hanya dua faktor yang memiliki hubungan signifikan dengan fitur aslinya. Anda dapat menggunakan dua faktor ini sebagai variabel baru dalam proyek Anda karena mereka mencerminkan fitur yang tak terlihat namun penting sehingga data yang tersedia sebelumnya hanya diisyaratkan.

Menggunakan komponen, bukan faktor

Jika SVD dapat berhasil diterapkan pada varians umum, Anda mungkin bertanya-tanya mengapa Anda tidak dapat menerapkannya pada semua varians. Dengan menggunakan matriks awal yang sedikit dimodifikasi, semua hubungan dalam data dapat dikurangi dan dikompres dengan cara yang serupa dengan bagaimana SVD melakukannya.

Hasil dari proses ini, yang sangat mirip dengan SVD, disebut

analisis komponen utama

(PCA). Fitur yang baru dibuat diberi nama komponen . Berbeda dengan faktor, komponen tidak digambarkan sebagai akar penyebab struktur data namun hanya data yang direstrukturisasi, sehingga Anda dapat melihatnya sebagai penjumlahan variabel terpilih yang besar dan cerdas. Untuk aplikasi sains data, PCA dan SVD sangat mirip. Namun, PCA tidak terpengaruh oleh skala fitur asli (karena bekerja berdasarkan ukuran korelasi yang semuanya terikat antara -1 dan nilai +1) dan PCA berfokus untuk membangun kembali hubungan antara variabel, sehingga menawarkan hasil yang berbeda dari SVD. Mencapai pengurangan dimensi

Prosedur untuk mendapatkan PCA sangat mirip dengan analisis faktor.Perbedaannya adalah Anda tidak menentukan jumlah komponen yang akan diekstrak. Anda kemudian memutuskan berapa banyak komponen yang harus disimpan setelah memeriksa atribut explain_variance_ratio_, yang memberikan kuantifikasi nilai informatif dari setiap komponen yang diekstraksi. Contoh berikut menunjukkan bagaimana melakukan tugas ini:

dari sklearn. impor dekomposisi panda impor PCA sebagai pd pca = PCA (). fit (X) print 'Dijelaskan varians dengan komponen:% s'% pca. dijelaskan_variance_ratio_ cetak pd. DataFrame (pca. Components_, columns = iris. Feature_names) Dijelaskan varians dengan komponen: [0. 92461621 0. 05301557 0. 01718514 0. 00518309] sepal panjang (cm) sepal lebar (cm) kelopak (cm) kelopak (cm) 0 0. 361590 -0. 082269 0. 856572 0. 358844 1 -0. 656540 -0. 729712 0. 175767 0. 074706 2 0. 580997 -0. 596418 -0. 072524 -0. 549061 3 0. 317255 -0. 324094 -0. 479719 0. 751121

Dalam dekomposisi dataset Iris ini, rambu vektor yang diberikan oleh explain_variance_ratio_ menunjukkan bahwa sebagian besar informasi terkonsentrasi ke komponen pertama (92. 5 persen). Oleh karena itu, memungkinkan untuk mengurangi keseluruhan dataset menjadi dua komponen, memberikan pengurangan kebisingan dan informasi berlebihan dari kumpulan data asli.

Data Science: Menggunakan Python to Perform Factor dan Principal Component Analysis - dummies

Pilihan Editor

Perancang Minigame Minigame - dummies

Perancang Minigame Minigame - dummies

Sebelum menulis semua kode untuk membuat Minecraft Minigame, Anda perlu merancang permainan Anda. The Gameplay Loop adalah proses sederhana yang bisa Anda ikuti untuk memastikan permainan Anda menyenangkan, menantang, dan lengkap. The Gameplay Loop memiliki empat bagian: Start: Buat adegan dasar. Tujuan: Menambahkan cara untuk menang dan ...

Menciptakan Efek Air dan Es di Minecraft - dummies

Menciptakan Efek Air dan Es di Minecraft - dummies

Satu hal yang rapi tentang Minecraft adalah bahwa beberapa fisika realistis sedang dimainkan dalam permainan. Misalnya, jika Anda memiliki air dan Anda memasukkan es ke dalamnya, itu akan membeku! Oke, mungkin di dunia nyata, menambahkan es tidak membuat air membeku, tapi memang membuatnya lebih dingin. Anda dapat melihat ini ...

Mendapatkan Minecraft Experience Points - dummies

Mendapatkan Minecraft Experience Points - dummies

Di Minecraft, experience points, XP untuk jangka pendek, dikumpulkan dari bola pengalaman bercahaya. Sebagai pemain mengumpulkan cukup bola dan meningkatkan tingkat pengalaman mereka, mereka akan dapat menggunakan tabel dan landasan yang mempesona untuk meningkatkan kemampuan banyak item seperti senjata, baju besi, dan peralatan. Jadi, bagaimana Anda bisa cepat mendapatkan ini ...

Pilihan Editor

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Infomasi editorial sama dengan artikel berita karena tujuan utamanya adalah untuk mengirimkan informasi. Di bawah payung grafis editorial, ada beberapa tipe yang berbeda, dengan keseimbangan bias dan objektivitas yang berbeda. Berikut adalah beberapa melihat: Badai salju menghantam kota Anda. Koran lokal menciptakan grafik yang menunjukkan hujan salju ...

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bahkan di dunia kabel ini, seniman masih suka sketsa Kabar baik! Sketsa kasar Anda dapat dengan mudah digunakan dalam draf infografis Anda. Anda dapat memindai sketsa atau mengambil gambar sketsa Anda dengan telepon Anda dan mengirim e-mail ke komputer Anda sendiri. Mereka tidak perlu diwarnai, cukup jelas bagi Anda untuk ...

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Infografis yang baik (jelas) harus mencakup seni yang bagus. Ilustrasi mempromosikan alur cerita, menentukan elemen secara visual, dan mencerahkan halaman yang mungkin diisi dengan tipe abu-abu. Ilustrasi bisa berupa gambar fisik, semacam bagan atau grafik, atau bahkan garis waktu. Kehidupan sehari-hari Anda dipenuhi dengan contoh bagaimana ilustrasi ...

Pilihan Editor

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

Tentang Penalaran Melalui bagian Seni Bahasa GED, Anda mungkin diminta untuk menjawab pertanyaan tentang bagian teknis. Ini bisa termasuk petunjuk cara melengkapi, seperti berikut. Pertanyaan dalam artikel ini mengacu pada kutipan berikut dari Russell Hart's Photography For Dummies, 2nd Edition (Wiley). Apa Rahasia Untuk ...

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

Di beberapa titik selama bagian Ilmu Pengetahuan dari Tes GEE, Anda akan diminta untuk membuat jawaban singkat. Anda akan diberi sebuah bagian dan mengajukan pertanyaan yang perlu Anda tanggapi. Buat respons Anda jelas dan ringkas. Bagian Jawaban Jawaban Semua orang mengenal keju cheddar. Orang-orang meletakkan ...

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

Di bagian Ilmu Sosial GED, Anda mungkin diminta untuk menjawab pertanyaan tentang berbagai bentuk media, termasuk siaran berita. Lihatlah contoh berikut di bawah ini. Pertanyaan dalam artikel ini mengacu pada siaran berita berikut. Berita Lingkungan Dunia Selamat malam dan selamat datang di World Environmental News. Cerita kami ini ...