Rumah Keuangan Pribadi Bagaimana Menghasilkan Data Berasal Berasal dan Mengurangi Dimensinya untuk Analisis Prediktif - dummies

Bagaimana Menghasilkan Data Berasal Berasal dan Mengurangi Dimensinya untuk Analisis Prediktif - dummies

Daftar Isi:

Video: (Indonesian) THRIVE: What On Earth Will It Take? 2025

Video: (Indonesian) THRIVE: What On Earth Will It Take? 2025
Anonim

Dalam tahap eksplorasi analisis prediktif ini, Anda akan mendapatkan pengetahuan mendalam tentang data Anda - yang pada gilirannya akan membantu Anda memilih variabel yang relevan untuk dianalisis. Pemahaman ini juga akan membantu Anda mengevaluasi hasil model Anda. Tapi pertama-tama Anda harus mengidentifikasi dan membersihkan data untuk analisis.

Cara menghasilkan data turunan

Atribut turunan seluruhnya merupakan catatan baru yang dibuat dari satu atau lebih atribut yang ada. Contohnya adalah pembuatan catatan yang mengidentifikasi buku-buku yang terlaris di pameran buku. Data mentah mungkin tidak menangkap catatan seperti itu - tetapi untuk tujuan pemodelan, catatan turunan itu penting. Rasio harga per saham dan rata-rata pergerakan 200 hari adalah dua contoh data turunan yang banyak digunakan dalam aplikasi keuangan.

Atribut turunan dapat diperoleh dari perhitungan sederhana seperti menyimpulkan umur dari tanggal lahir. Atribut yang diturunkan juga dapat dihitung dengan meringkas informasi dari banyak catatan. Misalnya, mengubah tabel pelanggan dan buku yang dibeli ke dalam tabel dapat memungkinkan Anda untuk melacak jumlah buku yang terjual melalui sistem recommender, melalui pemasaran yang ditargetkan, dan di pameran buku - dan mengidentifikasi demografi pelanggan yang membeli buku-buku itu

Membangkitkan atribut tambahan semacam itu membawa kekuatan prediktif tambahan ke analisis. Sebenarnya, banyak atribut semacam itu diciptakan untuk menyelidiki potensi kekuatan prediksi mereka. Beberapa model prediktif dapat menggunakan atribut turunan lebih banyak daripada atribut dalam keadaan mentahnya. Jika beberapa atribut turunan terbukti sangat prediktif dan kekuatan mereka terbukti relevan, maka masuk akal untuk mengotomatisasi proses yang menghasilkannya.

Catatan yang berasal adalah catatan baru yang membawa informasi baru dan memberikan cara baru dalam menyajikan data mentah; mereka bisa menjadi nilai yang luar biasa untuk pemodelan prediktif.

Bagaimana mengurangi dimensi data Anda

Data yang digunakan dalam model prediktif biasanya dikumpulkan dari berbagai sumber. Analisis Anda dapat menarik dari data yang tersebar di beberapa format data, file, dan database, atau beberapa tabel dalam database yang sama. Menyatukan data bersama-sama dan menggabungkannya ke dalam format terpadu agar pemodel data dapat digunakan sangat penting.

Jika data Anda mengandung konten hierarkis, itu mungkin perlu

diratakan . Beberapa data memiliki beberapa karakteristik hierarkis seperti hubungan orang tua-anak, atau catatan yang terdiri dari rekaman lainnya.Misalnya, produk seperti mobil mungkin memiliki banyak pembuat; Perataan data, dalam hal ini, berarti mencakup setiap pembuat sebagai fitur tambahan dari rekaman yang Anda analisis. Data perataan sangat penting saat menggabungkan beberapa catatan terkait untuk menghasilkan gambar yang lebih baik.

Sebagai contoh, menganalisis efek samping untuk beberapa obat yang dibuat oleh beberapa perusahaan mungkin mengharuskan data tersebut diratakan pada tingkat substansi. Dengan demikian, Anda akhirnya menghapus

hubungan satu-ke-banyak (dalam hal ini, banyak pembuat dan banyak zat untuk satu produk) yang dapat menyebabkan duplikasi data terlalu banyak dengan mengulangi banyak masukan zat yang berulang informasi produk dan pembuat di setiap entri. Perataan mengurangi

dimensi data , yang ditunjukkan oleh jumlah fitur yang ada dalam catatan atau pengamatan. Misalnya, pelanggan dapat memiliki beberapa fitur berikut: nama, usia, alamat, item yang dibeli. Ketika Anda memulai analisis Anda, Anda mungkin menemukan diri Anda mengevaluasi catatan dengan banyak fitur, hanya beberapa yang penting untuk analisisnya. Jadi, Anda harus menghilangkan semua kecuali beberapa fitur yang memiliki kekuatan paling prediktif untuk proyek spesifik Anda.

Mengurangi dimensi data dapat dicapai dengan meletakkan semua data dalam satu tabel yang menggunakan beberapa kolom untuk mewakili atribut yang diminati. Pada permulaan analisis, tentu saja, analisis harus mengevaluasi sejumlah besar kolom - namun angka tersebut dapat dipersempit seiring analisis berlangsung.

Proses ini dapat dibantu dengan menyusun kembali bidang - misalnya, dengan mengelompokkan data dalam kategori yang memiliki karakteristik serupa.

Dataset yang dihasilkan - kumpulan data yang dibersihkan - biasanya dimasukkan ke basis data terpisah untuk digunakan para analis. Selama proses pemodelan, data ini harus mudah diakses, dikelola, dan tetap up to date.

Bagaimana Menghasilkan Data Berasal Berasal dan Mengurangi Dimensinya untuk Analisis Prediktif - dummies

Pilihan Editor

Asisten Dokter Ujian: Tipe 1 dan Tipe 2 Diabetes - dummies

Asisten Dokter Ujian: Tipe 1 dan Tipe 2 Diabetes - dummies

Sebagai masalah yang lebih umum , Asisten Dokter Ujian (PANCE) akan mengharapkan Anda untuk mengetahui perbedaan antara diabetes tipe 1 dan tipe 2. Diabetes mellitus (DM) adalah karena metabolisme insulin yang abnormal di dalam tubuh. Pada diabetes mellitus tipe 1, pankreas tidak memproduksi insulin, dan pada tipe 2, tubuh menahan tindakan ...

Asisten Dokter Asisten: Testis dan Sekitarnya - dummies

Asisten Dokter Asisten: Testis dan Sekitarnya - dummies

Banyak kondisi kesehatan dapat mempengaruhi testis dan ini akan dibahas di Asisten Dokter Ujian. Tidak hanya kondisi penting secara klinis, tapi juga hasil tinggi untuk tes. Dari torsi hingga kanker hingga infeksi, waspadai kondisi ini. Torsion Testicular torsion adalah kondisi yang tidak Anda inginkan pada kondisi terburuk Anda ...

Praktek Pertanyaan Dermatologi pada Asisten Dokter - dummies

Praktek Pertanyaan Dermatologi pada Asisten Dokter - dummies

Dari ruam sampai eksim dan infeksi bakteri terhadap virus exanthems, pertanyaan latihan ini serupa dengan pertanyaan dermatologi pada Physician Assistant Exam (PANCE). Contoh Pertanyaan PANCE Salah satu dari berikut ini dapat berkembang menjadi karsinoma sel skuamosa dari waktu ke waktu? (A) Onikomikosis (B) Keratosis aktinik (C) Keratosis seboroik (D) Psoriasis (E) Impetigo Anda sedang mengevaluasi ...

Pilihan Editor

GED Test Prep: Penalaran Melalui Bahasa Membaca Seni Pertanyaan Drag-and-Drop

GED Test Prep: Penalaran Melalui Bahasa Membaca Seni Pertanyaan Drag-and-Drop

Bagian Penalaran Melalui Bahasa Seni GED menggunakan jenis pertanyaan drag-and-drop, antara lain. Item ini mengharuskan Anda menyeret dan melepaskan informasi dari satu lokasi ke layar lainnya. Biasanya, tujuannya adalah agar Anda menyusun ulang sesuatu dari yang paling tidak penting bagi kebanyakan orang, untuk menempatkan peristiwa ke dalam urutan, atau hanya ...

Tips Uji GED: Pertanyaan Mengatasi dan Menjawab - dummies

Tips Uji GED: Pertanyaan Mengatasi dan Menjawab - dummies

Saat Anda memulai GED, Anda ingin memiliki rencana permainan di tempat untuk bagaimana menjawab pertanyaan. Ingatlah tips berikut ini untuk membantu Anda mengatasi setiap pertanyaan: Kapan pun Anda membaca sebuah pertanyaan, tanyakan pada diri Anda, "Apa yang saya minta? "Melakukannya membantu Anda tetap fokus pada apa yang Anda butuhkan ...

GED Test Prep: Penalaran Melalui Bahasa Penulisan Seni Pertanyaan Tanggapan yang Diperluas - dummies

GED Test Prep: Penalaran Melalui Bahasa Penulisan Seni Pertanyaan Tanggapan yang Diperluas - dummies

Ketika Anda menyelesaikan bagian pertama dari bagian Reasoning Through Language Arts (RLA) dari GED, Anda memulai Respons Extended-di mana Anda menulis esai dengan menganalisis argumen yang disajikan dalam dua lembar teks contoh. Anda mendapatkan 45 menit untuk mengerjakan bagian RLA ini, dan Anda tidak dapat melakukannya ...

Pilihan Editor

Cara Melacak Konten dan Membuat Laporan untuk Otomasi Pemasaran - dummies

Cara Melacak Konten dan Membuat Laporan untuk Otomasi Pemasaran - dummies

Setelah Anda memiliki konten untuk kampanye otomasi pemasaran, saatnya belajar mengelolanya. Melacak konten Anda - mengetahui siapa yang terlibat dengannya dan di mana dia terlibat dengan-membantu Anda mengetahui bagaimana menyajikannya dengan lebih baik pada kesempatan berikutnya. Otomatisasi pemasaran membuat manajemen konten sangat berbeda dari bagaimana ...

Bagaimana Menggunakan Otomasi Pemasaran untuk Melacak Prospek Pemasaran Bergerak - dummies

Bagaimana Menggunakan Otomasi Pemasaran untuk Melacak Prospek Pemasaran Bergerak - dummies

Banyak pemasar diukur pada berapa banyak prospek yang mereka berikan pada penjualan dan persentase prospek tersebut diubah menjadi peluang. Untungnya, otomatisasi pemasaran dapat membantu Anda mengembangkan cara untuk mengukur prospek. Mendapatkan visibilitas ke prospek setelah mengirimkannya ke tim penjualan merupakan kutukan bagi banyak departemen pemasaran. Setelah menerapkan ...

Bagaimana Menggunakan Video Tertanam untuk Keterlibatan Peningkatan dalam Otomasi Pemasaran - dummies

Bagaimana Menggunakan Video Tertanam untuk Keterlibatan Peningkatan dalam Otomasi Pemasaran - dummies

Anda dapat menggunakan video khusus untuk mendorong konversi yang lebih tinggi melalui otomasi pemasaran Anda. Untuk membuat video yang lebih maju, pastikan Anda memiliki beberapa opsi dasar dengan alat video-hosting Anda: Putar otomatis: Opsi ini memungkinkan video Anda untuk mulai bermain saat seseorang mendarat di halaman. Ini bukan pilihan super canggih, tapi ...