Daftar Isi:
- Cara menghasilkan data turunan
- Data yang digunakan dalam model prediktif biasanya dikumpulkan dari berbagai sumber. Analisis Anda dapat menarik dari data yang tersebar di beberapa format data, file, dan database, atau beberapa tabel dalam database yang sama. Menyatukan data bersama-sama dan menggabungkannya ke dalam format terpadu agar pemodel data dapat digunakan sangat penting.
Video: (Indonesian) THRIVE: What On Earth Will It Take? 2024
Dalam tahap eksplorasi analisis prediktif ini, Anda akan mendapatkan pengetahuan mendalam tentang data Anda - yang pada gilirannya akan membantu Anda memilih variabel yang relevan untuk dianalisis. Pemahaman ini juga akan membantu Anda mengevaluasi hasil model Anda. Tapi pertama-tama Anda harus mengidentifikasi dan membersihkan data untuk analisis.
Cara menghasilkan data turunan
Atribut turunan seluruhnya merupakan catatan baru yang dibuat dari satu atau lebih atribut yang ada. Contohnya adalah pembuatan catatan yang mengidentifikasi buku-buku yang terlaris di pameran buku. Data mentah mungkin tidak menangkap catatan seperti itu - tetapi untuk tujuan pemodelan, catatan turunan itu penting. Rasio harga per saham dan rata-rata pergerakan 200 hari adalah dua contoh data turunan yang banyak digunakan dalam aplikasi keuangan.
Atribut turunan dapat diperoleh dari perhitungan sederhana seperti menyimpulkan umur dari tanggal lahir. Atribut yang diturunkan juga dapat dihitung dengan meringkas informasi dari banyak catatan. Misalnya, mengubah tabel pelanggan dan buku yang dibeli ke dalam tabel dapat memungkinkan Anda untuk melacak jumlah buku yang terjual melalui sistem recommender, melalui pemasaran yang ditargetkan, dan di pameran buku - dan mengidentifikasi demografi pelanggan yang membeli buku-buku itu
Bagaimana mengurangi dimensi data Anda
Data yang digunakan dalam model prediktif biasanya dikumpulkan dari berbagai sumber. Analisis Anda dapat menarik dari data yang tersebar di beberapa format data, file, dan database, atau beberapa tabel dalam database yang sama. Menyatukan data bersama-sama dan menggabungkannya ke dalam format terpadu agar pemodel data dapat digunakan sangat penting.
Jika data Anda mengandung konten hierarkis, itu mungkin perlu
diratakan . Beberapa data memiliki beberapa karakteristik hierarkis seperti hubungan orang tua-anak, atau catatan yang terdiri dari rekaman lainnya.Misalnya, produk seperti mobil mungkin memiliki banyak pembuat; Perataan data, dalam hal ini, berarti mencakup setiap pembuat sebagai fitur tambahan dari rekaman yang Anda analisis. Data perataan sangat penting saat menggabungkan beberapa catatan terkait untuk menghasilkan gambar yang lebih baik.
Sebagai contoh, menganalisis efek samping untuk beberapa obat yang dibuat oleh beberapa perusahaan mungkin mengharuskan data tersebut diratakan pada tingkat substansi. Dengan demikian, Anda akhirnya menghapus
hubungan satu-ke-banyak (dalam hal ini, banyak pembuat dan banyak zat untuk satu produk) yang dapat menyebabkan duplikasi data terlalu banyak dengan mengulangi banyak masukan zat yang berulang informasi produk dan pembuat di setiap entri. Perataan mengurangi
dimensi data , yang ditunjukkan oleh jumlah fitur yang ada dalam catatan atau pengamatan. Misalnya, pelanggan dapat memiliki beberapa fitur berikut: nama, usia, alamat, item yang dibeli. Ketika Anda memulai analisis Anda, Anda mungkin menemukan diri Anda mengevaluasi catatan dengan banyak fitur, hanya beberapa yang penting untuk analisisnya. Jadi, Anda harus menghilangkan semua kecuali beberapa fitur yang memiliki kekuatan paling prediktif untuk proyek spesifik Anda.
Mengurangi dimensi data dapat dicapai dengan meletakkan semua data dalam satu tabel yang menggunakan beberapa kolom untuk mewakili atribut yang diminati. Pada permulaan analisis, tentu saja, analisis harus mengevaluasi sejumlah besar kolom - namun angka tersebut dapat dipersempit seiring analisis berlangsung.
Proses ini dapat dibantu dengan menyusun kembali bidang - misalnya, dengan mengelompokkan data dalam kategori yang memiliki karakteristik serupa.
Dataset yang dihasilkan - kumpulan data yang dibersihkan - biasanya dimasukkan ke basis data terpisah untuk digunakan para analis. Selama proses pemodelan, data ini harus mudah diakses, dikelola, dan tetap up to date.