Rumah Keuangan Pribadi Pencocokan Data untuk Algoritma dari Berbagai Sumber - dummies

Pencocokan Data untuk Algoritma dari Berbagai Sumber - dummies

Video: Belajar Data Mining Perbandingan Algoritma (3) di Rapidminer 2024

Video: Belajar Data Mining Perbandingan Algoritma (3) di Rapidminer 2024
Anonim

Berinteraksi dengan data dari satu sumber adalah satu masalah; berinteraksi dengan data dari beberapa sumber cukup lain. Namun, kumpulan data saat ini umumnya berasal dari lebih dari satu sumber, jadi Anda perlu memahami komplikasi yang menggunakan banyak sumber data. Saat bekerja dengan beberapa sumber data, Anda harus melakukan hal berikut:

  • Tentukan apakah kedua kumpulan data berisi semua data yang diperlukan. Dua desainer tidak mungkin membuat dataset yang berisi data yang sama persis, dalam format yang sama, dari jenis yang sama, dan dalam urutan yang sama. Oleh karena itu, Anda perlu mempertimbangkan apakah dataset menyediakan data yang Anda butuhkan atau apakah Anda perlu memulihkan data dengan cara tertentu untuk memperoleh hasil yang diinginkan.
  • Periksa kedua dataset untuk masalah tipe data. Satu dataset bisa diberi tanggal sebagai string, dan yang lain bisa memasukkan tanggal sebagai objek tanggal aktual. Ketidakkonsistenan antara tipe data akan menyebabkan masalah bagi algoritma yang mengharapkan data dalam satu bentuk dan menerimanya dalam bentuk yang lain.
  • Pastikan semua dataset memiliki makna yang sama pada elemen data. Data yang dibuat oleh satu sumber mungkin memiliki arti yang berbeda dari data yang dibuat oleh sumber lain. Misalnya, ukuran bilangan bulat dapat bervariasi antar sumber, jadi Anda mungkin melihat bilangan bulat 16 bit dari satu sumber dan bilangan bulat 32 bit dari yang lain. Nilai yang lebih rendah memiliki arti yang sama, namun bilangan bulat 32 bit dapat mengandung nilai lebih besar, yang dapat menyebabkan masalah pada algoritma. Tanggal juga dapat menyebabkan masalah karena mereka sering mengandalkan penyimpanan begitu banyak milidetik sejak tanggal tertentu (seperti JavaScript, yang menyimpan jumlah milidetik sejak 01 Januari, 1970 UTC). Komputer hanya melihat angka; manusia menambahkan makna pada angka-angka ini sehingga aplikasi menafsirkannya dengan cara yang spesifik.
  • Verifikasi atribut data. Item data memiliki atribut tertentu. Penafsiran ini bisa berubah bila menggunakan numpy . Sebenarnya, Anda mendapati bahwa atribut data berubah antara lingkungan, dan pengembang dapat mengubahnya lebih banyak lagi dengan membuat tipe data khusus. Untuk menggabungkan data dari berbagai sumber, Anda harus memahami atribut ini untuk memastikan bahwa Anda menafsirkan data dengan benar.

Semakin banyak waktu yang Anda habiskan untuk memverifikasi kompatibilitas data dari masing-masing sumber yang ingin Anda gunakan untuk dataset, semakin kecil kemungkinan Anda menghadapi masalah saat bekerja dengan sebuah algoritma. Masalah ketidakcocokan data tidak selalu muncul sebagai kesalahan langsung. Dalam beberapa kasus, ketidakcocokan dapat menyebabkan masalah lain, seperti hasil yang salah yang terlihat benar namun memberikan informasi yang menyesatkan.

Menggabungkan data dari berbagai sumber mungkin tidak selalu berarti membuat dataset baru yang mirip dengan dataset sumber. Dalam beberapa kasus, Anda membuat kumpulan data atau melakukan manipulasi bentuk lain untuk membuat data baru dari data yang ada. Analisis mengambil segala macam bentuk, dan beberapa bentuk yang lebih eksotis dapat menghasilkan kesalahan yang mengerikan bila digunakan secara tidak benar. Sebagai contoh, satu sumber data dapat memberikan informasi pelanggan secara umum dan sumber data kedua dapat memberikan kebiasaan membeli pelanggan. Ketidakcocokan antara kedua sumber tersebut mungkin sesuai dengan pelanggan dengan informasi kebiasaan membeli yang tidak benar dan menimbulkan masalah saat Anda mencoba memasarkan produk baru ke pelanggan ini. Sebagai contoh ekstrem, pertimbangkan apa yang akan terjadi saat menggabungkan informasi pasien dari beberapa sumber dan membuat entri pasien gabungan dalam sumber data baru dengan segala macam ketidakcocokan. Seorang pasien tanpa riwayat penyakit tertentu bisa berakhir dengan catatan yang menunjukkan diagnosis dan perawatan penyakit.

Pencocokan Data untuk Algoritma dari Berbagai Sumber - dummies

Pilihan Editor

Bertahan dalam Zombie Sieges di Minecraft - dummies

Bertahan dalam Zombie Sieges di Minecraft - dummies

Bermasalah dengan zombie yang menyerang desa Anda pada malam hari di Minecraft? Pelajari bagaimana untuk membela diri, menyembuhkan penduduk desa zombie, dan pulihkan dunia Anda!

Zaman Batu di Minecraft - dummies

Zaman Batu di Minecraft - dummies

Tonggak penting dalam mode Minecraft Survival, dan yang dicapai oleh beberapa pemain di Hari pertama, mencapai Zaman Batu. Setelah Anda membuat pickax kayu dan Anda bisa menemukan gua atau menggali lubang, item dalam tabel berikut tersedia untuk Anda. Sebagian besar bahan berbasis batu lebih padat dari yang lain ...

Zaman Looting di Minecraft - dummies

Zaman Looting di Minecraft - dummies

Anda mencapai Usia Looting di Minecraft di awal permainan - kadang-kadang, bahkan paralel untuk mencapai Era Kayu. Anda mulai dengan membunuh musuh untuk menjarah, dan dengan menggunakan jarahan untuk memperbaiki repertoar kerajinan Anda. Lebih banyak item kemudian tersedia bagi Anda, seperti tercantum dalam tabel. Semua alat meningkatkan jumlah ...

Pilihan Editor

Infografis tepat waktu: Berbagi Breaking News - dummies

Infografis tepat waktu: Berbagi Breaking News - dummies

Walaupun infografik Anda tidak mungkin menjadi satu-satunya sumber berita, Ini bisa membantu pemahaman pembaca akan sebuah acara berita. Misalnya, banyak orang belajar di Twitter pada bulan Oktober, 2011 bahwa pendiri Apple Steve Jobs telah meninggal dunia. Infografis tidak akan menjadi orang pertama yang mendengarnya. Tapi orang-orang ...

Pilihan Editor

GED Contoh Pertanyaan: Pertanyaan Ilmu Fisik - dummies

GED Contoh Pertanyaan: Pertanyaan Ilmu Fisik - dummies

Ketika Anda mencapai bagian Sains GED, Anda akan diharapkan memiliki pengetahuan umum di semua cabang Ilmu Pengetahuan, termasuk Ilmu Fisika. Berikut adalah contoh jenis pertanyaan yang mungkin Anda hadapi pada hari ujian. Kecepatan dan Kecepatan Ada perbedaan antara kecepatan dan kecepatan, meskipun terkadang Anda ...

Latihan GED RLA: Reading Comprehension - dummies

Latihan GED RLA: Reading Comprehension - dummies

Cara terbaik untuk mempersiapkan bagian pemahaman bacaan GED Tes RLA adalah melakukan sebanyak mungkin pertanyaan latihan. Simak sampel untuk melihat apa yang akan Anda hadapi pada hari ujian. Contoh Pertanyaan Pertanyaan 1-6 mengacu pada bagian berikut. Fasilitas untuk Akses ke Perusahaan Kreatif (FACE) Awalnya didirikan ...

GED Penalaran melalui Latihan Keterampilan Membaca Bahasa Seni - dummies

GED Penalaran melalui Latihan Keterampilan Membaca Bahasa Seni - dummies

Komponen bacaan Penalaran meskipun Bahasa Seni Bagian pada GED terdiri dari kutipan dari fiksi dan nonfiksi. Setiap kutipan diikuti oleh beberapa item pilihan berdasarkan bahan bacaan. Untuk pertanyaan di bagian ini, pilih satu jawaban terbaik untuk setiap pertanyaan. Bekerja dengan hati-hati, tapi jangan terlalu banyak menghabiskan waktu ...