Video: Cara menghilangkan saran kata di keyboard vivo 2024
Seperti banyak aspek sistem bisnis lainnya, data adalah ciptaan manusia - jadi cenderung memiliki batasan pada kegunaannya saat pertama kali dapatkan itu Berikut adalah ikhtisar beberapa keterbatasan yang mungkin Anda hadapi:
-
Data tidak lengkap. Nilai yang hilang, bahkan kekurangan bagian atau sebagian besar data, dapat membatasi kegunaannya.
Misalnya, data Anda mungkin hanya mencakup satu atau dua kondisi dari kumpulan yang lebih besar yang ingin Anda model - seperti saat model yang dibuat untuk menganalisis kinerja pasar saham hanya memiliki data yang tersedia dari 5 tahun terakhir, yang mengalahkan keduanya data dan model terhadap asumsi pasar bull.
Saat pasar mengalami koreksi yang mengarah ke pasar beruang, model gagal menyesuaikan diri - hanya karena tidak dilatih dan diuji dengan data yang mewakili pasar beruang.
Pastikan Anda melihat kerangka waktu yang memberi gambaran lengkap tentang fluktuasi data Anda secara alami; data Anda tidak boleh dibatasi oleh seasonality .
-
Jika Anda menggunakan data dari survei, ingatlah bahwa orang tidak selalu memberikan informasi yang akurat. Tidak semua orang akan menjawab dengan jujur tentang (katakanlah) berapa kali mereka berolahraga - atau berapa banyak minuman beralkohol yang mereka konsumsi - per minggu. Orang mungkin tidak jujur sama sadar diri, tapi datanya masih miring.
-
Data yang dikumpulkan dari berbagai sumber dapat bervariasi dalam kualitas dan format. Data dikumpulkan dari berbagai sumber seperti survei, e-mail, formulir pemasukan data, dan situs perusahaan akan memiliki atribut dan struktur yang berbeda. Data dari berbagai sumber mungkin tidak memiliki banyak kesesuaian antara bidang data. Data semacam itu memerlukan preprocessing besar sebelum analisisnya siap. Sidebar yang menyertainya memberikan contoh.
Data yang dikumpulkan dari berbagai sumber mungkin memiliki perbedaan format, catatan duplikat, dan inkonsistensi di seluruh data gabungan. Berharap untuk menghabiskan waktu lama membersihkan data tersebut - dan bahkan lebih lama memvalidasi keandalannya.
Untuk menentukan keterbatasan data Anda, pastikan untuk:
-
Verifikasi semua variabel yang akan Anda gunakan dalam model Anda.
-
Menilai cakupan data, terutama dari waktu ke waktu, sehingga model Anda dapat menghindari perangkap musiman.
-
Periksa nilai yang hilang, kenali mereka, dan tilai dampaknya terhadap keseluruhan analisis.
-
Hati-hati dengan nilai ekstrim (outlier) dan putuskan apakah memasukkannya ke dalam analisis.
-
Konfirmasikan bahwa kumpulan data pelatihan dan pengujian cukup besar.
-
Pastikan tipe data (bilangan bulat, nilai desimal, atau karakter, dan sebagainya) benar dan tetapkan batas atas dan bawah dari nilai yang mungkin.
-
Perhatian ekstra pada integrasi data saat data Anda berasal dari berbagai sumber.
Pastikan Anda memahami sumber data dan pengaruhnya terhadap keseluruhan kualitas data Anda.
-
Pilih dataset yang relevan yang mewakili seluruh populasi.
-
Pilih parameter yang tepat untuk analisis Anda.
Bahkan setelah semua perawatan dan perhatian ini, jangan heran jika data Anda masih perlu preprocessing sebelum Anda bisa menganalisisnya secara akurat. Preprocessing sering membutuhkan waktu lama dan usaha yang signifikan karena harus menangani beberapa masalah yang berkaitan dengan data asli - masalah ini meliputi:
-
Setiap nilai yang hilang dari data.
-
Ketidakkonsistenan dan / atau kesalahan yang ada dalam data.
-
Setiap duplikat atau outlier dalam data.
-
Normalisasi atau transformasi data lainnya.
-
Data turunan yang dibutuhkan untuk analisis.