Video: Amazon, Jeff Bezos and collecting data | DW Documentary 2024
Saat Anda merancang gudang data dan Anda menentukan data eksternal yang Anda butuhkan, Anda cukup melakukan pemesanan (mirip dengan memesan pakaian atau keranjang buah dari situs online). Setelah Anda mulai menerima data melalui arus, transfer file, atau cara lain, itu berlayar mulus - atau bukan?
Bagaimana dengan kualitas data yang masuk? Anda benar-benar harus menerapkan seperangkat prosedur penjaminan mutu (QA) yang sama untuk data yang disediakan secara eksternal yang Anda lakukan terhadap data yang berasal dari sistem internal Anda sendiri. Hanya karena Anda membeli informasi di pasar terbuka tidak menjamin bahwa datanya tidak sempurna.
Terapkan prosedur QA ke setiap data batch yang masuk dengan mengikuti langkah-langkah berikut:
-
Cari tahu apakah data yang masuk memiliki nilai cek yang ditambahkan ke file.
Beberapa contoh nilai cek adalah jumlah record di setiap file, nilai total setiap kolom numerik (jumlah total penjualan untuk semua record dan total unit yang terjual untuk semua record, misalnya), dan himpunan bagian dari total nilai kolom (jumlah total penjualan dan unit oleh negara, misalnya).
Jika nilai cek diberikan, maka harus disimpan dan digunakan sebagai bagian dari prosedur pemuatan end-to-end. Tidak ada yang harus secara resmi memperbarui isi gudang sampai jumlah cek sesuai dengan perhitungan yang Anda buat saat menyiapkan data untuk pemuatan.
-
Jika tidak ada nilai cek yang diberikan, mintalah mereka.
Meskipun permintaan tersebut memerlukan beberapa siklus (beberapa minggu atau bulan, misalnya) untuk mengisi, setiap penyedia data yang tertarik untuk menyediakan layanan pelanggan tingkat tinggi memerlukan jenis permintaan ini dengan serius dan berusaha membuat informasi kontrol yang diminta tersedia.
-
Selama prosedur pemuatan Anda, saring setiap baris.
Pastikan bahwa kondisi berikut ini benar:
-
Kunci (pengenal unik untuk setiap rekaman) benar di semua informasi. Misalnya, jika setiap record dalam kelompok data SalesMasterRecord harus memiliki persis 12 catatan terkait di SalesDetailRecord (satu untuk setiap bulan), pastikan semua catatan detail ada dengan membandingkan nilai kunci rekam.
-
Kisaran nilai sudah benar. Penjualan produk per bulan, misalnya, harus berada dalam batas yang wajar untuk jenis produk tersebut (pesawat terbang berbeda dari baut, misalnya).
-
Bidang informasi yang hilang (kemungkinan - hampir tak terelakkan - kejadian dengan data yang disediakan secara eksternal) tidak merusak makna data yang masuk.
Misalnya, walaupun tidak adanya potongan data tambahan (ditentukan menurut peraturan bisnis untuk industri atau organisasi spesifik Anda) mungkin tidak terlalu serius, jika setengah catatan masuk memiliki ruang kosong di mana UnitsSold, TotalSalesPrice, atau beberapa jenis informasi penting lainnya, nilai data paling dipertanyakan.
-
Terutama pada tahap awal mendapatkan data eksternal (tiga atau empat bulan pertama, misalnya), gunakan alat analisis Anda, seperti yang dijelaskan di Bab 10, untuk melakukan analisis kualitas data sebelum pengguna Anda menggunakan alat yang sama untuk melakukan bisnis. analisis.
Mencari keanehan, anomali, hasil yang membingungkan, ketidakkonsistenan, paradoks nyata, dan hal lain yang terlihat aneh. Kemudian, tiriskan ke akar data untuk memeriksa sumber keanehan.
Ingatlah bahwa Anda mungkin berurusan dengan jutaan baris data masuk: Selain tidak dapat secara pribadi memeriksa setiap baris, Anda mungkin mengalami kesulitan untuk menyiapkan kriteria pemeriksaan pemfilteran dan QA untuk setiap kondisi yang mungkin terjadi.
Siapa pun yang pernah melakukan sesuatu dengan data sumber yang disediakan secara eksternal telah menemukan semua jenis inkonsistensi aneh dan data yang hilang dalam informasi yang masuk. Dengan menempatkan diri Anda di tempat pengguna dan menggunakan alat yang sama dengan yang mereka gunakan, Anda mungkin bisa menemukan satu atau dua hal yang dapat Anda perbaiki, membuat gudang data Anda menyimpan lebih banyak informasi bisnis yang berharga.
-