Daftar Isi:
Video: Belajar web service middleware layout LocalStorage 2024
Anda harus menetapkan dua layanan jaminan kualitas (QA) yang berbeda dalam aliran layanan middleware. Anda harus melakukan tugas QA pertama melawan ekstrak dari sumber data sebelum Anda menjalankan layanan middleware lagi.
Jaminan kualitas data: bagian I
Cobalah untuk menangkap (dan memperbaiki) kesalahan dan masalah sedini mungkin dalam prosesnya. Memindahkan data ke jaringan pipa ke gudang data tidak ada gunanya jika masalah begitu signifikan sehingga memerlukan upaya lebih jauh untuk diperbaiki nanti dalam prosesnya atau tidak dapat diperbaiki.
Jadi, jenis masalah apa yang harus Anda cari? Berikut adalah beberapa hal:
-
Nilai dalam elemen data yang melebihi kisaran yang wajar: Pelanggan telah mengirimkan 150 juta pesanan pembelian pada bulan lalu, misalnya, atau seorang karyawan telah bekerja dengan perusahaan tersebut selama 4, 297 tahun, sesuai dengan database karyawan dan tanggal perekrutan yang tersimpan.
-
Nilai dalam elemen data yang tidak sesuai dengan daftar nilai resmi dan lengkap yang diperbolehkan: Nilai mungkin memiliki kode A, misalnya, bila nilai yang diijinkan hanya untuk bidang itu adalah M dan F. (Jika bidang itu diberi label GENDER, A mungkin berdiri untuk androguin!)
-
Ketidakkonsistenan tabel silang: Untuk entri dalam tabel CUSTOMER_ORDER, tidak ada entri yang sesuai (seperti yang diidentifikasi oleh CUSTOMER_ID) ada di CUSTOMER_MASTER_TABLE.
-
Ketidakkonsistenan lintas bidang: Catatan yang memiliki status atau kode pos yang salah untuk kota yang ditunjukkan.
-
Nilai yang hilang: Catatan yang memiliki nilai yang hilang di bidang tertentu yang seharusnya isinya.
-
Data gap: Misalnya, tabel sumber harus berisi satu baris data yang mencakup jumlah unit penjualan dan penjualan dolar untuk setiap bulan selama dua tahun terakhir. Namun, untuk sejumlah besar pelanggan, tidak ada baris untuk setidaknya satu bulan itu.
-
Data tidak lengkap: Jika informasi tentang setiap produk yang dijual perusahaan seharusnya tersedia, misalnya, apakah semua produk termasuk dalam ekstrak?
-
Pelanggaran aturan bisnis: Jika aturan bisnis menyatakan bahwa hanya satu pedagang grosir yang dapat menjual produk ke salah satu pelanggan perusahaan, Anda harus memeriksa apakah ada catatan pelanggan yang menunjukkan penjualan yang dilakukan melalui lebih dari satu pedagang grosir, bisa menunjukkan data yang salah dalam sumbernya.
-
Data korupsi sejak ekstrak terakhir: Jika ekstraksi terjadi setiap bulan, misalnya, Anda harus mencatat nilai data atau jumlah yang harus konstan, seperti SALES PER PELANGGAN PER BULAN.Jika, pada bulan berikutnya, nilai PERJANJIAN PER PELANGGAN PER BULAN berubah untuk pelanggan tertentu untuk bulan sebelumnya, data yang mendasarinya mungkin telah rusak.
-
Ketidakkonsistenan ejaan: Nama pelanggan dieja dengan beberapa cara yang berbeda, misalnya.
Apa yang Anda lakukan saat menemukan masalah? Anda dapat mencoba salah satu dari teknik berikut ini:
-
Terapkan aturan koreksi otomatis. Bila Anda menemukan ejaan yang tidak konsisten, misalnya, lakukan pencarian di meja master koreksi ejaan sebelumnya dan secara otomatis membuat perubahan pada data.
-
Singkirkan catatan anggota tim untuk dianalisis dan diperbaiki nanti. Dalam kasus ini, Anda dapat melakukan bagian manusia QA bersamaan dengan koreksi otomatis.
Misalnya, koreksi otomatis dibuat, jika memungkinkan, dan laporan tentang masalah lain dimasukkan ke dalam file terpisah dan dikirim ke orang QA. Ketika orang QA membuat semua koreksi manual, Anda menggabungkan koreksi kembali ke data yang telah melalui proses QA otomatis.
-
Kerenkan jendelamu Jika Anda menemukan cukup banyak masalah yang serius atau memerlukan jumlah penelitian yang tidak tentu, pertimbangkan untuk menghentikan keseluruhan proses sampai Anda menemukan dan memperbaiki masalahnya.
Anda dapat membuat proses QA jauh lebih efisien, dan jauh lebih tidak bermasalah, jika Anda melakukan analisis sistem sumber menyeluruh. Jika Anda memiliki gagasan yang cukup bagus tentang jenis masalah data apa yang mungkin Anda temukan di setiap sumber data, Anda dapat memprogram ulang proses QA Anda untuk mendeteksi dan (semoga) memperbaiki masalah tersebut sebelum melanjutkan.
Secara historis, organisasi memperlakukan proses data warehouse QA sebagai aliran satu arah. Masalah dikoreksi sebelum data dipindahkan lebih jauh ke dalam aliran proses middleware namun tidak pernah dikoreksi pada sumber data. Sebagian besar gudang data baru memiliki umpan balik internal dari proses QA yang mengoreksi masalah kualitas data dalam data sumber.
Jaminan kualitas data: bagian II
Setelah menyelesaikan proses transformasi, data harus QA'd - lagi. Anda tidak pernah tahu jenis kesalahan atau perbedaan proses transformasi yang mungkin telah diperkenalkan ke dalam data. Setelah perubahan terjadi, proses QA sebelumnya tidak lagi valid.
Jalankan data gabungan dan transformasi melalui jenis langkah QA yang sama yang dibahas di sini. Meskipun Anda mungkin tidak menemukan banyak kesalahan mendasar (seperti kesalahan ejaan atau nilai yang berada di luar jangkauan) jika Anda melakukan pekerjaan menyeluruh di QA tingkat pertama, Anda tetap ingin memastikannya. Selanjutnya, pastikan bahwa kode atau skrip yang digunakan untuk transformasi data tidak secara tidak sengaja menyebabkan kesalahan baru merayap masuk.
Tujuan dari QA tingkat kedua ini adalah untuk memastikan bahwa data gabungan dan transformasi Anda siap dimuat ke gudang data - segera setelah satu langkah lagi terjadi, jika perlu.