Daftar Isi:
Video: Integrasi Data Warehouse - Tugas Besar Basis Data Kelompok 9 2024
Anda akan menemukan nilai dalam membawa kemampuan data warehouse dan lingkungan data yang besar bersama-sama. Anda perlu menciptakan lingkungan hibrida dimana data besar dapat bekerja bergandengan tangan dengan data warehouse.
Pertama, penting untuk mengenali bahwa data warehouse seperti yang dirancang hari ini tidak akan berubah dalam jangka pendek.
Oleh karena itu, lebih pragmatis untuk menggunakan gudang data untuk apa yang telah dirancangnya - memberikan versi kebenaran yang benar tentang topik yang ingin dianalisis oleh bisnis. Gudang itu mungkin mencakup informasi tentang lini produk perusahaan tertentu, pelanggannya, pemasoknya, dan rincian transaksi satu tahun.
Informasi yang dikelola di gudang data atau data mart departemen telah dibangun dengan hati-hati sehingga metadata akurat. Dengan berkembangnya informasi berbasis web baru, praktis dan sering diperlukan untuk menganalisis sejumlah besar data ini dalam konteks dengan data historis. Di sinilah model hibrida masuk.
Aspek tertentu untuk menikahi data warehouse dengan data yang besar bisa jadi relatif mudah. Misalnya, banyak sumber data besar berasal dari sumber yang menyertakan metadata mereka sendiri yang dirancang dengan baik. Situs e-commerce yang kompleks mencakup elemen data yang terdefinisi dengan baik. Oleh karena itu, ketika melakukan analisis antara gudang dan sumber data yang besar, organisasi manajemen informasi bekerja dengan dua kumpulan data dengan model metadata yang dirancang dengan cermat yang harus dirasionalisasi.
Tentu saja, dalam beberapa situasi, sumber informasi tidak memiliki metadata yang jelas. Sebelum seorang analis dapat menggabungkan data transaksional historis dengan data yang kurang terstruktur, pekerjaan harus dilakukan. Biasanya, analisis awal petabyte data akan mengungkapkan pola menarik yang dapat membantu memprediksi perubahan halus dalam bisnis atau solusi potensial terhadap diagnosis pasien.
Analisis awal dapat diselesaikan dengan memanfaatkan tool seperti MapReduce dengan kerangka sistem file Hadoop yang terdistribusi. Pada titik ini, Anda bisa mulai mengerti apakah mampu membantu mengevaluasi masalah yang sedang ditangani.
Dalam proses analisis, sama pentingnya menghilangkan data yang tidak perlu karena mengidentifikasi data yang relevan dengan konteks bisnis. Bila fase ini selesai, data yang tersisa perlu ditransformasikan sehingga definisi metadata tepat. Dengan cara ini, bila data besar digabungkan dengan data historis tradisional dari gudang, hasilnya akan akurat dan bermakna.
Integrasi data besar lynchpin
Proses ini memerlukan strategi integrasi data yang terdefinisi dengan baik. Sementara integrasi data merupakan elemen penting dalam mengelola data besar, sama pentingnya saat membuat analisis hibrida dengan data warehouse. Sebenarnya, proses penggalian data dan transformasi di lingkungan hibrida sangat mirip dengan bagaimana proses ini dijalankan dalam gudang data tradisional.
Di gudang data, data diekstraksi dari sistem sumber tradisional seperti sistem CRM atau ERP. Sangat penting bahwa elemen dari berbagai sistem ini benar-benar cocok.
Memikirkan ulang ekstraksi, transformasi, dan beban untuk gudang data
Di gudang data, Anda sering menemukan kombinasi tabel database relasional, file flat, dan sumber nonrelasional. Sebuah gudang data yang dibangun dengan baik akan diarsipkan sehingga data diubah menjadi format umum, sehingga query dapat diproses secara akurat dan konsisten. File yang diekstraksi harus diubah agar sesuai dengan peraturan dan proses bisnis dari area subjek yang dirancang untuk dianalisis data warehouse.
Dengan kata lain, data harus diambil dari sumber data yang besar sehingga sumber ini dapat bekerja dengan aman dan menghasilkan hasil yang berarti. Selain itu, sumbernya harus ditransformasikan sehingga sangat membantu dalam menganalisis hubungan antara data historis dan data yang lebih dinamis dan real-time yang berasal dari sumber data yang besar.
Memuat informasi dalam model data besar akan berbeda dari yang Anda harapkan di gudang data tradisional. Dengan gudang data, setelah data dikodifikasi, tidak pernah ada perubahan. Data warehouse yang khas akan menyediakan data snapshot bisnis berdasarkan kebutuhan untuk menganalisis masalah bisnis tertentu yang memerlukan pemantauan, seperti persediaan atau penjualan.
Struktur terdistribusi dari data besar akan sering mengarahkan organisasi untuk memasukkan data pertama ke dalam rangkaian node dan kemudian melakukan ekstraksi dan transformasi. Saat membuat hibrida dari gudang data tradisional dan lingkungan data yang besar, sifat terdistribusi dari lingkungan data yang besar dapat secara dramatis mengubah kemampuan organisasi untuk menganalisis sejumlah besar data dalam konteks bisnis.