Daftar Isi:
Video: Database Tutorial for Beginners 2024
Arsitektur data besar Anda juga perlu tampil sesuai dengan infrastruktur pendukung organisasi Anda. Misalnya, Anda mungkin tertarik untuk menjalankan model untuk menentukan apakah aman untuk mengebor minyak di daerah lepas pantai mengingat data suhu, salinitas, resuspensi sedimen, dan sejumlah sifat biologis, kimia, dan fisik lainnya secara real-time. kolom air
Perlu waktu berhari-hari untuk menjalankan model ini menggunakan konfigurasi server tradisional. Namun, dengan menggunakan model komputasi terdistribusi, yang membutuhkan waktu berhari-hari mungkin akan memakan waktu beberapa menit.
Kinerja juga bisa menentukan jenis database yang akan Anda gunakan. Misalnya, dalam beberapa situasi, Anda mungkin ingin memahami bagaimana dua elemen data yang sangat berbeda terkait. Apa hubungan antara buzz di jejaring sosial dan pertumbuhan penjualan? Ini bukan permintaan khas yang bisa Anda tanyakan pada database relasional yang terstruktur.
Database grafik mungkin merupakan pilihan yang lebih baik, karena dirancang khusus untuk memisahkan "node" atau entitas dari "properti" atau informasi yang mendefinisikan entitas tersebut, dan "tepi" atau hubungan antara node dan properti. Menggunakan database yang tepat juga akan meningkatkan kinerja. Biasanya database grafik akan digunakan dalam aplikasi ilmiah dan teknis.
Pendekatan database operasional penting lainnya mencakup database kolom yang menyimpan informasi secara efisien dalam kolom dan bukan baris. Pendekatan ini menyebabkan kinerja lebih cepat karena input / output sangat cepat. Bila penyimpanan data geografis merupakan bagian dari persamaan, database spasial dioptimalkan untuk menyimpan dan mengurutkan data berdasarkan bagaimana objek terkait di ruang angkasa.
Atur layanan dan alat data yang besar
Tidak semua data yang digunakan organisasi operasional. Semakin banyak data berasal dari berbagai sumber yang tidak begitu terorganisir atau mudah, termasuk data yang berasal dari mesin atau sensor, dan sumber data publik dan swasta yang masif. Di masa lalu, kebanyakan perusahaan tidak dapat menangkap atau menyimpan sejumlah besar data ini. Itu terlalu mahal atau terlalu banyak.
Sekalipun perusahaan mampu menangkap datanya, mereka tidak memiliki alat untuk melakukan sesuatu. Sangat sedikit alat yang bisa memahami data dalam jumlah besar ini. Alat yang memang ada memang kompleks untuk digunakan dan tidak menghasilkan hasil dalam jangka waktu yang wajar.
Pada akhirnya, mereka yang benar-benar ingin berusaha keras untuk menganalisis data ini terpaksa bekerja dengan data-data snapshot.Ini memiliki efek yang tidak diinginkan karena kehilangan peristiwa penting karena tidak dalam potret tertentu.
MapReduce, Hadoop, dan Big Table untuk data besar
Dengan evolusi teknologi komputasi, sekarang mungkin untuk mengelola sejumlah besar data. Harga sistem telah turun, dan sebagai hasilnya, teknik baru untuk komputasi terdistribusi adalah mainstream. Terobosan sesungguhnya terjadi saat perusahaan seperti Yahoo!, Google, dan Facebook sampai pada kesadaran bahwa mereka memerlukan bantuan untuk menghasilkan sejumlah besar data yang mereka ciptakan.
Perusahaan yang sedang berkembang ini perlu menemukan teknologi baru yang memungkinkan mereka menyimpan, mengakses, dan menganalisis sejumlah besar data dalam waktu dekat sehingga mereka dapat memonetisasi manfaat dari memiliki banyak data tentang peserta di jaringan mereka.
Solusi mereka menghasilkan transformasi pasar pengelolaan data. Secara khusus, inovasi MapReduce, Hadoop, dan Big Table terbukti sebagai percikan api yang menghasilkan generasi baru pengelolaan data. Teknologi ini mengatasi salah satu masalah paling mendasar - kemampuan untuk memproses sejumlah besar data secara efisien, hemat biaya, dan tepat waktu.
MapReduce
MapReduce dirancang oleh Google sebagai cara untuk secara efisien menjalankan seperangkat fungsi terhadap sejumlah besar data dalam mode batch. Komponen "peta" mendistribusikan masalah atau tugas pemrograman di sejumlah besar sistem dan menangani penempatan tugas. Ini juga menyeimbangkan beban dan mengelola pemulihan kegagalan. Fungsi lain yang disebut "reduce" agregat semua elemen kembali bersama untuk memberikan hasilnya.
Big Table
Big Table dikembangkan oleh Google untuk menjadi sistem penyimpanan terdistribusi yang ditujukan untuk mengelola data terstruktur yang sangat terukur. Data disusun dalam tabel dengan baris dan kolom. Tidak seperti model database relasional tradisional, Big Table adalah peta diurutkan multidimensional yang jarang, terdistribusi, dan gigih. Hal ini dimaksudkan untuk menyimpan sejumlah besar data di seluruh server komoditas. Hadoop adalah kerangka kerja perangkat lunak yang dikelola Apache yang berasal dari MapReduce dan Big Table. Hadoop memungkinkan aplikasi berbasis MapReduce untuk berjalan pada kelompok besar perangkat keras komoditas. Proyek ini merupakan fondasi bagi arsitektur komputasi yang mendukung Yahoo!. bisnis. Hadoop dirancang untuk memparalelkan pemrosesan data di seluruh node komputasi untuk mempercepat perhitungan dan menyembunyikan latensi.