Video: BISA SEBESAR INI.??!! Begini Sarang² Hewan Tak Biasa yang Berhasil Ditemukan #YtCrash 2024
Sarang adalah lapisan data berorientasi pergudangan yang berorientasi pada elemen inti Hadoop (HDFS dan MapReduce) dan sangat berguna dalam data besar. Ini menyediakan pengguna yang mengenal SQL dengan implementasi SQL-lite sederhana yang disebut HiveQL tanpa mengorbankan akses melalui pemecah dan pengurang. Dengan Hive, Anda bisa mendapatkan yang terbaik dari kedua dunia: Akses seperti SQL ke data terstruktur dan analisis data yang canggih dengan MapReduce.
Tidak seperti kebanyakan gudang data, Sarang tidak dirancang untuk tanggapan cepat terhadap kueri. Sebenarnya, pertanyaan bisa memakan waktu beberapa menit atau bahkan berjam-jam tergantung kompleksitasnya. Akibatnya, Hive paling baik digunakan untuk data mining dan analisis lebih dalam yang tidak memerlukan perilaku real-time. Karena bergantung pada pondasi Hadoop, sangat dapat diperluas, terukur, dan tangguh, sesuatu yang tidak dimiliki oleh data warehouse rata-rata.
Hive menggunakan tiga mekanisme untuk organisasi data:
-
Tabel: Tabel sarang sama dengan tabel RDBMS yang terdiri dari baris dan kolom. Karena Hive dilapisi pada Hadoop HDFS, tabel dipetakan ke direktori dalam sistem file. Selain itu, Hive mendukung tabel yang tersimpan dalam sistem file asli lainnya.
-
Partisi: Meja Sarang dapat mendukung satu atau lebih partisi. Partisi ini dipetakan ke subdirektori dalam sistem file yang mendasari dan mewakili distribusi data ke seluruh tabel. Misalnya, jika sebuah tabel disebut autos, dengan nilai kunci 12345 dan nilai pembuat Ford, jalan ke partisi akan menjadi / hivewh / autos / kv = 12345 / Ford.
-
Bucket: Pada gilirannya, data dapat dibagi menjadi ember. Ember disimpan sebagai file di direktori partisi di sistem file yang mendasarinya. Ember didasarkan pada hash kolom dalam tabel. Dalam contoh sebelumnya, Anda mungkin memiliki ember yang disebut Fokus, yang berisi semua atribut auto Ford Focus.
Metadata sarang disimpan secara eksternal di "metastore. "Metastore adalah database relasional yang berisi deskripsi rinci tentang skema Hive, termasuk tipe kolom, pemilik, data kunci dan nilai, statistik tabel, dan sebagainya. Metastore mampu menyinkronkan data katalog dengan layanan metadata lain di ekosistem Hadoop.
Hive mendukung bahasa mirip SQL yang disebut HiveQL. HiveQL mendukung banyak primitif SQL, seperti pilih, join, aggregate, union all, dan sebagainya. Ini juga mendukung query dan insert multitable dengan berbagi data masukan dalam satu pernyataan HiveQL tunggal. HiveQL dapat diperluas untuk mendukung agregasi yang ditentukan pengguna, transformasi kolom, dan skrip MapReduce yang disematkan.