Arsitektur Apache Hive - dummies - Keuangan Pribadi 2024

Video: Apache Spark Tutorial | Spark Tutorial for Beginners | Apache Spark Training | Edureka 2024

Saat Anda memeriksa elemen Apache Hive yang ditunjukkan, Anda dapat melihat di bagian bawah bahwa Sarang duduk di atas Sistem Berkas Terdistribusi Hadoop (HDFS) dan sistem MapReduce.

Dalam kasus MapReduce, gambar menunjukkan komponen Hadoop 1 dan Hadoop 2. Dengan Hadoop 1, query Hive dikonversi menjadi kode MapReduce dan dieksekusi menggunakan infrastruktur MapReduce v1 (MRv1), seperti JobTracker dan TaskTracker.

Dengan Hadoop 2, YARN telah memisahkan manajemen sumber daya dan penjadwalan dari kerangka MapReduce. Pertanyaan sarang tetap dapat dikonversi ke kode MapReduce dan dieksekusi, sekarang dengan MapReduce v2 (MRv2) dan infrastruktur BENAR.

Ada kerangka baru yang sedang dikembangkan yang disebut Apache Tez, yang dirancang untuk meningkatkan kinerja siku untuk kueri gaya batch dan mendukung kueri interaktif (juga dikenal sebagai real-time ). Pada saat penulisan, proyek Apache Tez masih dalam inkubasi, dan belum memiliki rilis siap produksi.

Jika ini membantu Anda memvisualisasikan bagaimana semua bagian sesuai, pikirkan sistem HDFS dan MapReduce sebagai bagian dari sistem operasi Apache Hadoop, dengan komponen Hive - serta komponen lainnya, seperti HBase - sebagai fungsi tingkat tinggi atau aplikasi. (Anda dapat melihat tema yang umum muncul: HDFS menyediakan penyimpanan, dan MapReduce menyediakan kemampuan pemrosesan paralel untuk fungsi tingkat lebih tinggi dalam ekosistem Hadoop.)

Memindahkan diagram, Anda menemukan Driver Hive, yang mengkompilasi, mengoptimalkan, dan menjalankan HiveQL. The Hive Driver dapat memilih untuk mengeksekusi pernyataan dan perintah HiveQL secara lokal atau menelurkan pekerjaan MapReduce, tergantung pada tugas yang ada. The Hive Driver menyimpan metadata tabel di metastore dan database-nya.

Anda mungkin memiliki beberapa keakraban dengan SQL dan model database relasional dari dunia RDBMS. A tabel atau relasi terdiri dari kolom vertikal dan baris horizontal. Sel disimpan dimana baris dan kolom berpotongan. Jika Anda tidak terbiasa dengan SQL dan model basis data relasional, Anda dapat menemukan sumber belajar yang berguna dengan menggunakan mesin pencari favorit Anda.

Secara default, Hive menyertakan Apache Derby RDBMS yang dikonfigurasi dengan metastore dalam mode embedded yang disebut. Mode Tertanam berarti bahwa Driver Hive, metastore, dan Apache Derby semuanya berjalan dalam satu Java Virtual Machine (JVM).

Konfigurasi ini baik untuk tujuan pembelajaran, namun mode tertanam hanya dapat mendukung satu sesi Sarang tunggal, sehingga biasanya tidak digunakan dalam lingkungan produksi multi pengguna.Dua mode lainnya ada - local dan remote - yang dapat mendukung lebih banyak sesi sarang lebah di lingkungan produksi. Selain itu, Anda dapat mengkonfigurasi RDBMS yang sesuai dengan paket Antarmuka Pemrograman Aplikasi Java Database Connectivity (JDBC). (Contoh di sini termasuk MySQL dan DB2.)

Kunci dukungan aplikasi adalah Hive Thrift Server, yang memungkinkan satu set klien kaya untuk mengakses subsistem Hive. Klien SQuirreL SQL open source disertakan sebagai contoh. Intinya adalah bahwa aplikasi yang sesuai dengan JDBC dapat mengakses Hive melalui driver JDBC yang dibundel.

Pernyataan yang sama berlaku untuk klien yang sesuai dengan Open Database Connectivity (ODBC) - misalnya, unixODBC dan utilitas isql, yang biasanya digabungkan dengan Linux, memungkinkan akses ke Hive dari klien Linux jauh.

Selain itu, jika Anda menggunakan Microsoft Excel, Anda akan senang mengetahui bahwa Anda dapat mengakses Hive setelah menginstal driver Microsoft ODBC di sistem klien Anda. Akhirnya, jika Anda perlu mengakses Hive dari bahasa pemrograman selain Java (PHP atau Python, misalnya), Apache Thrift adalah jawabannya. Klien Apache Thrift terhubung ke Hive melalui Hive Thrift Server, seperti yang dilakukan klien JDBC dan ODBC.

Untuk melanjutkan gambar arsitektur Hive, perhatikan bahwa Hive menyertakan Command Line Interface (CLI), di mana Anda dapat menggunakan jendela terminal Linux untuk mengeluarkan kueri dan perintah administratif langsung ke Driver Sengaja. Jika pendekatan grafis lebih mempercepat Anda, ada juga antarmuka web yang praktis sehingga Anda dapat mengakses tabel dan data sarang-dikelola melalui browser favorit Anda.

Ada teknologi peramban web lain yang dikenal dengan nama Hue yang menyediakan antarmuka pengguna grafis (GUI) ke Apache Hive. Beberapa pengguna Hadoop suka memiliki GUI yang mereka inginkan, bukan hanya antarmuka baris perintah (CLI). Seiring dengan Hive, Hue mendukung teknologi kunci Hadoop lainnya serta HDFS, MapReduce / YARN, HBase, Zookeeper, Oozie, Pig, dan Sqoop. Anda akan menyukai nama untuk GUI Apache Hive Hue - ini disebut Beeswax.