Rumah Keuangan Pribadi Bergabunglah dengan Meja dengan Hive - dummies

Bergabunglah dengan Meja dengan Hive - dummies

Video: Paradise or Oblivion 2024

Video: Paradise or Oblivion 2024
Anonim

Anda mungkin sudah tahu bahwa para ahli dalam pemodelan dan desain database relasional biasanya menghabiskan banyak waktu mereka merancang database yang dinormalisasi, atau skema <. Database normalisasi adalah teknik yang menjaga data kehilangan data, redundansi, dan anomali lainnya saat data diperbarui dan diambil. Para ahli mengikuti sejumlah peraturan untuk sampai pada database yang dinormalisasi, namun Aturan 1 adalah bahwa Anda harus menyelesaikan tabel

grup . (Satu meja besar yang menyimpan semua data Anda tidak normal - pun intended.) Ada pengecualian, tergantung pada kasus penggunaan, namun hukum dari banyak tabel umumnya diikuti secara ketat, terutama untuk database yang mendukung transaksi atau pemrosesan analitik (intelijen bisnis, sebagai contoh).

Saat Anda mulai query dan menganalisis data Anda, tabel digabungkan berdasarkan hubungan yang didefinisikan antara keduanya dengan menggunakan SQL - yang berarti bahwa disk pada akhirnya sibuk di server Anda saat Anda mulai bergabung dengan tabel, dan Disk yang sibuk biasanya menghasilkan waktu respons pengguna yang lebih lambat. Namun, kabar baiknya adalah bahwa RDBMS dan EDW disetel untuk membuat bergabung secepat mungkin.

Apa kaitannya dengan bergabung di Hive? Nah, ingatlah bahwa sistem operasi yang mendasari untuk Hive adalah (surprise!) Apache Hadoop: MapReduce adalah mesin untuk bergabung dengan tabel, dan Hadoop File System (HDFS) adalah penyimpanan yang mendasarinya. Ini semua kabar baik bagi pengguna yang ingin membuat, mengelola, dan menganalisa tabel besar dengan Hive.

Potensi untuk membuka informasi yang tersembunyi dalam struktur data sangat menarik. Namun, bergabung dengan Hive biasanya tidak tampil sebaik yang mereka lakukan di dunia RDBMS / EDW, jadi pengguna pertama kali sering terkejut dengan "kekagetan" respons sistem.

Ingat bahwa MapReduce dan HDFS dioptimalkan untuk throughput dengan analisis data yang besar dan bahwa, di dunia ini, latency - waktu respons pengguna, dengan kata lain - biasanya tinggi. Hive dirancang untuk pemrosesan analitik batch-style, bukan untuk pemrosesan transaksi online cepat. Pengguna yang menginginkan performa terbaik dengan SQL di Apache Hadoop memiliki solusi yang tersedia.

Ingatlah hal ini saat Anda mulai bergabung dengan tabel dengan Hive. Perhatikan juga bahwa arsitek Hive biasanya menetapkan basis data mereka sampai batas tertentu, sehingga memiliki tabel lebih sedikit lebih besar adalah hal yang biasa. Itu sebabnya tipe data kompleks seperti STRUCTs and ARRAYs disediakan. Anda dapat menggunakan tipe data yang kompleks ini untuk mengemas lebih banyak data ke dalam satu tabel.

Karena tabel Hive dibaca dan ditulis melalui HDFS biasanya melibatkan kumpulan data yang sangat besar, semakin banyak data yang dapat Anda atur dalam satu tabel, semakin baik keseluruhan kinerja.

Akses disk dan jaringan jauh lebih lambat dari pada akses memori, sehingga meminimalkan HDFS membaca dan menulis sebanyak mungkin.

Dengan mengingat informasi latar belakang ini, Anda dapat mengatasi pembuatan bergabung dengan Sarang. Untungnya, komunitas pengembangan Hive realistis dan mengerti bahwa pengguna menginginkan dan perlu bergabung dengan tabel dengan HiveQL. Pengetahuan ini menjadi sangat penting dengan pembesaran EDW. Kasus penggunaan seperti arsip "queryable" sering kali memerlukan gabungan untuk analisis data.

Berikut adalah contoh join Hive menggunakan tabel data penerbangan. Daftar tersebut menunjukkan kepada Anda bagaimana membuat dan menampilkan tabel myflightinfo2007 dan tabel myflightinfo2008 dari tabel FlightInfo2007 dan FlightInfo2008 yang lebih besar. Rencananya sepanjang ini adalah dengan menggunakan tabel CTC dibuat myflightinfo2007 dan myflightinfo2008 untuk menggambarkan bagaimana Anda dapat melakukan bergabung di Hive.

Angka tersebut menunjukkan hasil join batin dengan tabel myflightinfo2007 dan myflightinfo2008 menggunakan klien SQuirreL SQL.

Sarang mendukung

equi-joins, jenis gabungan tertentu yang hanya menggunakan perbandingan persamaan dalam predikat gabung. (ON m8 FlightNum = m7 FlightNum adalah salah satu contoh equi-join.) Pembanding lain seperti Kurang Dari (<) tidak didukung. Pembatasan ini hanya karena keterbatasan pada mesin MapReduce yang mendasarinya. Selain itu, Anda tidak dapat menggunakan OR dalam klausa ON. Angka tersebut menggambarkan contoh awal join batin dan dua tipe join Hive lainnya. Perhatikan bahwa Anda dapat mengonfirmasi hasil join batin dengan meninjau isi tabel myflight2007 dan myflight2008.

Gambar berikut menggambarkan bagaimana inner join bekerja menggunakan diagram Venn, jika Anda tidak terbiasa dengan teknik ini. Ide dasarnya di sini adalah bahwa join batin mengembalikan catatan yang cocok antara dua tabel. Jadi bergabung batin adalah alat analisis yang sempurna untuk menentukan penerbangan mana yang sama dari JFK (New York) ke ORD (Chicago) pada bulan Juli 2007 dan Juli 2008.

Mengoptimalkan Hive bergabung adalah topik hangat di komunitas Hive.. Untuk informasi lebih lanjut tentang teknik pengoptimalan saat ini, lihat halaman Optimalisasi Gabung di wiki Sarang.

Bergabunglah dengan Meja dengan Hive - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...