Rumah Keuangan Pribadi Bergabunglah dengan Meja dengan Hive - dummies

Bergabunglah dengan Meja dengan Hive - dummies

Video: Paradise or Oblivion 2024

Video: Paradise or Oblivion 2024
Anonim

Anda mungkin sudah tahu bahwa para ahli dalam pemodelan dan desain database relasional biasanya menghabiskan banyak waktu mereka merancang database yang dinormalisasi, atau skema <. Database normalisasi adalah teknik yang menjaga data kehilangan data, redundansi, dan anomali lainnya saat data diperbarui dan diambil. Para ahli mengikuti sejumlah peraturan untuk sampai pada database yang dinormalisasi, namun Aturan 1 adalah bahwa Anda harus menyelesaikan tabel

grup . (Satu meja besar yang menyimpan semua data Anda tidak normal - pun intended.) Ada pengecualian, tergantung pada kasus penggunaan, namun hukum dari banyak tabel umumnya diikuti secara ketat, terutama untuk database yang mendukung transaksi atau pemrosesan analitik (intelijen bisnis, sebagai contoh).

Saat Anda mulai query dan menganalisis data Anda, tabel digabungkan berdasarkan hubungan yang didefinisikan antara keduanya dengan menggunakan SQL - yang berarti bahwa disk pada akhirnya sibuk di server Anda saat Anda mulai bergabung dengan tabel, dan Disk yang sibuk biasanya menghasilkan waktu respons pengguna yang lebih lambat. Namun, kabar baiknya adalah bahwa RDBMS dan EDW disetel untuk membuat bergabung secepat mungkin.

Apa kaitannya dengan bergabung di Hive? Nah, ingatlah bahwa sistem operasi yang mendasari untuk Hive adalah (surprise!) Apache Hadoop: MapReduce adalah mesin untuk bergabung dengan tabel, dan Hadoop File System (HDFS) adalah penyimpanan yang mendasarinya. Ini semua kabar baik bagi pengguna yang ingin membuat, mengelola, dan menganalisa tabel besar dengan Hive.

Potensi untuk membuka informasi yang tersembunyi dalam struktur data sangat menarik. Namun, bergabung dengan Hive biasanya tidak tampil sebaik yang mereka lakukan di dunia RDBMS / EDW, jadi pengguna pertama kali sering terkejut dengan "kekagetan" respons sistem.

Ingat bahwa MapReduce dan HDFS dioptimalkan untuk throughput dengan analisis data yang besar dan bahwa, di dunia ini, latency - waktu respons pengguna, dengan kata lain - biasanya tinggi. Hive dirancang untuk pemrosesan analitik batch-style, bukan untuk pemrosesan transaksi online cepat. Pengguna yang menginginkan performa terbaik dengan SQL di Apache Hadoop memiliki solusi yang tersedia.

Ingatlah hal ini saat Anda mulai bergabung dengan tabel dengan Hive. Perhatikan juga bahwa arsitek Hive biasanya menetapkan basis data mereka sampai batas tertentu, sehingga memiliki tabel lebih sedikit lebih besar adalah hal yang biasa. Itu sebabnya tipe data kompleks seperti STRUCTs and ARRAYs disediakan. Anda dapat menggunakan tipe data yang kompleks ini untuk mengemas lebih banyak data ke dalam satu tabel.

Karena tabel Hive dibaca dan ditulis melalui HDFS biasanya melibatkan kumpulan data yang sangat besar, semakin banyak data yang dapat Anda atur dalam satu tabel, semakin baik keseluruhan kinerja.

Akses disk dan jaringan jauh lebih lambat dari pada akses memori, sehingga meminimalkan HDFS membaca dan menulis sebanyak mungkin.

Dengan mengingat informasi latar belakang ini, Anda dapat mengatasi pembuatan bergabung dengan Sarang. Untungnya, komunitas pengembangan Hive realistis dan mengerti bahwa pengguna menginginkan dan perlu bergabung dengan tabel dengan HiveQL. Pengetahuan ini menjadi sangat penting dengan pembesaran EDW. Kasus penggunaan seperti arsip "queryable" sering kali memerlukan gabungan untuk analisis data.

Berikut adalah contoh join Hive menggunakan tabel data penerbangan. Daftar tersebut menunjukkan kepada Anda bagaimana membuat dan menampilkan tabel myflightinfo2007 dan tabel myflightinfo2008 dari tabel FlightInfo2007 dan FlightInfo2008 yang lebih besar. Rencananya sepanjang ini adalah dengan menggunakan tabel CTC dibuat myflightinfo2007 dan myflightinfo2008 untuk menggambarkan bagaimana Anda dapat melakukan bergabung di Hive.

Angka tersebut menunjukkan hasil join batin dengan tabel myflightinfo2007 dan myflightinfo2008 menggunakan klien SQuirreL SQL.

Sarang mendukung

equi-joins, jenis gabungan tertentu yang hanya menggunakan perbandingan persamaan dalam predikat gabung. (ON m8 FlightNum = m7 FlightNum adalah salah satu contoh equi-join.) Pembanding lain seperti Kurang Dari (<) tidak didukung. Pembatasan ini hanya karena keterbatasan pada mesin MapReduce yang mendasarinya. Selain itu, Anda tidak dapat menggunakan OR dalam klausa ON. Angka tersebut menggambarkan contoh awal join batin dan dua tipe join Hive lainnya. Perhatikan bahwa Anda dapat mengonfirmasi hasil join batin dengan meninjau isi tabel myflight2007 dan myflight2008.

Gambar berikut menggambarkan bagaimana inner join bekerja menggunakan diagram Venn, jika Anda tidak terbiasa dengan teknik ini. Ide dasarnya di sini adalah bahwa join batin mengembalikan catatan yang cocok antara dua tabel. Jadi bergabung batin adalah alat analisis yang sempurna untuk menentukan penerbangan mana yang sama dari JFK (New York) ke ORD (Chicago) pada bulan Juli 2007 dan Juli 2008.

Mengoptimalkan Hive bergabung adalah topik hangat di komunitas Hive.. Untuk informasi lebih lanjut tentang teknik pengoptimalan saat ini, lihat halaman Optimalisasi Gabung di wiki Sarang.

Bergabunglah dengan Meja dengan Hive - dummies

Pilihan Editor

Perancang Minigame Minigame - dummies

Perancang Minigame Minigame - dummies

Sebelum menulis semua kode untuk membuat Minecraft Minigame, Anda perlu merancang permainan Anda. The Gameplay Loop adalah proses sederhana yang bisa Anda ikuti untuk memastikan permainan Anda menyenangkan, menantang, dan lengkap. The Gameplay Loop memiliki empat bagian: Start: Buat adegan dasar. Tujuan: Menambahkan cara untuk menang dan ...

Menciptakan Efek Air dan Es di Minecraft - dummies

Menciptakan Efek Air dan Es di Minecraft - dummies

Satu hal yang rapi tentang Minecraft adalah bahwa beberapa fisika realistis sedang dimainkan dalam permainan. Misalnya, jika Anda memiliki air dan Anda memasukkan es ke dalamnya, itu akan membeku! Oke, mungkin di dunia nyata, menambahkan es tidak membuat air membeku, tapi memang membuatnya lebih dingin. Anda dapat melihat ini ...

Mendapatkan Minecraft Experience Points - dummies

Mendapatkan Minecraft Experience Points - dummies

Di Minecraft, experience points, XP untuk jangka pendek, dikumpulkan dari bola pengalaman bercahaya. Sebagai pemain mengumpulkan cukup bola dan meningkatkan tingkat pengalaman mereka, mereka akan dapat menggunakan tabel dan landasan yang mempesona untuk meningkatkan kemampuan banyak item seperti senjata, baju besi, dan peralatan. Jadi, bagaimana Anda bisa cepat mendapatkan ini ...

Pilihan Editor

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Infomasi editorial sama dengan artikel berita karena tujuan utamanya adalah untuk mengirimkan informasi. Di bawah payung grafis editorial, ada beberapa tipe yang berbeda, dengan keseimbangan bias dan objektivitas yang berbeda. Berikut adalah beberapa melihat: Badai salju menghantam kota Anda. Koran lokal menciptakan grafik yang menunjukkan hujan salju ...

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bahkan di dunia kabel ini, seniman masih suka sketsa Kabar baik! Sketsa kasar Anda dapat dengan mudah digunakan dalam draf infografis Anda. Anda dapat memindai sketsa atau mengambil gambar sketsa Anda dengan telepon Anda dan mengirim e-mail ke komputer Anda sendiri. Mereka tidak perlu diwarnai, cukup jelas bagi Anda untuk ...

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Infografis yang baik (jelas) harus mencakup seni yang bagus. Ilustrasi mempromosikan alur cerita, menentukan elemen secara visual, dan mencerahkan halaman yang mungkin diisi dengan tipe abu-abu. Ilustrasi bisa berupa gambar fisik, semacam bagan atau grafik, atau bahkan garis waktu. Kehidupan sehari-hari Anda dipenuhi dengan contoh bagaimana ilustrasi ...

Pilihan Editor

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

Tentang Penalaran Melalui bagian Seni Bahasa GED, Anda mungkin diminta untuk menjawab pertanyaan tentang bagian teknis. Ini bisa termasuk petunjuk cara melengkapi, seperti berikut. Pertanyaan dalam artikel ini mengacu pada kutipan berikut dari Russell Hart's Photography For Dummies, 2nd Edition (Wiley). Apa Rahasia Untuk ...

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

Di beberapa titik selama bagian Ilmu Pengetahuan dari Tes GEE, Anda akan diminta untuk membuat jawaban singkat. Anda akan diberi sebuah bagian dan mengajukan pertanyaan yang perlu Anda tanggapi. Buat respons Anda jelas dan ringkas. Bagian Jawaban Jawaban Semua orang mengenal keju cheddar. Orang-orang meletakkan ...

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

Di bagian Ilmu Sosial GED, Anda mungkin diminta untuk menjawab pertanyaan tentang berbagai bentuk media, termasuk siaran berita. Lihatlah contoh berikut di bawah ini. Pertanyaan dalam artikel ini mengacu pada siaran berita berikut. Berita Lingkungan Dunia Selamat malam dan selamat datang di World Environmental News. Cerita kami ini ...