Tip untuk Data Warehousing Consultants - dummies
Sebagian besar informasi di situs ini mengenai pergudangan data terutama berorientasi pada komunitas pengguna dan bagaimana orang-orang di dalamnya bisa menemukan dan mempertahankan konsultan untuk proyek pergudangan data mereka. Jika Anda seorang konsultan pergudangan data, ada beberapa saran berikut: Tetaplah di atas semua perubahan yang terjadi di ...
Data Warehousing Tradisional Berarti Menganalisis Jenis Data Tradisional - dummies
Saat merencanakan pergudangan data, ingatlah bahwa data hari ini lansekap sekarang mencakup serangkaian saluran informasi baru yang memusingkan, sumber data baru, dan persyaratan analisis dan pelaporan baru. Menurut kelompok analis, hampir 80 sampai 85 persen data hari ini tidak terstruktur, dan saluran informasi baru seperti Web, e-mail, voice over IP, instan ...
Untuk Pengguna Data Big Cloud
Peringatan! Layanan berbasis awan dapat memberikan solusi ekonomis untuk kebutuhan data besar Anda, namun cloud memiliki masalah. Penting untuk mengerjakan pekerjaan rumah Anda sebelum memindahkan data besar Anda ke sana. Berikut adalah beberapa masalah yang perlu dipertimbangkan: Integritas data: Anda harus memastikan bahwa penyedia Anda memiliki kontrol yang tepat untuk memastikan ...
Lihat Data Eksternal dari Perspektif Pengguna - dummies
Di sini adalah garis besar bagaimana pengguna data warehouse melihat eksternal data dan kepentingannya. Pertimbangkan kedua tabel ini. Tabel ini menunjukkan kinerja penjualan Good Guys, Inc., dan tabel berikut menunjukkan kinerja penjualan dari Bad Guys, Inc. Good Guys, Inc. Performance Performance Region 2007 Q1 Results 2008 Q1 ...
Apa Fungsi yang Dapat Diperoleh Alat Penyesuaian dan Pelaporan? - dummies
Untuk membantu Anda memahami fungsi yang ditawarkan oleh alat query dan pelaporan, daftar ini menjelaskan beberapa tugas yang dapat membantu Anda melakukan: Menjalankan laporan reguler. Organisasi Anda mungkin secara teratur menghasilkan laporan standar yang berasal dari sistem operasional atau dari data yang diambil dari satu atau lebih sistem tersebut. Buat daftar yang terorganisir ...
Apa itu Middleware? - dummies
Didefinisikan secara longgar, middleware adalah seperangkat layanan yang melakukan berbagai fungsi dalam lingkungan komputasi terdistribusi, di seluruh server dan sistem klien yang beragam. Intinya, middleware adalah perangkat lunak komputer yang menghubungkan komponen perangkat lunak. Berikut adalah beberapa jenis layanan middleware: Keamanan: Mengotentikasi program klien tertentu ke beberapa komponen sistem untuk diverifikasi, ...
Gagasan di belakang Database Multidimensional - dummies
Database multidimensi (MDDBs) membuang konvensi nenek moyang relasional mereka dan mengatur data dengan cara yang sangat kondusif untuk analisis multidimensional. Untuk memahami database multidimensi, oleh karena itu, Anda harus terlebih dahulu memahami dasar-dasar fungsi analisis yang dilakukan dengan data yang tersimpan di dalamnya. Analisis multidimensi dibangun di sekitar beberapa organisasi data sederhana ...
Data yang tidak terstruktur dalam data Data Lingkungan Besar - dummies
Data tidak terstruktur adalah data yang tidak mengikuti format yang ditentukan untuk data besar. Jika 20 persen data yang tersedia untuk perusahaan adalah data terstruktur, 80 persen lainnya tidak terstruktur. Data terstruktur sebenarnya adalah sebagian besar data yang akan Anda hadapi. Sampai saat ini, teknologi tidak benar-benar mendukung banyak hal dengan ...
Mengapa Data Eksternal Penting untuk Data Warehouse Anda? - dummies
Data eksternal - dari luar perusahaan Anda sendiri - penting untuk gudang data Anda karena satu alasan sederhana: Untuk memastikan bahwa Anda membuat keputusan bisnis yang tepat, Anda perlu melihat gambaran besarnya, yang biasanya berarti Anda tidak dapat menemukan semua jawaban yang tersimpan dalam berbagai aplikasi dan database komputer perusahaan Anda. Berikut adalah ...
Apa itu Sistem Manajemen Database Relasional? - dummies
Melupakan semua dasar matematika dari model relasional, prinsip normalisasi, dan aspek teknis RDBMS lainnya. Jika Anda tertarik, berkonsultasilah dengan salah satu dari banyak buku teks yang ada yang membahas prinsip dan teknologi RDBMS secara rinci. RDBMS adalah sistem perangkat lunak yang mengelola basis data relasional. Jadi, apa itu basis data relasional? ...
Apa yang Perlu Diketahui Manajemen tentang Pergudangan Data? - dummies
Di suatu tempat di hierarki organisasi Anda, seseorang memiliki kendali atas dana yang dianggarkan yang dapat dialokasikannya ke proyek pergudangan data Anda atau proyek lain di tempat lain di dalam organisasi, untuk membeli peralatan modal (lebih banyak komputer, misalnya ), atau untuk membayar beberapa tujuan lain. Siapa yang perlu dijual di proyek pergudangan data ...
Mengapa Cloud Imperative for Big Data - dummies
Banyak kombinasi model penyebaran dan pengiriman ada untuk besar data di awan Misalnya, Anda bisa memanfaatkan awan publik IaaS atau awan privat IaaS. Jadi, apa artinya ini untuk data besar dan mengapa awan itu cocok untuk itu? Nah, data besar membutuhkan kumpulan daya komputasi yang terdistribusi, ...
Memperluas Lapisan Data Anda dengan database NoSQL - dummies
Satu hal dengan sangat baik: Ini menyimpan data. Namun, karena semua aplikasi memerlukan perangkat lunak tambahan untuk diselesaikan, ada baiknya memastikan bahwa database NoSQL pilihan Anda memiliki alat dan perangkat lunak mitra yang menyediakan fungsionalitas tambahan yang Anda butuhkan. Tidak memastikan bahwa fungsionalitas diperpanjang didukung akan berarti Anda akan berakhir menginstal ...
Bagaimana Menemukan Jumlah Elemen dalam Data Stream - dummies
Meskipun sebuah Bloom filter dapat melacak objek yang tiba dari sebuah aliran, tidak dapat mengetahui berapa banyak objek yang ada. Vektor bit yang diisi oleh yang dapat (tergantung pada jumlah hash dan probabilitas tabrakan) menyembunyikan jumlah sebenarnya objek yang digabung pada alamat yang sama. Mengetahui jumlah yang berbeda dari ...
Memformat Data Benar - dummies
Manusia menggunakan pengalaman saat mereka menafsirkan data yang mereka lihat, namun komputer tidak dapat melakukannya. Perangkat lunak data mining Anda akan melakukan yang terbaik untuk mengidentifikasi jenis data di setiap kolom, namun tipe data seringkali tidak jelas. Bila Anda melihat daftar Kode ZIP, Anda tidak mencoba menambahkan dan menguranginya. Anda tahu bahwa mereka ...
Lima data terbaik Big Data - dummies
Data besar hanya dalam tahap pertama, namun tidak pernah terlalu dini untuk mulailah dengan praktik terbaik. Seperti setiap teknologi penting yang akan datang, penting untuk memiliki strategi dan mengetahui tujuan Anda. Menetapkan peta jalan data yang besar Pada tahap ini, Anda telah bereksperimen dengan data yang besar ...
Lima Rencana untuk Sukses Data Besar - dummies
Sementara data besar hanya pada tahap pertama, Anda ingin merencanakan untuk sukses Tidak pernah terlalu dini untuk memulai perencanaan dan praktik bagus sehingga Anda dapat memanfaatkan apa yang Anda pelajari dan pengalaman yang Anda dapatkan. Rencanakan tujuan data besar Anda Banyak organisasi memulai perjalanan data besar mereka ...
Sebagai Struktur Data Algoritma - dummies
Adalah bentuk struktur data umum yang digunakan dalam algoritma. Anda melihat grafik yang digunakan di tempat-tempat seperti peta untuk GPS dan segala macam tempat lain dimana pendekatan turunan atas struktur pohon tidak akan bekerja. Grafik adalah semacam ekstensi pohon. Seperti pohon, Anda memiliki simpul yang terhubung ...
3 Konfigurasi kepala klausa hadoop - dummies
Banyak keputusan yang perlu dibuat dalam hal komposisi rak dan jaringan adalah tergantung pada skala cluster Hadoop Anda. Ini memiliki tiga permutasi utama.
Mendapatkan Algoritma ke Bisnis - dummies
Umat manusia sekarang berada di persimpangan yang luar biasa dari volume data yang belum pernah terjadi sebelumnya, yang dihasilkan oleh semakin banyak perangkat keras yang lebih kecil dan kuat, dan dianalisis dengan algoritma yang prosesnya sama membantu mengembangkannya. Ini bukan hanya masalah volume, yang dengan sendirinya adalah tantangan yang sulit. Seperti yang diformalkan oleh perusahaan riset Gartner pada tahun 2001 dan ...
Apache Drill - dummies
Apache Drill adalah proyek kandidat di inkubator Apache. Drill Apache tidak terlalu sakit-sakitan. Teknologi kandidat Apache Software Foundation (ASF) semuanya dimulai sebagai proyek inkubator sebelum menjadi teknologi ASF resmi. Anda bisa membaca tentang inkubator Apache. Anda bisa membaca tentang Bor. Terinspirasi oleh teknologi Dremel Google, tujuan kinerja yang dinyatakan untuk ...
Apache Bigtop dan Hadoop - dummies
Untuk membantu Anda memulai dengan Hadoop, berikut adalah petunjuk cara mendownload dan menetapkan dengan cepat up Hadoop di komputer laptop Anda sendiri. Cluster Anda akan berjalan dalam mode pseudo-distributed pada mesin virtual, jadi Anda tidak memerlukan perangkat keras khusus. Mesin virtual (VM) adalah komputer simulasi yang dapat Anda jalankan ...
Faktor Bentuk Penyebaran Alternatif untuk Hadoop - dummies
Meskipun Hadoop bekerja paling baik saat dipasang di komputer fisik, di mana pengolahan memiliki akses langsung ke penyimpanan dan jaringan khusus, Hadoop memiliki penerapan alternatif. Dan meskipun mereka kurang efisien daripada perangkat keras khusus, dalam beberapa kasus alternatif merupakan pilihan yang bermanfaat. Virtualized servers Tren utama di pusat TI selama dekade yang lalu ...
Kolom Kualifikasi dalam Model Data HBase - dummies
Pada baris kode model data HBase adalah nama spesifik yang ditetapkan untuk nilai data Anda untuk memastikan Anda dapat mengidentifikasi mereka secara akurat. Tidak seperti keluarga kolom, kualifikasi kolom hampir tidak terbatas dalam konten, panjang dan jumlah. Jika Anda menghilangkan kualifikasi kolom, sistem HBase akan menetapkan satu untuk Anda. Printable ...
ACID versus BASE Data Stores - dummies
Satu ciri sistem database relasional adalah sesuatu yang dikenal sebagai kepatuhan ACID. Seperti yang mungkin Anda duga, ACID adalah akronim - huruf-huruf individual, yang dimaksudkan untuk menggambarkan karakteristik transaksi database individual, dapat diperluas seperti yang dijelaskan dalam daftar ini: Atomicity: Transaksi database harus benar-benar berhasil atau gagal sepenuhnya. Keberhasilan sebagian adalah ...
10 Sumber daya hadoop yang layak menjadi pengikut Bookmark and Share
Berikut adalah sepuluh sumber Hadoop hebat yang layak untuk diciptakan. bookmark di browser anda Sumber daya ini membantu Anda menciptakan rencana pembelajaran seumur hidup untuk Hadoop. Sistem saraf pusat: Apache. org Apache Software Foundation (ASF) adalah komunitas utama untuk proyek perangkat lunak open source. Tidak sembarang proyek bisa menjadi proyek Apache - ...
Dalam pemasakan HBase - dummies
, Proses dimana HBase dibersihkan setelah dirinya sendiri, hadir dalam dua rasa: mayor dan minor . Kompilasi utama bisa menjadi masalah besar, tapi pertama-tama Anda perlu memahami sedikit kompaksi. Kompaksi minor menggabungkan jumlah HFile yang dapat dikonfigurasi menjadi satu HFile yang lebih besar. Anda dapat menyetel jumlah HFiles menjadi kompak dan ...
Blokir di Sistem Berkas Terdistribusi Hadoop (HDFS) - dummies
Saat Anda menyimpan file dalam HDFS, sistem memecahnya menjadi satu set blok individual dan menyimpan blok-blok ini di berbagai node budak di cluster Hadoop. Ini adalah hal yang sama sekali normal untuk dilakukan, karena semua sistem file memecah file menjadi beberapa blok sebelum menyimpannya ke disk. HDFS tidak memiliki ...
Mengembangkan alur kerja Oozie di Hadoop - dummies
Alur kerja oozie, pada intinya, mengarahkan grafik, di mana Anda dapat menentukan tindakan (Aplikasi Hadoop) dan arus data, namun tanpa perulangan - artinya Anda tidak dapat menentukan struktur tempat Anda menjalankan operasi tertentu berulang-ulang sampai beberapa kondisi terpenuhi (misalnya untuk loop). Alur kerja Oozie cukup fleksibel dalam hal itu ...
Membandingkan Distribusi Hadoop - dummies
Anda akan menemukan bahwa ekosistem Hadoop memiliki banyak komponen, semuanya ada sebagai milik mereka sendiri. Proyek Apache Karena Hadoop telah berkembang pesat, dan menghadapi beberapa perubahan lebih lanjut, berbagai versi komponen komunitas open source ini mungkin tidak sepenuhnya kompatibel dengan komponen lainnya. Hal ini menimbulkan banyak kesulitan bagi orang yang ingin mendapatkan ...
Yang Meningkatkan Skala Analisis Statistik pada Hadoop - dummies
Alasan orang - orang sampel data mereka Sebelum menjalankan analisis statistik di Hadoop, analisis semacam ini seringkali membutuhkan sumber daya komputasi yang signifikan. Ini bukan hanya tentang volume data: ada lima faktor utama yang mempengaruhi skala analisis statistik: yang ini mudah, tapi kami harus menyebutkannya: volume data tentang ...
Hadapt dan Hadoop - dummies
Di akhir tahun 2010, Hadapt dibentuk sebagai awal oleh dua mahasiswa Universitas Yale dan asisten profesor ilmu komputer. Profesor Daniel Abadi dan Kamil Bajda-Pawlikowski, seorang mahasiswa PhD dari jurusan ilmu komputer Yale, telah mengerjakan proyek penelitian HadoopDB. Setelah tulisan ini diterbitkan, Justin Borgman, seorang siswa dari ...
Hadoop dan Hive - dummies
Untuk membuat cerita panjang pendek, Hive menyediakan jembatan Hadoop ke dunia RDBMS dan menyediakan sebuah SQL dialek dikenal sebagai Hive Query Language (HiveQL), yang bisa digunakan untuk melakukan tugas seperti SQL. Itulah berita besar, tapi ada lebih banyak hal untuk disimulasikan daripada memenuhi mata, seperti yang mereka katakan, atau lebih banyak aplikasi ...
Edge Nodes in Hadoop Cluster - dummies
Edge nodes adalah antarmuka antara cluster Hadoop dan jaringan luar. Untuk alasan ini, terkadang mereka disebut sebagai node gateway. Paling umum, node tepi digunakan untuk menjalankan aplikasi klien dan alat administrasi klaster. Mereka juga sering digunakan sebagai area pementasan untuk data yang dipindahkan ke cluster Hadoop. Dengan demikian, Oozie, ...
Fraud Detection with Hadoop - dummies
Volume transaksi membuat lebih sulit untuk menemukan kecurangan karena volume data, Ironisnya, tantangan yang sama ini bisa membantu menciptakan model prediktif kecurangan yang lebih baik - area di mana Hadoop bersinar. Di dunia yang saling terkait saat ini, volume transaksi dan kompleksitas transaksi membuat lebih sulit daripada sebelumnya untuk menemukan kecurangan. Apa yang digunakan ...
Hadoop Distributed File System (HDFS) Federation - dummies
Solusi untuk memperluas cluster Hadoop tanpa batas waktu adalah untuk federasi NamaNode Sebelum Hadoop 2 memasuki tempat kejadian, kelompok Hadoop harus hidup dengan kenyataan bahwa NameNode membatasi pada tingkat yang bisa mereka skala. Beberapa kelompok mampu mencapai skala di atas 3.000 atau 4.000 node. Kebutuhan NameNode untuk menyimpan catatan untuk ...
Sistem Berkas Terdistribusi Terdepan (HDFS) Ketersediaan Tinggi - dummies
Sering berada di masa kanak-kanak Hadoop, jumlah yang besar diskusi berpusat pada representasi NameNode dari satu titik kegagalan. Hadoop, secara keseluruhan, selalu memiliki arsitektur yang tangguh dan tidak toleran, kecuali area kunci ini. Tanpa NameNode, tidak ada cluster Hadoop. Menggunakan Hadoop 2, Anda dapat mengkonfigurasi HDFS sehingga ada ...