Rumah Keuangan Pribadi Log Analisis Data dengan Hadoop - dummies

Log Analisis Data dengan Hadoop - dummies

Video: Hadoop Tutorial: Analyzing Server Logs 2024

Video: Hadoop Tutorial: Analyzing Server Logs 2024
Anonim

Analisis log adalah kasus penggunaan umum untuk proyek Hadoop perdana. Memang, penggunaan paling awal dari Hadoop adalah untuk analisis skala besar klikstream log - log yang mencatat data tentang halaman web yang dikunjungi orang dan di mana mereka mengunjungi mereka.

Semua log data yang dihasilkan oleh infrastruktur TI Anda sering disebut sebagai data knalpot . Log adalah produk sampingan dari server yang berfungsi, seperti asap yang berasal dari pipa knalpot mesin kerja. Data knalpot memiliki konotasi polusi atau limbah, dan banyak perusahaan niscaya mendekati data semacam ini dengan pemikiran itu.

Data log sering tumbuh dengan cepat, dan karena volume tinggi yang dihasilkan, sangat membosankan untuk dianalisis. Dan, potensi nilai data ini seringkali tidak jelas. Jadi godaan di departemen TI adalah menyimpan data log ini sesedikit mungkin. (Bagaimanapun, harganya mahal untuk menyimpan data, dan jika tidak ada nilai bisnis yang dirasakan, mengapa menyimpannya?)

Tetapi Hadoop mengubah matematika: Biaya untuk menyimpan data relatif murah, dan Hadoop pada awalnya dikembangkan terutama untuk batch batch batch data log.

Analisis data log use case adalah tempat yang berguna untuk memulai perjalanan Hadoop Anda karena kemungkinan bagus bahwa data yang Anda gunakan sedang dihapus, atau "jatuh ke lantai. "Beberapa perusahaan yang secara konsisten merekam terabyte (TB) atau lebih banyak aktivitas web pelanggan per minggu membuang data tanpa analisis (yang membuat Anda bertanya-tanya mengapa mereka repot-repot mengumpulkannya).

Untuk memulai dengan cepat, data dalam kasus penggunaan ini kemungkinan mudah didapat dan umumnya tidak mencakup masalah yang sama yang akan Anda hadapi jika Anda memulai perjalanan Hadoop dengan data lain (diatur).

Ketika analis industri membahas volume data yang meningkat pesat yang ada (4. 1 exabyte pada tahun 2014 - lebih dari 4 juta hard drive 1TB), data log menyumbang sebagian besar pertumbuhan ini. Dan tak heran: Hampir setiap aspek kehidupan sekarang menghasilkan generasi data. Smartphone bisa menghasilkan ratusan entri log per hari untuk pengguna aktif, tidak hanya melacak suara, teks, dan transfer data, tetapi juga data geolokasi.

Sebagian besar rumah tangga sekarang memiliki meter cerdas yang bisa menggunakan listrik mereka. Mobil yang lebih baru memiliki ribuan sensor yang merekam aspek kondisi dan penggunaannya. Setiap gerakan klik dan mouse yang Anda buat saat browsing di Internet menyebabkan deretan entri log yang akan dihasilkan.

Setiap kali Anda membeli sesuatu - bahkan tanpa menggunakan kartu kredit atau kartu debit - sistem mencatat aktivitas di database - dan di log.Anda dapat melihat beberapa sumber data log yang lebih umum: server TI, clickstreams web, sensor, dan sistem transaksi.

Setiap industri (dan juga semua tipe log yang baru saja dijelaskan) memiliki potensi besar untuk analisis berharga - terutama bila Anda dapat melakukan nol pada jenis aktivitas tertentu dan kemudian menghubungkan temuan Anda dengan kumpulan data lain untuk memberikan konteks.

Sebagai contoh, pertimbangkan pengalaman browsing dan pembelian berbasis web yang khas ini:

  1. Anda menjelajahi situs ini, mencari barang untuk dibeli.

  2. Anda mengklik untuk membaca deskripsi produk yang menarik perhatian Anda.

  3. Akhirnya, Anda menambahkan item ke keranjang belanja Anda dan lanjutkan ke kasir (tindakan pembelian).

Setelah melihat biaya pengiriman, Anda memutuskan bahwa barang tersebut tidak sesuai dengan harganya dan Anda menutup jendela browser. Setiap klik yang Anda buat - dan kemudian berhenti membuat - berpotensi menawarkan wawasan berharga ke perusahaan di balik situs e-niaga ini.

Dalam contoh ini, asumsikan bisnis ini mengumpulkan data clickstream (data tentang setiap klik mouse dan tampilan halaman yang "menyentuh" ​​pengunjung) dengan tujuan untuk memahami bagaimana cara melayani pelanggan dengan lebih baik. Salah satu tantangan umum di antara bisnis e-commerce adalah mengenali faktor kunci di balik keranjang belanja yang ditinggalkan. Ketika Anda melakukan analisis lebih dalam pada data clickstream dan memeriksa perilaku pengguna di situs, pola pasti akan muncul.

Apakah perusahaan Anda mengetahui jawaban atas pertanyaan yang tampaknya sederhana, "Apakah beberapa produk ditinggalkan lebih dari yang lain? "Atau jawaban untuk pertanyaan," Berapa pendapatan yang bisa Anda ambil jika Anda menurunkan pengabaian keranjang hingga 10 persen? "Berikut ini adalah contoh dari jenis laporan yang dapat Anda tunjukkan kepada pemimpin bisnis Anda untuk mencari investasi mereka dalam tujuan Hadoop Anda.

Untuk mencapai titik di mana Anda dapat membuat data untuk membuat grafik yang ditampilkan, Anda mengisolasi sesi penjelajahan web dari pengguna individual (proses yang dikenal sebagai sesi ); 99, mengidentifikasi konten keranjang belanja mereka, dan kemudian menetapkan status transaksi di akhir sesi - semua dengan memeriksa data clickstream. Berikut ini adalah contoh bagaimana mengumpulkan sesi penjelajahan web pengguna dengan mengelompokkan semua klik dan alamat URL menurut alamat IP.

Dalam konteks Hadoop, Anda selalu bekerja dengan kunci dan nilai - setiap fase input MapReduce dan keluaran data dalam kumpulan kunci dan nilai. Kuncinya adalah alamat IP, dan nilainya terdiri dari timestamp dan URL. Selama fase peta, sesi pengguna dirakit secara paralel untuk semua blok file dari kumpulan data clickstream yang tersimpan di cluster Hadoop Anda.

Fase peta mengembalikan elemen-elemen ini:

Halaman terakhir yang dikunjungi

  • Daftar item di keranjang belanja

  • Status transaksi untuk setiap sesi pengguna (diindeks oleh kunci alamat IP) < Pengurang mengambil catatan ini dan melakukan agregasi dengan jumlah total dan nilai gerobak yang ditinggalkan per bulan dan memberikan total halaman akhir yang paling umum yang dilihat seseorang sebelum mengakhiri sesi pengguna.

Log Analisis Data dengan Hadoop - dummies

Pilihan Editor

Perancang Minigame Minigame - dummies

Perancang Minigame Minigame - dummies

Sebelum menulis semua kode untuk membuat Minecraft Minigame, Anda perlu merancang permainan Anda. The Gameplay Loop adalah proses sederhana yang bisa Anda ikuti untuk memastikan permainan Anda menyenangkan, menantang, dan lengkap. The Gameplay Loop memiliki empat bagian: Start: Buat adegan dasar. Tujuan: Menambahkan cara untuk menang dan ...

Menciptakan Efek Air dan Es di Minecraft - dummies

Menciptakan Efek Air dan Es di Minecraft - dummies

Satu hal yang rapi tentang Minecraft adalah bahwa beberapa fisika realistis sedang dimainkan dalam permainan. Misalnya, jika Anda memiliki air dan Anda memasukkan es ke dalamnya, itu akan membeku! Oke, mungkin di dunia nyata, menambahkan es tidak membuat air membeku, tapi memang membuatnya lebih dingin. Anda dapat melihat ini ...

Mendapatkan Minecraft Experience Points - dummies

Mendapatkan Minecraft Experience Points - dummies

Di Minecraft, experience points, XP untuk jangka pendek, dikumpulkan dari bola pengalaman bercahaya. Sebagai pemain mengumpulkan cukup bola dan meningkatkan tingkat pengalaman mereka, mereka akan dapat menggunakan tabel dan landasan yang mempesona untuk meningkatkan kemampuan banyak item seperti senjata, baju besi, dan peralatan. Jadi, bagaimana Anda bisa cepat mendapatkan ini ...

Pilihan Editor

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Infomasi editorial sama dengan artikel berita karena tujuan utamanya adalah untuk mengirimkan informasi. Di bawah payung grafis editorial, ada beberapa tipe yang berbeda, dengan keseimbangan bias dan objektivitas yang berbeda. Berikut adalah beberapa melihat: Badai salju menghantam kota Anda. Koran lokal menciptakan grafik yang menunjukkan hujan salju ...

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bahkan di dunia kabel ini, seniman masih suka sketsa Kabar baik! Sketsa kasar Anda dapat dengan mudah digunakan dalam draf infografis Anda. Anda dapat memindai sketsa atau mengambil gambar sketsa Anda dengan telepon Anda dan mengirim e-mail ke komputer Anda sendiri. Mereka tidak perlu diwarnai, cukup jelas bagi Anda untuk ...

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Infografis yang baik (jelas) harus mencakup seni yang bagus. Ilustrasi mempromosikan alur cerita, menentukan elemen secara visual, dan mencerahkan halaman yang mungkin diisi dengan tipe abu-abu. Ilustrasi bisa berupa gambar fisik, semacam bagan atau grafik, atau bahkan garis waktu. Kehidupan sehari-hari Anda dipenuhi dengan contoh bagaimana ilustrasi ...

Pilihan Editor

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

Tentang Penalaran Melalui bagian Seni Bahasa GED, Anda mungkin diminta untuk menjawab pertanyaan tentang bagian teknis. Ini bisa termasuk petunjuk cara melengkapi, seperti berikut. Pertanyaan dalam artikel ini mengacu pada kutipan berikut dari Russell Hart's Photography For Dummies, 2nd Edition (Wiley). Apa Rahasia Untuk ...

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

Di beberapa titik selama bagian Ilmu Pengetahuan dari Tes GEE, Anda akan diminta untuk membuat jawaban singkat. Anda akan diberi sebuah bagian dan mengajukan pertanyaan yang perlu Anda tanggapi. Buat respons Anda jelas dan ringkas. Bagian Jawaban Jawaban Semua orang mengenal keju cheddar. Orang-orang meletakkan ...

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

Di bagian Ilmu Sosial GED, Anda mungkin diminta untuk menjawab pertanyaan tentang berbagai bentuk media, termasuk siaran berita. Lihatlah contoh berikut di bawah ini. Pertanyaan dalam artikel ini mengacu pada siaran berita berikut. Berita Lingkungan Dunia Selamat malam dan selamat datang di World Environmental News. Cerita kami ini ...