Video: Hadoop Tutorial: Analyzing Server Logs 2024
Analisis log adalah kasus penggunaan umum untuk proyek Hadoop perdana. Memang, penggunaan paling awal dari Hadoop adalah untuk analisis skala besar klikstream log - log yang mencatat data tentang halaman web yang dikunjungi orang dan di mana mereka mengunjungi mereka.
Semua log data yang dihasilkan oleh infrastruktur TI Anda sering disebut sebagai data knalpot . Log adalah produk sampingan dari server yang berfungsi, seperti asap yang berasal dari pipa knalpot mesin kerja. Data knalpot memiliki konotasi polusi atau limbah, dan banyak perusahaan niscaya mendekati data semacam ini dengan pemikiran itu.
Data log sering tumbuh dengan cepat, dan karena volume tinggi yang dihasilkan, sangat membosankan untuk dianalisis. Dan, potensi nilai data ini seringkali tidak jelas. Jadi godaan di departemen TI adalah menyimpan data log ini sesedikit mungkin. (Bagaimanapun, harganya mahal untuk menyimpan data, dan jika tidak ada nilai bisnis yang dirasakan, mengapa menyimpannya?)
Tetapi Hadoop mengubah matematika: Biaya untuk menyimpan data relatif murah, dan Hadoop pada awalnya dikembangkan terutama untuk batch batch batch data log.
Analisis data log use case adalah tempat yang berguna untuk memulai perjalanan Hadoop Anda karena kemungkinan bagus bahwa data yang Anda gunakan sedang dihapus, atau "jatuh ke lantai. "Beberapa perusahaan yang secara konsisten merekam terabyte (TB) atau lebih banyak aktivitas web pelanggan per minggu membuang data tanpa analisis (yang membuat Anda bertanya-tanya mengapa mereka repot-repot mengumpulkannya).
Untuk memulai dengan cepat, data dalam kasus penggunaan ini kemungkinan mudah didapat dan umumnya tidak mencakup masalah yang sama yang akan Anda hadapi jika Anda memulai perjalanan Hadoop dengan data lain (diatur).
Ketika analis industri membahas volume data yang meningkat pesat yang ada (4. 1 exabyte pada tahun 2014 - lebih dari 4 juta hard drive 1TB), data log menyumbang sebagian besar pertumbuhan ini. Dan tak heran: Hampir setiap aspek kehidupan sekarang menghasilkan generasi data. Smartphone bisa menghasilkan ratusan entri log per hari untuk pengguna aktif, tidak hanya melacak suara, teks, dan transfer data, tetapi juga data geolokasi.
Sebagian besar rumah tangga sekarang memiliki meter cerdas yang bisa menggunakan listrik mereka. Mobil yang lebih baru memiliki ribuan sensor yang merekam aspek kondisi dan penggunaannya. Setiap gerakan klik dan mouse yang Anda buat saat browsing di Internet menyebabkan deretan entri log yang akan dihasilkan.
Setiap kali Anda membeli sesuatu - bahkan tanpa menggunakan kartu kredit atau kartu debit - sistem mencatat aktivitas di database - dan di log.Anda dapat melihat beberapa sumber data log yang lebih umum: server TI, clickstreams web, sensor, dan sistem transaksi.
Setiap industri (dan juga semua tipe log yang baru saja dijelaskan) memiliki potensi besar untuk analisis berharga - terutama bila Anda dapat melakukan nol pada jenis aktivitas tertentu dan kemudian menghubungkan temuan Anda dengan kumpulan data lain untuk memberikan konteks.
Sebagai contoh, pertimbangkan pengalaman browsing dan pembelian berbasis web yang khas ini:
-
Anda menjelajahi situs ini, mencari barang untuk dibeli.
-
Anda mengklik untuk membaca deskripsi produk yang menarik perhatian Anda.
-
Akhirnya, Anda menambahkan item ke keranjang belanja Anda dan lanjutkan ke kasir (tindakan pembelian).
Setelah melihat biaya pengiriman, Anda memutuskan bahwa barang tersebut tidak sesuai dengan harganya dan Anda menutup jendela browser. Setiap klik yang Anda buat - dan kemudian berhenti membuat - berpotensi menawarkan wawasan berharga ke perusahaan di balik situs e-niaga ini.
Dalam contoh ini, asumsikan bisnis ini mengumpulkan data clickstream (data tentang setiap klik mouse dan tampilan halaman yang "menyentuh" ​​pengunjung) dengan tujuan untuk memahami bagaimana cara melayani pelanggan dengan lebih baik. Salah satu tantangan umum di antara bisnis e-commerce adalah mengenali faktor kunci di balik keranjang belanja yang ditinggalkan. Ketika Anda melakukan analisis lebih dalam pada data clickstream dan memeriksa perilaku pengguna di situs, pola pasti akan muncul.
Apakah perusahaan Anda mengetahui jawaban atas pertanyaan yang tampaknya sederhana, "Apakah beberapa produk ditinggalkan lebih dari yang lain? "Atau jawaban untuk pertanyaan," Berapa pendapatan yang bisa Anda ambil jika Anda menurunkan pengabaian keranjang hingga 10 persen? "Berikut ini adalah contoh dari jenis laporan yang dapat Anda tunjukkan kepada pemimpin bisnis Anda untuk mencari investasi mereka dalam tujuan Hadoop Anda.
Untuk mencapai titik di mana Anda dapat membuat data untuk membuat grafik yang ditampilkan, Anda mengisolasi sesi penjelajahan web dari pengguna individual (proses yang dikenal sebagai sesi ); 99, mengidentifikasi konten keranjang belanja mereka, dan kemudian menetapkan status transaksi di akhir sesi - semua dengan memeriksa data clickstream. Berikut ini adalah contoh bagaimana mengumpulkan sesi penjelajahan web pengguna dengan mengelompokkan semua klik dan alamat URL menurut alamat IP.
Dalam konteks Hadoop, Anda selalu bekerja dengan kunci dan nilai - setiap fase input MapReduce dan keluaran data dalam kumpulan kunci dan nilai. Kuncinya adalah alamat IP, dan nilainya terdiri dari timestamp dan URL. Selama fase peta, sesi pengguna dirakit secara paralel untuk semua blok file dari kumpulan data clickstream yang tersimpan di cluster Hadoop Anda.
Fase peta mengembalikan elemen-elemen ini:
Halaman terakhir yang dikunjungi
-
Daftar item di keranjang belanja
-
Status transaksi untuk setiap sesi pengguna (diindeks oleh kunci alamat IP) < Pengurang mengambil catatan ini dan melakukan agregasi dengan jumlah total dan nilai gerobak yang ditinggalkan per bulan dan memberikan total halaman akhir yang paling umum yang dilihat seseorang sebelum mengakhiri sesi pengguna.