Rumah Keuangan Pribadi Log Analisis Data dengan Hadoop - dummies

Log Analisis Data dengan Hadoop - dummies

Video: Hadoop Tutorial: Analyzing Server Logs 2024

Video: Hadoop Tutorial: Analyzing Server Logs 2024
Anonim

Analisis log adalah kasus penggunaan umum untuk proyek Hadoop perdana. Memang, penggunaan paling awal dari Hadoop adalah untuk analisis skala besar klikstream log - log yang mencatat data tentang halaman web yang dikunjungi orang dan di mana mereka mengunjungi mereka.

Semua log data yang dihasilkan oleh infrastruktur TI Anda sering disebut sebagai data knalpot . Log adalah produk sampingan dari server yang berfungsi, seperti asap yang berasal dari pipa knalpot mesin kerja. Data knalpot memiliki konotasi polusi atau limbah, dan banyak perusahaan niscaya mendekati data semacam ini dengan pemikiran itu.

Data log sering tumbuh dengan cepat, dan karena volume tinggi yang dihasilkan, sangat membosankan untuk dianalisis. Dan, potensi nilai data ini seringkali tidak jelas. Jadi godaan di departemen TI adalah menyimpan data log ini sesedikit mungkin. (Bagaimanapun, harganya mahal untuk menyimpan data, dan jika tidak ada nilai bisnis yang dirasakan, mengapa menyimpannya?)

Tetapi Hadoop mengubah matematika: Biaya untuk menyimpan data relatif murah, dan Hadoop pada awalnya dikembangkan terutama untuk batch batch batch data log.

Analisis data log use case adalah tempat yang berguna untuk memulai perjalanan Hadoop Anda karena kemungkinan bagus bahwa data yang Anda gunakan sedang dihapus, atau "jatuh ke lantai. "Beberapa perusahaan yang secara konsisten merekam terabyte (TB) atau lebih banyak aktivitas web pelanggan per minggu membuang data tanpa analisis (yang membuat Anda bertanya-tanya mengapa mereka repot-repot mengumpulkannya).

Untuk memulai dengan cepat, data dalam kasus penggunaan ini kemungkinan mudah didapat dan umumnya tidak mencakup masalah yang sama yang akan Anda hadapi jika Anda memulai perjalanan Hadoop dengan data lain (diatur).

Ketika analis industri membahas volume data yang meningkat pesat yang ada (4. 1 exabyte pada tahun 2014 - lebih dari 4 juta hard drive 1TB), data log menyumbang sebagian besar pertumbuhan ini. Dan tak heran: Hampir setiap aspek kehidupan sekarang menghasilkan generasi data. Smartphone bisa menghasilkan ratusan entri log per hari untuk pengguna aktif, tidak hanya melacak suara, teks, dan transfer data, tetapi juga data geolokasi.

Sebagian besar rumah tangga sekarang memiliki meter cerdas yang bisa menggunakan listrik mereka. Mobil yang lebih baru memiliki ribuan sensor yang merekam aspek kondisi dan penggunaannya. Setiap gerakan klik dan mouse yang Anda buat saat browsing di Internet menyebabkan deretan entri log yang akan dihasilkan.

Setiap kali Anda membeli sesuatu - bahkan tanpa menggunakan kartu kredit atau kartu debit - sistem mencatat aktivitas di database - dan di log.Anda dapat melihat beberapa sumber data log yang lebih umum: server TI, clickstreams web, sensor, dan sistem transaksi.

Setiap industri (dan juga semua tipe log yang baru saja dijelaskan) memiliki potensi besar untuk analisis berharga - terutama bila Anda dapat melakukan nol pada jenis aktivitas tertentu dan kemudian menghubungkan temuan Anda dengan kumpulan data lain untuk memberikan konteks.

Sebagai contoh, pertimbangkan pengalaman browsing dan pembelian berbasis web yang khas ini:

  1. Anda menjelajahi situs ini, mencari barang untuk dibeli.

  2. Anda mengklik untuk membaca deskripsi produk yang menarik perhatian Anda.

  3. Akhirnya, Anda menambahkan item ke keranjang belanja Anda dan lanjutkan ke kasir (tindakan pembelian).

Setelah melihat biaya pengiriman, Anda memutuskan bahwa barang tersebut tidak sesuai dengan harganya dan Anda menutup jendela browser. Setiap klik yang Anda buat - dan kemudian berhenti membuat - berpotensi menawarkan wawasan berharga ke perusahaan di balik situs e-niaga ini.

Dalam contoh ini, asumsikan bisnis ini mengumpulkan data clickstream (data tentang setiap klik mouse dan tampilan halaman yang "menyentuh" ​​pengunjung) dengan tujuan untuk memahami bagaimana cara melayani pelanggan dengan lebih baik. Salah satu tantangan umum di antara bisnis e-commerce adalah mengenali faktor kunci di balik keranjang belanja yang ditinggalkan. Ketika Anda melakukan analisis lebih dalam pada data clickstream dan memeriksa perilaku pengguna di situs, pola pasti akan muncul.

Apakah perusahaan Anda mengetahui jawaban atas pertanyaan yang tampaknya sederhana, "Apakah beberapa produk ditinggalkan lebih dari yang lain? "Atau jawaban untuk pertanyaan," Berapa pendapatan yang bisa Anda ambil jika Anda menurunkan pengabaian keranjang hingga 10 persen? "Berikut ini adalah contoh dari jenis laporan yang dapat Anda tunjukkan kepada pemimpin bisnis Anda untuk mencari investasi mereka dalam tujuan Hadoop Anda.

Untuk mencapai titik di mana Anda dapat membuat data untuk membuat grafik yang ditampilkan, Anda mengisolasi sesi penjelajahan web dari pengguna individual (proses yang dikenal sebagai sesi ); 99, mengidentifikasi konten keranjang belanja mereka, dan kemudian menetapkan status transaksi di akhir sesi - semua dengan memeriksa data clickstream. Berikut ini adalah contoh bagaimana mengumpulkan sesi penjelajahan web pengguna dengan mengelompokkan semua klik dan alamat URL menurut alamat IP.

Dalam konteks Hadoop, Anda selalu bekerja dengan kunci dan nilai - setiap fase input MapReduce dan keluaran data dalam kumpulan kunci dan nilai. Kuncinya adalah alamat IP, dan nilainya terdiri dari timestamp dan URL. Selama fase peta, sesi pengguna dirakit secara paralel untuk semua blok file dari kumpulan data clickstream yang tersimpan di cluster Hadoop Anda.

Fase peta mengembalikan elemen-elemen ini:

Halaman terakhir yang dikunjungi

  • Daftar item di keranjang belanja

  • Status transaksi untuk setiap sesi pengguna (diindeks oleh kunci alamat IP) < Pengurang mengambil catatan ini dan melakukan agregasi dengan jumlah total dan nilai gerobak yang ditinggalkan per bulan dan memberikan total halaman akhir yang paling umum yang dilihat seseorang sebelum mengakhiri sesi pengguna.

Log Analisis Data dengan Hadoop - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...