Video: GRAPHS IN FINANCE AND FRAUD DETECTION by Jim Webber at Big Data Spain 2015 2024
Volume transaksi yang sebenarnya membuat lebih sulit untuk menemukan kecurangan karena volume data, ironisnya, tantangan yang sama dapat membantu menciptakan model prediksi prediktif yang lebih baik - area di mana Hadoop bersinar.
Di dunia yang saling terkait saat ini, volume transaksi dan kompleksitas transaksi membuat lebih sulit daripada sebelumnya untuk menemukan kecurangan. Apa yang biasa disebut "menemukan jarum di tumpukan jerami" telah menjadi tugas "menemukan jarum tertentu di tumpukan jarum. "
Tema berulang yang paling umum yang Anda lihat di sebagian besar kasus penggunaan Hadoop adalah membantu bisnis menembus langit-langit kaca pada volume dan variasi data yang dapat digabungkan ke dalam analisis keputusan. Semakin banyak data yang Anda miliki (dan semakin banyak sejarah yang Anda simpan), semakin baik model Anda.
Sebagai contoh bagaimana model ini dapat bekerja, bayangkan mencoba untuk mengetahui apakah pasien di daerah pedesaan pulih lebih lambat daripada di daerah perkotaan. Anda bisa mulai dengan memeriksa kedekatannya dengan layanan fisioterapi. Adakah korelasi pola antara waktu pemulihan dan lokasi geografis?
Jika departemen kecurangan Anda menentukan bahwa cedera tertentu memerlukan waktu tiga minggu pemulihan, namun seorang petani dengan diagnosis yang sama tinggal satu jam dari seorang fisioterapis dan pekerja kantor memiliki seorang praktisi di kantornya, itu adalah variabel lain untuk ditambahkan ke penipuan. -deteksi pola.
Saat Anda mengumpulkan data jaringan sosial untuk penggugat dan menemukan pasien yang mengaku menderita whiplash membual tentang menyelesaikan rangkaian kejadian ketahanan kasar yang dikenal dengan Tough Mudder, ini adalah contoh untuk mencampur jenis data baru dengan formulir data tradisional untuk melihat kecurangan
Jika Anda ingin menendang upaya deteksi kecurangan Anda ke alat yang lebih tinggi, organisasi Anda dapat bekerja untuk beralih dari pemodelan segmen pasar dan bergerak menuju pemodelan tingkat transaksi atau di tempat.
Cukup sederhana, membuat perkiraan berdasarkan segmen sangat membantu, namun membuat keputusan berdasarkan informasi tertentu tentang transaksi individual adalah (jelas) lebih baik. Untuk melakukan ini, Anda menyusun kumpulan data yang lebih besar daripada yang mungkin terjadi dalam pendekatan tradisional. Hanya (maksimal) 30 persen dari informasi yang tersedia yang mungkin berguna untuk pemodelan kecurangan sedang digunakan.
Untuk membuat model deteksi kecurangan, Hadoop cocok untuk
Menangani volume:
-
Itu berarti memproses kumpulan data lengkap - tidak ada pengambilan sampel data. Mengelola varietas data baru:
-
Contohnya adalah masuknya kedekatan ke layanan perawatan dan lingkaran sosial untuk menghiasi model kecurangan. Menjaga lingkungan yang tangkas:
-
Aktifkan berbagai jenis analisis dan perubahan pada model yang ada. Pemodel penipuan dapat menambahkan dan menguji variabel baru ke model tanpa harus mengajukan proposal ke tim administrator database Anda dan kemudian menunggu beberapa minggu untuk menyetujui perubahan skema dan memasukkannya ke lingkungan mereka.
Proses ini sangat penting untuk deteksi kecurangan karena lingkungan dinamis umumnya memiliki pola kecurangan siklis yang datang dan pergi berjam-jam, hari, atau minggu. Jika data yang digunakan untuk mengidentifikasi atau mendukung model deteksi kecurangan baru tidak tersedia dalam waktu singkat, pada saat Anda menemukan pola baru ini, mungkin sudah terlambat untuk mencegah kerusakan.
Evaluasi keuntungan bisnis Anda tidak hanya membangun model yang lebih komprehensif dengan lebih banyak jenis data tetapi juga dapat menyegarkan dan meningkatkan model tersebut lebih cepat dari sebelumnya. Perusahaan yang dapat menyegarkan dan meningkatkan model setiap hari akan lebih baik daripada yang melakukannya setiap tiga bulan.
Anda mungkin percaya bahwa masalah ini memiliki jawaban yang sederhana - tanyakan persetujuan CIO untuk pengeluaran operasional (OPEX) dan capital expenditure (CAPEX) untuk mengakomodasi lebih banyak data guna membuat model yang lebih baik dan memuat 70 persen data lainnya ke dalam model keputusan
Anda bahkan mungkin percaya bahwa investasi ini akan membayar sendiri dengan deteksi kecurangan yang lebih baik; Namun, masalah dengan pendekatan ini adalah biaya di muka yang tinggi yang perlu ditenggelamkan ke data
tidak diketahui , di mana Anda tidak tahu apakah itu berisi wawasan yang benar-benar berharga. Tentu, tiga kali lipat ukuran gudang data Anda, misalnya, akan memberi Anda lebih banyak akses ke data historis terstruktur untuk menyempurnakan model Anda, namun tidak dapat mengakomodasi ledakan media sosial. Teknologi tradisional juga tidak lincah. Hadoop mempermudah mengenalkan variabel baru ke dalam model, dan jika ternyata tidak menghasilkan perbaikan pada model, Anda cukup membuang data dan melanjutkan.