Bagaimana Menerapkan Kolom Koloni dalam Analisis Prediktif - dummies

Contoh alami dari kelompok pengorganisasi mandiri yang dapat Anda terapkan dalam perilaku analisis prediktif adalah koloni semut yang berburu makanan. Semut secara kolektif mengoptimalkan jalurnya sehingga selalu membutuhkan rute terpendek untuk mencapai target makanan.

Sekalipun Anda mencoba mengganggu koloni semut semut dan mencegahnya mencapai target makanan, mereka kembali ke jalur dengan cepat dan (sekali lagi) menemukan jalan terpendek yang mungkin bagi target makanan, semuanya menghindari rintangan yang sama. sambil mencari makanan Keseragaman perilaku ini dimungkinkan karena setiap semut menyimpan jejak feromon di tanah.

Pertimbangkan sepasukan semut yang menganggur di sarang mereka. Ketika mereka mulai mencari makanan, mereka sama sekali tidak memiliki informasi tentang di mana menemukannya. Mereka berbaris secara acak sampai seekor semut menemukan makanan; Sekarang semut yang beruntung (sebut saja Ant X) harus mengkomunikasikan penemuannya ke semut lainnya - dan untuk melakukan itu, ia harus menemukan jalannya kembali ke sarangnya.

Untungnya, Ant X memproduksi feromon sendiri sepanjang waktu mencari makanan; Ia bisa mengikuti jejak feromonnya sendiri kembali ke sarangnya. Dalam perjalanan kembali ke sarang, mengikuti jejak feromonnya sendiri, Ant X menempatkan lebih banyak feromon pada jalur yang sama.

Akibatnya, aroma di jalur Ant X akan menjadi yang terkuat di antara semua jalur semut lainnya. Jejak pheromones terkuat akan menarik semua semut lainnya yang masih mencari makanan. Mereka akan mengikuti aroma yang paling kuat. Karena lebih banyak semut bergabung dengan jejak Ant X, mereka menambahkan lebih banyak feromon ke dalamnya; Aromanya menjadi lebih kuat. Tak lama lagi, semua semut lainnya memiliki aroma yang kuat untuk diikuti.

Jika beberapa semut telah menemukan sumber makanan yang sama, semut yang menempuh jalur terpendek akan melakukan lebih banyak perjalanan dibandingkan dengan semut yang mengikuti jalur yang lebih panjang - maka lebih banyak feromon akan diproduksi di jalur terpendek. Hubungan antara perilaku individu dan kolektif adalah contoh alami yang mencerahkan.

Setiap titik mewakili sebuah dokumen. Asumsikan bahwa titik-titik hitam adalah dokumen tentang analisis prediktif dan titik-titik putih adalah dokumen tentang antropologi. Titik-titik yang mewakili berbagai jenis dokumen didistribusikan secara acak di grid lima sel.

"Semut" disebarkan secara acak di grid untuk mencari dokumen serupa. Setiap sel dengan nilai di dalamnya mewakili sebuah instance dari sebuah "feromon. "Dengan menggunakan matriks dokumen, nilai" feromon "sel masing-masing dihitung dari dokumen yang sesuai.

Oke, bagaimana kecerdasan kolektif koloni semut menghasilkan sebuah model untuk mengumpulkan data secara efektif? Jawabannya terletak pada analogi sederhana: Semut mencari makanan di lingkungan mereka, sama seperti kita mencari kelompok dalam dataset - mencari dokumen serupa dalam sekumpulan dokumen yang besar.

Pertimbangkan kumpulan data dokumen yang ingin Anda atur berdasarkan topik. Dokumen serupa akan dikelompokkan dalam kelompok yang sama. Di sinilah koloni semut bisa memberi petunjuk bagaimana mengelompokkan dokumen serupa.

Bayangkan sebuah grid dua dimensi (2D) dimana Anda bisa mewakili dokumen sebagai titik-titik. Kotak 2D dibagi menjadi sel. Setiap sel memiliki "feromon" (nilai) yang terkait dengannya. Secara singkat, nilai "feromon" membedakan setiap dokumen dalam sel yang diberikan.

Titik awalnya didistribusikan secara acak - dan setiap titik di grid mewakili dokumen unik. Langkah selanjutnya adalah menyebarkan titik-titik lain secara acak pada grid 2D, mensimulasikan pencarian koloni semut untuk makanan di lingkungannya. Titik-titik tersebut pada awalnya tersebar di grid 2D yang sama dengan dokumen.

Setiap titik baru yang ditambahkan ke grid mewakili semut. Mereka "semut," sering disebut dalam algoritma ant-koloni sebagai agen , bergerak dalam grid 2D. Setiap "semut" akan mengambil atau menurunkan titik lain (dokumen), tergantung dari dokumen mana yang terbaik. Dalam analogi ini, "makanan" berbentuk dokumen cukup mirip sehingga bisa dikelompokkan.

Sebuah "semut" berjalan secara acak di grid; Jika menemukan dokumen, ia dapat melakukan salah satu dari dua tindakan: pilih atau jatuhkan. Setiap sel memiliki "intensitas feromon" yang menunjukkan seberapa mirip dokumen itu dengan dokumen lainnya (titik-titik) yang berada di dekat dokumen yang dimaksud - satu "semut" akan diambil atau dibuang.

Perhatikan bahwa "semut" di Cell 3 akan mengambil dokumen bertitik hitam karena nilai "feromon" putih mendominasi; dan pindah ke sel dimana nilainya mendekati (serupa) dengan apa yang ada di Cell 4 (beberapa titik hitam). Pencarian terus iterasi sampai membentuk cluster.

Akibatnya, "semut" memindahkan dokumen dari satu sel ke sel lainnya untuk membentuk kelompok dengan melakukan salah satu dari hanya dua tindakan: memungut dokumen atau menjatuhkan dokumen. Ketika "semut" mulai bergerak secara acak di grid, menemukan sebuah titik (dokumen) menghasilkan "semut" mengambil sebuah dokumen dari selnya saat ini, bergerak dengannya, dan memasukkannya ke dalam sel di mana ia berada. kesamaan yang cukup sesuai

Bagaimana "semut" menentukan sel terbaik untuk menjatuhkan dokumen? Jawabannya adalah bahwa nilai dalam sel bertindak seperti "feromon" - dan setiap sel di grid 2D mengandung nilai numerik yang dapat dihitung dengan cara yang mewakili dokumen di dalam sel.

Ingatlah bahwa setiap dokumen diwakili sebagai kumpulan angka atau vektor nilai numerik. "Intensitas feromon" (nilai numerik) meningkat saat lebih banyak dokumen dimasukkan ke dalam sel - dan nilainya menurun jika angka yang mewakili dokumen dipindahkan dari sel.