Bagaimana Menelusuri Data Prediktif Analytics Anda - dummies

Untuk memanfaatkan data analisis prediktif Anda perlu mengetahui bagaimana menemukan informasi yang ingin Anda temukan. Ada dua konsep utama untuk mencari data Anda dalam persiapan untuk menggunakannya dalam analisis prediktif:

Bersiap untuk melampaui pencarian kata kunci dasar
Membuat data Anda semantik dicari

Cara menggunakan pencarian berbasis kata kunci dalam prediksi analisis

Bayangkan jika Anda ditugaskan untuk mencari data dalam jumlah besar. Salah satu cara untuk mendekati masalah adalah dengan mengeluarkan kueri penelusuran yang terdiri dari kata-kata. Alat pencarian mencari kata-kata yang cocok di database, gudang data, atau membolak-balik teks yang ada di dalamnya data Anda berada.

Asumsikan Anda mengeluarkan kueri penelusuran berikut: Presiden Amerika Serikat mengunjungi Afrika . Hasil pencarian akan terdiri dari teks yang berisi persis satu atau kombinasi kata-kata Presiden, Amerika Serikat, kunjungan, Afrika . Anda mungkin mendapatkan informasi yang tepat yang Anda cari, tapi tidak selalu.

Bagaimana dengan dokumen yang tidak berisi kata-kata yang telah disebutkan sebelumnya, namun beberapa kombinasi antara lain: perjalanan Obama ke Kenya .

Tidak ada kata yang awalnya Anda cari ada di sana - tetapi hasil pencariannya semantis (bermakna) bermanfaat. Bagaimana Anda bisa mempersiapkan data Anda agar bisa ditelusuri secara semantis? Bagaimana Anda bisa melampaui pencarian kata kunci tradisional? Jawaban Anda bisa ditemukan jika Anda terus membaca.

Cara menggunakan pencarian berbasis semantik dalam analisis prediktif

Gambaran tentang bagaimana karya pencarian berbasis semantik adalah sebuah proyek yang dipimpin Anasse Bari di Grup Bank Dunia, sebuah organisasi internasional yang misi utamanya adalah untuk memerangi kemiskinan di seluruh dunia.

Proyek ini bertujuan untuk menyelidiki pencarian dan analisis perusahaan skala besar yang ada di pasar dan membangun sebuah prototipe untuk kerangka kerja mutakhir yang akan mengatur data Bank Dunia - yang sebagian besar merupakan kumpulan dokumen, publikasi, laporan proyek yang tidak terstruktur, celana, dan studi kasus.

Pengetahuan berharga yang sangat besar ini adalah sumber yang digunakan untuk misi utama pengurangan kemiskinan dunia. Tapi kenyataan bahwa itu tidak terstruktur membuatnya menantang untuk mengakses, menangkap, berbagi, memahami, mencari, data-tambang, dan memvisualisasikan.

Bank Dunia adalah organisasi yang sangat besar, dengan banyak divisi di seluruh dunia. Salah satu divisi utama berusaha untuk memiliki kerangka kerja dan siap untuk mengalokasikan sumber daya untuk membantu tim Bari adalah Jaringan Pembangunan Manusia di dalam Bank Dunia.

Wakil Presiden Jaringan Pengembangan Manusia menguraikan satu masalah yang muncul dari ambiguitas: Divisinya menggunakan beberapa istilah dan konsep yang memiliki arti keseluruhan yang sama namun memiliki nuansa yang berbeda.

Misalnya, istilah seperti klimatologi , perubahan iklim, penipisan ozon gas, dan emisi rumah kaca semuanya berhubungan secara semantis namun tidak identik dalam arti. Dia menginginkan kemampuan pencarian yang cukup cerdas untuk mengekstrak dokumen yang berisi konsep terkait saat seseorang menggeledah salah satu istilah ini. Kerangka 'prototipe' untuk kemampuan yang dipilih oleh tim Bari adalah Arsitektur Manajemen Informasi Unstructured (UIMA), solusi berbasis perangkat lunak. Awalnya dirancang oleh IBM Research, UIMA tersedia dalam perangkat lunak IBM seperti IBM Content Analytics, salah satu alat yang mendukung IBM Watson, komputer terkenal yang memenangkan game Jeopardy. Tim Bari bergabung dengan tim yang sangat berbakat dari IBM Content Management dan Enterprise Search, dan kemudian dengan tim IBM Watson, untuk berkolaborasi dalam proyek ini. Solusi 9 Unstructured Information Management (UIM)

adalah sistem perangkat lunak yang menganalisis volume besar informasi tidak terstruktur (teks, audio, video, gambar, dan sebagainya) untuk menemukan, mengatur dan memberikan pengetahuan yang relevan kepada klien atau pengguna akhir aplikasi.

Atribut

ontologi adalah kumpulan konsep dan istilah terkait yang terkait dengan domain. Solusi berbasis UIMA menggunakan ontologi untuk memberikan penandaan semantik, yang memungkinkan pencarian yang kaya dari format data (teks, ucapan, presentasi PowerPoint, e-mail, video, dan sebagainya). UIMA menambahkan lapisan lain pada data yang diambil, lalu menambahkan metadata

untuk mengidentifikasi data yang dapat disusun dan dicari secara semantis. Pencarian semantik didasarkan pada makna kontekstual istilah pencarian saat muncul di ruang data yang dapat dicari yang dibangun UIMA. Pencarian semantik lebih akurat daripada pencarian berbasis kata kunci yang biasa karena permintaan pengguna mengembalikan hasil pencarian tidak hanya dokumen yang berisi istilah pencarian, tapi juga dokumen yang secara semantik relevan dengan kueri. Jika Anda mencari keanekaragaman hayati di Afrika, pencarian khas (berbasis kata kunci) akan mengembalikan dokumen yang memiliki kata-kata yang tepat keanekaragaman hayati

dan Afrika . Pencarian semantik berbasis UIMA tidak hanya akan mengembalikan dokumen yang memiliki dua kata itu, tapi juga dokumen semantik yang relevan dengan dokumen "keanekaragaman hayati di Afrika" yang mengandung kombinasi kata-kata seperti "sumber daya tanaman di Afrika", "sumber daya hewan di Maroko, "atau" sumber daya genetik di Zimbabwe. Dengan tag semantik dan penggunaan ontologi, informasi menjadi mudah ditelusuri secara semantis, terlepas dari bahasa atau media di mana informasi dibuat (Word, PowerPoint, e-mail, video, dan sebagainya). Solusi ini menyediakan satu hub dimana data dapat ditangkap, diatur, dipertukarkan, dan diberikan secara semantically retrievable. Kamus sinonim dan istilah terkait bersifat open source (tersedia secara bebas) - atau Anda dapat mengembangkan kamus Anda sendiri yang spesifik untuk domain atau data Anda. Anda dapat membuat spreadsheet dengan akar kata dan kata-kata, sinonim, dan istilah terkait yang terkait. Spreadsheet dapat diunggah ke alat penelusuran seperti IBM Content Analytics (ICA) untuk memberi kuasa pada analisis penelusuran perusahaan dan konten.