Video: TensorFlow Dev Summit 2019 Keynote 2024
Untuk proyek analisis prediktif Anda, Anda harus mengidentifikasi sumber data yang tepat, mengumpulkan data dari sumber tersebut, dan meletakkannya dalam format terstruktur dan terorganisir dengan baik. Tugas ini bisa sangat menantang dan kemungkinan akan memerlukan koordinasi yang hati-hati antara berbagai stewards data di seluruh organisasi Anda.
Anda juga perlu memilih variabel yang akan Anda analisis. Proses ini harus mengambil kendala data, kendala proyek, dan pertimbangan bisnis.
Variabel yang Anda pilih harus memiliki daya prediktif. Selain itu, Anda perlu mempertimbangkan variabel yang bernilai baik dan layak untuk proyek Anda sesuai anggaran dan kerangka waktu. Misalnya, jika Anda menganalisis transaksi bank dalam penyelidikan kriminal, catatan telepon untuk semua pihak yang terlibat mungkin relevan dengan analisis namun tidak dapat diakses oleh analis.
Berharap menghabiskan banyak waktu pada fase proyek ini. Pengumpulan data, analisis data, dan proses pengalamatan konten, kualitas, dan struktur data dapat menambah daftar tugas yang harus dilakukan.
Selama proses identifikasi data, akan membantu untuk memahami data dan propertinya; Pengetahuan ini akan membantu Anda memilih algoritma mana yang akan digunakan untuk membangun model Anda. Sebagai contoh, data deret waktu dapat dianalisis dengan algoritma regresi; algoritma klasifikasi dapat digunakan untuk menganalisis data diskrit.
Pemilihan variabel dipengaruhi oleh seberapa baik Anda memahami datanya. Jangan heran jika Anda harus melihat dan mengevaluasi ratusan variabel, setidaknya pada awalnya. Untungnya, saat Anda bekerja dengan variabel-variabel itu dan mulai mendapatkan wawasan penting, Anda mulai mempersempitnya menjadi beberapa lusin. Selain itu, harapkan pilihan variabel berubah seiring pemahaman Anda tentang perubahan data selama proyek berlangsung.
Anda mungkin merasa bermanfaat untuk membangun inventaris data yang dapat Anda gunakan untuk melacak apa yang Anda ketahui, apa yang tidak Anda ketahui, dan apa yang mungkin hilang. Inventaris data harus mencakup daftar berbagai elemen data dan atribut apa pun yang relevan pada langkah proses selanjutnya.
Misalnya, Anda mungkin ingin mendokumentasikan apakah ada segmen yang kehilangan kode pos atau catatan yang hilang untuk jangka waktu tertentu.
Orang yang masuk ke pengetahuan bisnis Anda (juga dikenal sebagai pakar pengetahuan domain ) akan membantu Anda memilih variabel kunci yang dapat mempengaruhi hasil proyek Anda secara positif. Mereka dapat membantu menjelaskan kepada Anda pentingnya variabel-variabel ini, dan juga di mana dan bagaimana mendapatkannya, di antara masukan berharga lainnya.