Video: Seminar Penafsiran Alkitab oleh Dr. Bob Utley, Pelajaran 1 2024
Pembelajaran dengan mesin sangat bergantung pada data sampel. Bagian data Anda penting karena Anda ingin menemukan sudut pandang dunia, dan seperti halnya semua sudut pandang, ini bisa salah, terdistorsi, atau hanya sebagian. Anda juga tahu bahwa Anda memerlukan contoh out-of-sample untuk memeriksa apakah proses belajar bekerja. Namun, aspek ini hanya merupakan bagian dari gambar.
Bila Anda membuat algoritma pembelajaran mesin bekerja pada data untuk menebak respons tertentu, Anda secara efektif berjudi, dan pertaruhan itu bukan hanya karena sampel yang Anda gunakan untuk belajar. Masih ada lagi. Untuk saat ini, bayangkan Anda bebas memiliki akses terhadap data sampel yang sesuai, tidak bias, sehingga data tidak menjadi masalah. Sebagai gantinya Anda perlu berkonsentrasi pada metode belajar dan memprediksi.
Pertama, Anda harus mempertimbangkan bahwa Anda bertaruh bahwa algoritma tersebut dapat menebak jawabannya dengan baik. Anda tidak bisa selalu membuat asumsi ini karena mencari jawaban pasti tidak mungkin tidak peduli apa yang Anda ketahui sebelumnya.
Misalnya, Anda tidak dapat sepenuhnya menentukan perilaku manusia dengan mengetahui sejarah dan perilaku mereka sebelumnya. Mungkin efek acak terlibat dalam proses generatif perilaku kita (bagian irasional dari kita, misalnya), atau mungkin masalahnya bermuara pada kehendak bebas (masalahnya juga filosofis / religius, dan ada banyak pendapat sumbang). Akibatnya, Anda bisa menebak hanya beberapa jenis respons, dan bagi banyak orang lainnya, seperti saat Anda mencoba memprediksi perilaku orang lain, Anda harus menerima tingkat ketidakpastian tertentu yang, dengan keberuntungan, dapat diterima untuk tujuan Anda.
Kedua, Anda harus mempertimbangkan bahwa Anda bertaruh bahwa hubungan antara informasi yang Anda miliki dan respons yang ingin Anda prediksi dapat dinyatakan sebagai rumus matematis, dan bahwa pembelajaran mesin Anda Algoritma sebenarnya mampu menebak rumus itu. Kapasitas algoritma Anda untuk menebak rumus matematika di balik respons secara intrinsik tertanam dalam mur dan baut algoritma.
Beberapa algoritma bisa menebak hampir semuanya; yang lain benar-benar memiliki seperangkat pilihan terbatas. Rentang formulasi matematis yang mungkin bisa ditebak oleh algoritme adalah kemungkinan hipotesisnya. Akibatnya, hipotesis adalah algoritma tunggal, ditentukan dalam semua parameternya dan karena itu mampu menghasilkan formulasi spesifik tunggal.
Matematika itu fantastis. Ini bisa menggambarkan sebagian besar dunia nyata dengan menggunakan beberapa notasi sederhana, dan inilah inti pembelajaran mesin karena setiap algoritma pembelajaran memiliki kemampuan tertentu untuk merepresentasikan formulasi matematis.Beberapa algoritma, seperti regresi linier, secara eksplisit menggunakan formulasi matematis yang spesifik untuk mewakili bagaimana respons (misalnya, harga rumah) berhubungan dengan seperangkat informasi prediktif (seperti informasi pasar, lokasi rumah, permukaan perkebunan, dan seterusnya).
Beberapa formulasi begitu kompleks dan rumit sehingga meski melukiskannya di atas kertas adalah mungkin, hal itu terlalu sulit dilakukan secara praktis. Beberapa algoritma canggih lainnya, seperti pohon keputusan, tidak memiliki formulasi matematis yang eksplisit, namun sangat mudah beradaptasi sehingga dapat diatur untuk mendekati berbagai macam formulasi dengan mudah. Sebagai contoh, pertimbangkan formulasi sederhana dan mudah dijelaskan. Regresi linier hanyalah garis pada ruang koordinat yang diberikan oleh respon dan semua prediktor. Dalam contoh termudah, Anda dapat memiliki respons, y, dan satu prediktor tunggal, x, dengan formulasi
y = β 1 x 1 + β 0
Dalam situasi sederhana dari sebuah respons yang diprediksi oleh satu fitur, model seperti itu sempurna saat data Anda mengatur dirinya sebagai sebuah garis. Namun, apa yang terjadi jika tidak dan malah membentuk dirinya seperti kurva? Untuk mewakili situasinya, cukup amati representasi bidimensional berikut ini.
Contoh model linier yang berjuang untuk memetakan fungsi kurva.Bila titik menyerupai garis atau awan, beberapa kesalahan terjadi saat Anda mengetahui bahwa hasilnya adalah garis lurus; Oleh karena itu pemetaan yang diberikan oleh formulasi sebelumnya entah bagaimana tidak tepat. Namun, kesalahan itu tidak muncul secara sistematis tapi agak acak karena beberapa poin berada di atas garis yang dipetakan dan yang lainnya ada di bawahnya. Situasi dengan melengkung, berbentuk awan poin berbeda, karena kali ini, garis kadang tepat tapi pada saat lain secara sistematik salah. Terkadang poin selalu di atas garis; Terkadang mereka berada di bawahnya.
Mengingat kesederhanaan pemetaan responsnya, algoritme Anda cenderung secara sistematis melebih-lebihkan atau meremehkan peraturan sebenarnya di balik data, yang mewakili biasnya. Biasnya adalah karakteristik dari algoritma sederhana yang tidak dapat mengekspresikan formulasi matematika yang kompleks.