Rumah Keuangan Pribadi Melihat Dasar-dasar Statistik, Pembelajaran Mesin, dan Metode Matematika dalam Ilmu Data - dummies

Melihat Dasar-dasar Statistik, Pembelajaran Mesin, dan Metode Matematika dalam Ilmu Data - dummies

Daftar Isi:

Video: 14 Rumus Excel Yang Paling Sering Digunakan 2025

Video: 14 Rumus Excel Yang Paling Sering Digunakan 2025
Anonim

Bagian Lembar Data Ilmu Pengetahuan untuk Dummies Cheat > Jika statistik telah digambarkan sebagai ilmu yang mendapatkan wawasan dari data, lalu apa perbedaan antara ahli statistik dan ilmuwan data? Pertanyaan bagus! Sementara banyak tugas dalam ilmu data memerlukan sedikit statistik untuk mengetahui bagaimana, ruang lingkup dan keluasan pengetahuan ilmuwan dan basis pengetahuan data berbeda dari statistik. Perbedaan inti diuraikan di bawah ini.

Keahlian materi pelajaran:
  • Salah satu fitur utama ilmuwan data adalah mereka menawarkan keahlian tingkat tinggi di bidang yang menerapkan metode analisis mereka. Ilmu data membutuhkan ini sehingga mereka dapat benar-benar memahami implikasi dan penerapan wawasan data yang mereka hasilkan. Seorang ilmuwan data harus memiliki keahlian mata pelajaran yang cukup untuk dapat mengidentifikasi signifikansi temuan mereka dan secara independen memutuskan bagaimana melanjutkan analisis.

    Sebaliknya, ahli statistik biasanya memiliki pengetahuan statistik yang sangat dalam, tapi sangat sedikit keahlian dalam masalah yang mereka gunakan untuk metode statistik. Sebagian besar waktu, ahli statistik diminta untuk berkonsultasi dengan pakar materi pelajaran eksternal untuk benar-benar memahami secara tepat pentingnya temuan mereka, dan untuk dapat memutuskan cara terbaik untuk maju dalam analisis.

    Pendekatan pembelajaran matematis dan mesin:
  • Ahli statistik mengandalkan metode statistik dan proses ketika mendapatkan wawasan dari data. Sebaliknya, ilmuwan data diharuskan menarik berbagai teknik untuk memperoleh wawasan data. Ini termasuk metode statistik, namun juga mencakup pendekatan yang tidak berbasis statistik - seperti yang ditemukan dalam pendekatan pembelajaran matematika, clustering, klasifikasi, dan non-statistik mesin. Melihat pentingnya pengetahuan statistik

Anda tidak perlu pergi keluar dan mendapatkan gelar dalam statistik untuk mempraktikkan sains data, namun setidaknya Anda harus terbiasa dengan beberapa metode yang lebih mendasar yang digunakan. dalam analisis data statistik Ini termasuk:

Regresi linier

  • : Regresi linier berguna untuk memodelkan hubungan antara variabel dependen dan satu atau beberapa variabel independen. Tujuan regresi linier adalah untuk mengetahui (dan mengukur kekuatan) korelasi penting antara variabel dependen dan independen. Analisis deret waktu:

  • Analisis deret waktu melibatkan analisis kumpulan data tentang nilai atribut dari waktu ke waktu, untuk memprediksi contoh tindakan berdasarkan data observasional masa lalu. Simulasi Monte Carlo Metode Monte Carlo adalah teknik simulasi yang dapat Anda gunakan untuk menguji hipotesis, untuk menghasilkan perkiraan parameter, untuk memprediksi hasil skenario, dan untuk memvalidasi model. Metode ini sangat kuat karena dapat digunakan untuk mensimulasikan dengan cepat sampel simulasi 1 sampai 10, 000 (atau lebih) untuk setiap proses yang ingin Anda evaluasi.

  • Statistik untuk data spasial: Satu data penting dan penting dari data spasial adalah bahwa itu tidak acak. Ini bergantung secara spasial dan autokorelasi. Saat memodelkan data spasial, hindari metode statistik yang menganggap data Anda acak. Kriging dan krige adalah dua metode statistik yang dapat Anda gunakan untuk memodelkan data spasial. Metode ini memungkinkan Anda menghasilkan permukaan prediksi untuk seluruh area studi berdasarkan kumpulan titik yang diketahui di ruang geografis.

  • Bekerja dengan metode clustering, klasifikasi, dan mesin Pembelajaran mesin adalah penerapan algoritma komputasi untuk belajar dari (atau menyimpulkan pola dalam) dataset mentah.

Clustering

adalah jenis pembelajaran mesin tertentu - belajar mesin yang tidak diawasi, tepatnya, yang berarti bahwa algoritma harus belajar dari data yang tidak berlabel, dan karena itu, mereka harus menggunakan metode inferensial untuk menemukan korelasi. Klasifikasi, di sisi lain, disebut pembelajaran mesin yang diawasi, yang berarti bahwa algoritma belajar dari data berlabel. Deskripsi berikut ini memperkenalkan beberapa pendekatan pengelompokan dan klasifikasi yang lebih mendasar:

k-means clustering: Anda biasanya menyebarkan algoritma k-means untuk membagi titik data dari kumpulan data ke dalam kelompok berdasarkan nilai mean terdekat. Untuk mengetahui pembagian optimal poin data Anda ke dalam kelompok, sehingga jarak antara titik di setiap cluster diminimalkan, Anda bisa menggunakan k-means clustering.

  • Algoritma tetangga yang terdekat: Tujuan analisis tetangga terdekat adalah mencari dan menemukan titik terdekat di ruang angkasa atau nilai numerik terdekat, bergantung pada atribut yang Anda gunakan untuk perbandingan.

  • Perkiraan kepadatan kernel: Cara alternatif untuk mengidentifikasi kelompok dalam data Anda adalah dengan menggunakan fungsi perataan kerapatan. Kernel density estimation (KDE) bekerja dengan menempatkan fungsi bobot yang mengandung

  • yang berguna untuk mengukur kerapatan - pada setiap titik data dalam kumpulan data, dan kemudian menjumlahkan kernel untuk menghasilkan perkiraan kerapatan kernel untuk keseluruhan wilayah. Menjaga metode matematika dalam campuran Banyak yang mengatakan tentang nilai statistik dalam praktik ilmu data, namun metode matematika terapan jarang disebutkan. Sejujurnya, matematika adalah dasar dari semua analisis kuantitatif. Kepentingannya jangan sampai diremehkan. Dua metode matematika berikut ini sangat berguna dalam ilmu data. Multi-criteria decision making (MCDM):

MCDM adalah pendekatan pemodelan keputusan matematis yang dapat Anda gunakan bila Anda memiliki beberapa kriteria atau alternatif yang harus Anda evaluasi secara bersamaan saat membuat keputusan.

Rantai Markov

  • : Rantai Markov adalah metode matematis yang menggabungkan serangkaian variabel acak yang mewakili keadaan sekarang untuk memodelkan bagaimana perubahan dalam variabel keadaan saat ini mempengaruhi keadaan masa depan.

Melihat Dasar-dasar Statistik, Pembelajaran Mesin, dan Metode Matematika dalam Ilmu Data - dummies

Pilihan Editor

Asisten Dokter Ujian: Tipe 1 dan Tipe 2 Diabetes - dummies

Asisten Dokter Ujian: Tipe 1 dan Tipe 2 Diabetes - dummies

Sebagai masalah yang lebih umum , Asisten Dokter Ujian (PANCE) akan mengharapkan Anda untuk mengetahui perbedaan antara diabetes tipe 1 dan tipe 2. Diabetes mellitus (DM) adalah karena metabolisme insulin yang abnormal di dalam tubuh. Pada diabetes mellitus tipe 1, pankreas tidak memproduksi insulin, dan pada tipe 2, tubuh menahan tindakan ...

Asisten Dokter Asisten: Testis dan Sekitarnya - dummies

Asisten Dokter Asisten: Testis dan Sekitarnya - dummies

Banyak kondisi kesehatan dapat mempengaruhi testis dan ini akan dibahas di Asisten Dokter Ujian. Tidak hanya kondisi penting secara klinis, tapi juga hasil tinggi untuk tes. Dari torsi hingga kanker hingga infeksi, waspadai kondisi ini. Torsion Testicular torsion adalah kondisi yang tidak Anda inginkan pada kondisi terburuk Anda ...

Praktek Pertanyaan Dermatologi pada Asisten Dokter - dummies

Praktek Pertanyaan Dermatologi pada Asisten Dokter - dummies

Dari ruam sampai eksim dan infeksi bakteri terhadap virus exanthems, pertanyaan latihan ini serupa dengan pertanyaan dermatologi pada Physician Assistant Exam (PANCE). Contoh Pertanyaan PANCE Salah satu dari berikut ini dapat berkembang menjadi karsinoma sel skuamosa dari waktu ke waktu? (A) Onikomikosis (B) Keratosis aktinik (C) Keratosis seboroik (D) Psoriasis (E) Impetigo Anda sedang mengevaluasi ...

Pilihan Editor

GED Test Prep: Penalaran Melalui Bahasa Membaca Seni Pertanyaan Drag-and-Drop

GED Test Prep: Penalaran Melalui Bahasa Membaca Seni Pertanyaan Drag-and-Drop

Bagian Penalaran Melalui Bahasa Seni GED menggunakan jenis pertanyaan drag-and-drop, antara lain. Item ini mengharuskan Anda menyeret dan melepaskan informasi dari satu lokasi ke layar lainnya. Biasanya, tujuannya adalah agar Anda menyusun ulang sesuatu dari yang paling tidak penting bagi kebanyakan orang, untuk menempatkan peristiwa ke dalam urutan, atau hanya ...

Tips Uji GED: Pertanyaan Mengatasi dan Menjawab - dummies

Tips Uji GED: Pertanyaan Mengatasi dan Menjawab - dummies

Saat Anda memulai GED, Anda ingin memiliki rencana permainan di tempat untuk bagaimana menjawab pertanyaan. Ingatlah tips berikut ini untuk membantu Anda mengatasi setiap pertanyaan: Kapan pun Anda membaca sebuah pertanyaan, tanyakan pada diri Anda, "Apa yang saya minta? "Melakukannya membantu Anda tetap fokus pada apa yang Anda butuhkan ...

GED Test Prep: Penalaran Melalui Bahasa Penulisan Seni Pertanyaan Tanggapan yang Diperluas - dummies

GED Test Prep: Penalaran Melalui Bahasa Penulisan Seni Pertanyaan Tanggapan yang Diperluas - dummies

Ketika Anda menyelesaikan bagian pertama dari bagian Reasoning Through Language Arts (RLA) dari GED, Anda memulai Respons Extended-di mana Anda menulis esai dengan menganalisis argumen yang disajikan dalam dua lembar teks contoh. Anda mendapatkan 45 menit untuk mengerjakan bagian RLA ini, dan Anda tidak dapat melakukannya ...

Pilihan Editor

Cara Melacak Konten dan Membuat Laporan untuk Otomasi Pemasaran - dummies

Cara Melacak Konten dan Membuat Laporan untuk Otomasi Pemasaran - dummies

Setelah Anda memiliki konten untuk kampanye otomasi pemasaran, saatnya belajar mengelolanya. Melacak konten Anda - mengetahui siapa yang terlibat dengannya dan di mana dia terlibat dengan-membantu Anda mengetahui bagaimana menyajikannya dengan lebih baik pada kesempatan berikutnya. Otomatisasi pemasaran membuat manajemen konten sangat berbeda dari bagaimana ...

Bagaimana Menggunakan Otomasi Pemasaran untuk Melacak Prospek Pemasaran Bergerak - dummies

Bagaimana Menggunakan Otomasi Pemasaran untuk Melacak Prospek Pemasaran Bergerak - dummies

Banyak pemasar diukur pada berapa banyak prospek yang mereka berikan pada penjualan dan persentase prospek tersebut diubah menjadi peluang. Untungnya, otomatisasi pemasaran dapat membantu Anda mengembangkan cara untuk mengukur prospek. Mendapatkan visibilitas ke prospek setelah mengirimkannya ke tim penjualan merupakan kutukan bagi banyak departemen pemasaran. Setelah menerapkan ...

Bagaimana Menggunakan Video Tertanam untuk Keterlibatan Peningkatan dalam Otomasi Pemasaran - dummies

Bagaimana Menggunakan Video Tertanam untuk Keterlibatan Peningkatan dalam Otomasi Pemasaran - dummies

Anda dapat menggunakan video khusus untuk mendorong konversi yang lebih tinggi melalui otomasi pemasaran Anda. Untuk membuat video yang lebih maju, pastikan Anda memiliki beberapa opsi dasar dengan alat video-hosting Anda: Putar otomatis: Opsi ini memungkinkan video Anda untuk mulai bermain saat seseorang mendarat di halaman. Ini bukan pilihan super canggih, tapi ...