SUPERVISED SEGMENTATION
Pada postingan kali ini kita akan belajar mengenai SUPERVISED SEGMENTATION dimana cara berfikir untuk menetukan atau membuat supervised segmentation sangat berguna ketika kelak kita akan menghadapi sekumpulan data set yang sangat luas atau banyak, So let's check it out! ^^..
Ingat bahwa model prediktif berfokus pada memperkirakan nilai dari beberapa variabel target minat tertentu. Cara berpikir intuitif tentang mengekstraksi pola dari data dengan cara supervised adalah mencoba menyegmentasikan populasi ke dalam subkelompok yang memiliki nilai berbeda untuk variabel target (dan dalam subkelompok instance memiliki nilai yang sama untuk variabel target). Jika segmentasi dilakukan menggunakan nilai-nilai variabel yang akan diketahui when the target is not, maka segmen ini dapat digunakan untuk memprediksi nilai dari variabel target. Selain itu, segmentasi pada saat yang sama dapat memberikan pola segmentasi yang dapat dimengerti oleh manusia.
Salah satu segmen seperti yang diungkapkan dalam bahasa Inggris mungkin: " Middle-aged professionals who reside in New York City on average have a churn rate of 5%.” Khususnya, istilah "profesional paruh baya yang tinggal di New York City" adalah definisi dari segmen (yang mereferensikan beberapa atribut tertentu) dan "churn rate 5%" menggambarkan nilai prediksi dari variabel target untuk segmen.
Seringkali kami tertarik untuk menerapkan penambangan data ketika kami memiliki banyak atribut, dan tidak tahu pasti apa segmen yang seharusnya. Dalam masalah prediksi churn kami, siapa yang mengatakan apa segmen terbaik untuk memprediksi kecenderungan untuk churn? Jika ada di segmen data dengan nilai yang berbeda (rata-rata) untuk variabel target, kami ingin dapat mengekstraknya secara otomatis.
Ini membawa kita ke konsep fundamental kita: bagaimana kita bisa menilai apakah suatu variabel mengandung informasi penting tentang variabel target? Berapa banyak? Kami ingin secara otomatis mendapatkan pilihan variabel yang lebih informatif sehubungan dengan tugas tertentu di tangan (yaitu, memprediksi nilai variabel target). Bahkan lebih baik, kita mungkin ingin memberi peringkat variabel dengan seberapa baik mereka dalam memprediksi nilai target.
A set of people to be classified. The label over each head represents the value of the target variable (write-off or not). Colors and shapes represent different predictor attributes.
Pertimbangkan hanya pemilihan atribut yang paling informatif. Menyelesaikan masalah ini akan memperkenalkan kita pada first concrete data mining technique simple, tetapi mudah diperluas agar sangat berguna. In our example, variabel apa yang memberi kita informasi paling banyak tentang tingkat churn populasi di masa mendatang? Menjadi seorang profesional? Umur Tempat tinggal? Pendapatan? Jumlah keluhan ke layanan pelanggan? Jumlah biaya berlebih?
Sekarang kita akan melihat dengan seksama ke dalam satu cara yang berguna untuk memilih variabel informatif, dan kemudian akan menunjukkan bagaimana teknik ini dapat digunakan berulang kali untuk membangun segmentasi supervised. Meskipun sangat bergguna dan illustrative, mohon di ingat secar alangsung bahwa segmentasi supervised multivariate hanyalah salah satu aplikasi dari ide fundamental ini untuk memilih variabel informatif.
Gagasan ini seharusnya menjadi salah satu your conceptual tools ketika berfikir tentang masalah data science secara umum.
Sebagai contoh, saat kita melangkah maju kita akan menyelidiki pendekatan pemodelan lain, yang tidak menggabungkan pemilihan variabel secara langsung. When the world presents you with set atribut yang sangat besar, mungkin (extremely) berguna untuk mengingat kembali ide awal ini dan untuk memilih subkumpulan atribut informatif. Melakukan hal itu dapat secara substansial mengurangi ukuran kumpulan data yang berat, dan seperti yang akan kita lihat, seringkali akan meningkatkan akurasi model yang dihasilkan.
Comments
Post a Comment