Probability Estimation




Probability Estimation


Dalam banyak masalah pengambilan keputusan, kami menginginkan prediksi yang lebih informatif daripada hanya klasifikasi. Sebagai contoh, dalam masalah prediksi churn, daripada sekadar memprediksi apakah seseorang akan meninggalkan perusahaan dalam waktu 90 hari setelah kontrak berakhir, kami lebih suka memiliki perkiraan kemungkinan bahwa dia akan meninggalkan perusahaan dalam waktu itu. Perkiraan semacam itu dapat digunakan untuk banyak tujuan. Kami akan membahas beberapa hal ini secara terperinci dalam bab-bab selanjutnya, tetapi secara singkat: 

Anda mungkin kemudian memberi peringkat pada prospek dengan kemungkinan mereka untuk pergi, dan kemudian mengalokasikan anggaran insentif terbatas ke instance probabilitas tertinggi. Atau, Anda mungkin ingin mengalokasikan anggaran insentif Anda ke instance dengan kerugian yang diperkirakan paling tinggi, yang mana Anda perlu (perkiraan) probabilitas churn. Setelah Anda memiliki taksiran probabilitas seperti itu, Anda dapat menggunakannya dalam proses pengambilan keputusan yang lebih canggih daripada contoh-contoh sederhana ini, seperti yang akan kami jelaskan di bab-bab selanjutnya.

Ada masalah lain, bahkan lebih berbahaya dengan model yang memberikan klasifikasi sederhana, daripada perkiraan probabilitas keanggotaan kelas. Pertimbangkan masalah memperkirakan default kredit. Dalam keadaan normal, untuk hampir semua segmen populasi di mana kita akan mempertimbangkan memberikan kredit, kemungkinan writeoff akan sangat kecil jauh kurang dari 0,5. Dalam hal ini, ketika kita membangun sebuah model untuk memperkirakan klasifikasi (write-off atau tidak), kita harus mengatakan bahwa untuk setiap segmen, anggota cenderung tidak default dan mereka semua akan mendapatkan klasifikasi yang sama (non writeoff). Sebagai contoh, dalam model pohon yang dibangun secara naively setiap daun akan diberi label “tidak write-off.” Ini ternyata menjadi pengalaman yang membuat frustrasi bagi penambang data baru: setelah semua pekerjaan itu, model benar-benar hanya mengatakan bahwa tidak ada seorang pun yang cenderung default? 
Ini tidak berarti bahwa modelnya tidak berguna. Bisa jadi segmen yang berbeda memang memiliki peluang penghapusan yang sangat berbeda, hanya saja semuanya kurang dari 0,5. Jika alih-alih kita menggunakan probabilitas ini untuk menetapkan kredit, kita mungkin dapat mengurangi risiko secara substansial.

Jadi, dalam konteks segmentasi supervised, kami ingin setiap segmen (daun model pohon) untuk diberi perkiraan kemungkinan keanggotaan di kelas yang berbeda. Gambar 3-15 lebih umum menunjukkan model “pohon perkiraan probabilitas” untuk contoh prediksi penghapusan sederhana kami, memberikan tidak hanya prediksi kelas tetapi juga perkiraan probabilitas keanggotaan di kelas.

Untungnya, ide-ide induksi pohon yang telah kita diskusikan sejauh ini dengan mudah dapat menghasilkan pohon estimasi probabilitas daripada pohon-pohon klasifikasi sederhana.7 Ingat bahwa prosedur induksi pohon membagi space instance ke dalam wilayah-wilayah kemurnian kelas (entropi rendah).

Jika kita puas untuk menetapkan probabilitas kelas yang sama untuk setiap anggota dari segmen yang terkait dengan daun pohon, kita dapat menggunakan jumlah instance di setiap daun untuk menghitung perkiraan probabilitas kelas. Sebagai contoh, jika sebuah daun mengandung n contoh positif dan contoh negatif, kemungkinan setiap contoh baru yang positif dapat diperkirakan sebagai n / (n + m). Ini disebut perkiraan frekuensi berbasis kemungkinan keanggotaan kelas.


Pada titik ini Anda mungkin menemukan masalah dengan memperkirakan probabilitas keanggotaan kelas dengan cara ini: kita mungkin terlalu optimis tentang probabilitas keanggotaan kelas untuk segmen dengan jumlah instance yang sangat kecil. Pada titik ekstrim, jika sebuah daun kebetulan hanya memiliki satu kejadian, haruskah kita bersedia mengatakan bahwa ada kemungkinan 100% bahwa anggota segmen itu akan memiliki kelas yang satu ini kebetulan terjadi?

Fenomena ini adalah salah satu contoh masalah mendasar dalam ilmu data ("overfitting"), yang kita curahkan satu bab kemudian dalam buku ini. Untuk kelengkapannya, mari kita bahas satu cara mudah untuk mengatasi masalah sampel kecil ini untuk estimasi probabilitas berbasis kelas pohon. Alih-alih hanya menghitung frekuensi, kami sering menggunakan versi “smoothed” dari perkiraan berbasis frekuensi, yang dikenal sebagai Laplace correction, yang tujuannya adalah untuk memoderasi pengaruh daun dengan hanya beberapa contoh. Persamaan untuk estimasi probabilitas kelas biner menjadi:



Dimana n adalah jumlah contoh di daun yang termasuk kelas c, dan m adalah jumlah contoh yang tidak termasuk kelas c.

Mari kita telusuri contoh dengan dan tanpa koreksi Laplace. Sebuah simpul daun dengan dua contoh positif dan tidak ada contoh negatif akan menghasilkan perkiraan berbasis-frekuensi yang sama (p = 1) sebagai simpul daun dengan 20 contoh positif dan tidak ada negatif. Namun, simpul daun pertama memiliki lebih sedikit bukti dan mungkin ekstrim hanya karena ada beberapa contoh. Perkiraannya harus ditempa oleh pertimbangan ini. Persamaan Laplace memuluskan perkiraannya menjadi p = 0,75 untuk mencerminkan ketidakpastian ini; Koreksi Laplace memiliki banyak efek kurang pada daun dengan 20 contoh (p ≈ 0,95). Ketika jumlah instance meningkat, persamaan Laplace menyatu dengan perkiraan berbasis frekuensi. Gambar 3-16 menunjukkan efek koreksi Laplace pada beberapa rasio kelas saat jumlah instance meningkat (2/3, 4/5, dan 1/1). Untuk setiap rasio, garis horizontal yang solid menunjukkan perkiraan yang tidak dikoreksi (konstan), sementara garis putus-putus yang sesuai menunjukkan perkiraan dengan koreksi Laplace yang diterapkan. Garis yang tidak dikoreksi adalah asymptote koreksi Laplace karena jumlah instance menjadi tak terhingga.


Example: Addressing the Churn Problem with Tree Induction


Sekarang kita memiliki teknik penambangan data dasar untuk pemodelan prediktif, mari kita pertimbangkan masalah churn lagi. Bagaimana kami bisa menggunakan induksi pohon untuk membantu menyelesaikannya? Untuk contoh ini, kami memiliki kumpulan data historis dari 20.000 pelanggan. Pada titik pengumpulan data, masing-masing pelanggan tetap tinggal di perusahaan atau pergi (bergejolak). Setiap pelanggan dijelaskan oleh variabel yang tercantum pada Tabel 3-2.



Variabel ini terdiri dari demografi dasar dan informasi penggunaan yang tersedia dari aplikasi dan akun pelanggan. Kami ingin menggunakan data ini dengan teknik induksi pohon kami untuk memprediksi pelanggan baru mana yang akan berubah.

Sebelum mulai membangun pohon klasifikasi dengan variabel-variabel ini, ada baiknya bertanya, Seberapa baik masing-masing variabel ini secara individual? Untuk ini kita mengukur perolehan informasi dari setiap atribut, seperti yang dibahas sebelumnya. Secara khusus, kami menerapkan Persamaan 3-2 untuk setiap variabel secara mandiri di seluruh rangkaian instance, untuk melihat apa yang kami dapatkan.

Hasilnya ada pada Gambar 3-17, dengan tabel mencantumkan nilai yang tepat. Seperti yang Anda lihat, tiga variabel pertama the house value, the number of leftover minutes, and the number of long calls per month memiliki perolehan informasi yang lebih tinggi daripada yang lain. Mungkin mengejutkan, baik jumlah telepon yang digunakan maupun tingkat kepuasan yang dilaporkan tampaknya, dengan sendirinya, menjadi sangat prediktif untuk berputar.

Applying a classification tree algorithm to the data, kita mendapatkan pohon yang ditunjukkan pada Gambar 3 18. Fitur perolehan informasi tertinggi (HOUSE) menurut Gambar 3-17 adalah akar pohon. Ini memang diharapkan karena akan selalu dipilih lebih dulu. Fitur terbaik kedua, OVERAGE, juga tampak tinggi di pohon. Namun, urutan fitur yang dipilih untuk pohon tidak benar-benar sesuai dengan peringkatnya di Gambar 3-17. Kenapa ini?

The answer is that the table ranks each feature by how good it is independently, odes in a classification tree depend on the instances above them in the tree. Oleh karena itu, kecuali untuk simpul akar, fitur dalam pohon klasifikasi tidak dievaluasi pada seluruh rangkaian instance. Penguatan informasi dari suatu fitur tergantung pada set contoh yang dievaluasi, sehingga peringkat fitur untuk beberapa node internal mungkin tidak sama dengan peringkat global. 

Kami belum membahas bagaimana kami memutuskan untuk berhenti membangun pohon. Dataset memiliki 20.000 contoh namun pohon tersebut jelas tidak memiliki 20.000 simpul daun. Tidak bisakah kita terus memilih lebih banyak atribut untuk dibagi, membangun pohon ke bawah sampai kita kehabisan data? Jawabannya ya, kita bisa, tetapi kita harus berhenti jauh sebelum model menjadi rumit. Masalah ini terkait erat dengan model umum dan overfitting.




Pertimbangkan masalah terakhir dengan kumpulan data ini. Setelah membangun model pohon dari data, kami mengukur keakuratannya terhadap data untuk melihat seberapa baik model itu. Khususnya, kami menggunakan satu set pelatihan yang terdiri dari setengah dari orang-orang yang mengaduk dan separuh lainnya yang tidak; setelah mempelajari pohon klasifikasi dari ini, kami menerapkan pohon ke dataset untuk melihat berapa banyak contoh yang bisa diklasifikasi dengan benar. Pohon itu mencapai akurasi 73% pada keputusannya. Ini menimbulkan dua pertanyaan:

1. Pertama, apakah Anda mempercayai nomor ini? Jika kami menerapkan pohon ke sampel lain sebanyak 20.000 orang dari kumpulan data yang sama, menurut Anda, kami masih mendapatkan akurasi sekitar 73%?

2. Jika Anda mempercayai jumlahnya, apakah ini berarti model ini bagus? Dengan kata lain, apakah model dengan akurasi bernilai 73% layak digunakan?

We will discus about this letter ^^... 

Comments