Visualizing Segmentations

Oke guys kali ini kita membahasa mengenai segmentasi berlanjut dari pembahasan sebelumnya dengan menggunakan Tree-Structured Models.. ^^

Melanjutkan dengan metafora pembuatan model prediktif sebagai segmentasi yang diawasi, adalah instruktif untuk memvisualisasikan dengan tepat bagaimana pohon klasifikasi memisah instance space. Instance space hanyalah ruang yang dijelaskan oleh fitur data. Bentuk umum visualisasi instance space adalah scatterplot pada beberapa fitur, digunakan untuk membandingkan satu variabel dengan variabel lainnya untuk mendeteksi korelasi dan hubungan.

Meskipun data mungkin berisi belasan atau ratusan variabel, hanya mungkin untuk memvisualisasikan segmentasi dalam dua atau tiga dimensi sekaligus. Namun, memvisualisasikan model dalam instance space dalam beberapa dimensi berguna untuk memahami berbagai jenis model karena memberikan wawasan yang berlaku untuk ruang dimensi yang lebih tinggi juga. Mungkin sulit untuk membandingkan keluarga model yang sangat berbeda hanya dengan memeriksa bentuknya (misalnya, rumus matematika versus sekumpulan aturan) atau algoritme yang menghasilkannya. Seringkali lebih mudah untuk membandingkannya berdasarkan bagaimana mereka mempartisi instance space.

Sebagai contoh, Gambar 3-15 menunjukkan pohon klasifikasi sederhana di samping grafik dua dimensi space instance: Balance pada sumbu x dan Umur pada sumbu y. Simpul akar dari pohon klasifikasi menguji Saldo terhadap ambang 50K. Dalam grafik, ini sesuai dengan garis vertikal pada 50K pada sumbu x yang memisahkan plane into Balance <50K dan Balance≥50K. Di sebelah kiri baris ini terdapat contoh-contoh yang nilainya kurang dari 50K; ada 13 contoh kelas Write-off (titik hitam) dan 2 contoh kelas non-Write-off (tanda tambah) di wilayah ini.

Di cabang kanan dari simpul akar adalah instance dengan Balance≥50K. Simpul berikutnya dalam pohon klasifikasi menguji atribut Umur terhadap ambang 45. Dalam grafik ini sesuai dengan garis putus-putus horisontal pada Umur = 45. Hanya muncul di sisi kanan grafik karena partisi ini hanya berlaku untuk contoh dengan Balance≥50. Node keputusan Umur menetapkan ke contoh cabang kirinya dengan Usia <45, sesuai dengan segmen kanan bawah grafik, yang mewakili: (Balance≥50K DAN Usia <45

Perhatikan bahwa setiap node internal (keputusan) sesuai dengan pemisahan ruang instance. Setiap simpul daun berkoresponden dengan wilayah yang tidak dapat dicabut dari ruang (segmen populasi). Setiap kali kita mengikuti jalan di pohon keluar dari simpul keputusan kita \ membatasi perhatian ke salah satu dari dua (atau lebih) sub-wilayah yang didefinisikan oleh perpecahan. Ketika kita turun melalui pohon klasifikasi, kita mempertimbangkan subregion progresif dari ruang contoh.

Garis keputusan dan hyperplanes Garis yang memisahkan daerah dikenal sebagai garis keputusan (dalam dua dimensi) atau lebih umum permukaan keputusan atau batas-batas decisio. Setiap node dari pohon klasifikasi menguji variabel tunggal terhadap nilai tetap sehingga batas keputusan yang sesuai dengan itu akan selalu tegak lurus terhadap sumbu yang mewakili variabel ini. Dalam dua dimensi, garis akan menjadi horisontal atau vertikal. Jika data memiliki tiga variabel ruang contoh akan menjadi tiga dimensi dan setiap permukaan batas yang dikenakan oleh pohon klasifikasi akan menjadi bidang dua dimensi. Dalam dimensi yang lebih tinggi, karena setiap node dari pohon klasi ﬁ kasi menguji satu variabel mungkin dianggap sebagai "memperbaiki" satu dimensi dari batas keputusan; Oleh karena itu, untuk masalah n variabel, setiap node dari pohon klasifikasi memaksakan batas keputusan "hyperplane" dimensi (n – 1) pada ruang contoh. Anda akan sering melihat istilah hyperplane yang digunakan dalam literatur penambangan data untuk merujuk ke permukaan pemisah umum, apa pun itu. Jangan terintimidasi oleh terminologi ini. Anda selalu bisa menganggapnya sebagai generalisasi garis atau pesawat. Permukaan keputusan lainnya dimungkinkan, seperti yang akan kita lihat nanti.

Trees as Sets of Rules

Sebelum pindah dari interpretasi pohon klasifikasi, kita harus menyebutkan interpretasi mereka sebagai pernyataan logis. Pertimbangkan lagi pohon yang ditunjukkan di bagian atas Gambar 3-15. Anda mengklasifikasikan contoh unseen baru dengan memulai di simpul akar dan mengikuti uji atribut ke bawah sampai Anda mencapai simpul daun, yang menentukan kelas prediksi instance. Jika kita menelusuri satu jalur dari simpul akar ke daun, mengumpulkan kondisi saat kita pergi, kita menghasilkan aturan. Setiap aturan terdiri dari tes atribut di sepanjang jalur yang terhubung dengan AND. Mulai dari simpul akar dan memilih cabang kiri pohon, kita mendapatkan aturan:

IF (Balance < 50K) AND (Age < 50) THEN Class=Write-off We can do this for every possible path to a leaf node.

Dari pohon ini kita mendapatkan tiga aturan lagi:

IF (Balance <50K) DAN (Usia ≥ 50) THEN Class = No Write-off

IF (Balance ≥ 50K) DAN (Usia <45) THEN Class = Write-off

IF (Balance ≥ 50K) AND (Usia <45) THEN Class = No Write-off

Pohon klasifikasi setara dengan set aturan ini. Jika aturan ini terlihat berulang, itu karena mereka: pohon mengumpulkan awalan aturan bersama bersama menuju bagian atas pohon. Setiap pohon klasifikasi dapat dinyatakan sebagai seperangkat aturan dengan cara ini. Apakah pohon atau kumpulan aturan lebih dapat dimengerti adalah masalah pendapat; dalam contoh sederhana ini, keduanya cukup mudah dimengerti. Ketika model menjadi lebih besar, beberapa orang akan lebih memilih pohon atau kumpulan aturan.

Nopi Nurhayati

Search This Blog