Attribute Selection with Information Gain




Now we are ready to apply our first concrete data mining technique! 

Yyeeaayyy ^^


Untuk dataset dengan contoh yang dijelaskan oleh atribut dan variabel target, kita dapat menentukan atribut mana yang paling informatif berkenaan dengan memperkirakan nilai dari variabel target. (Kita akan menyelidiki lebih dalam di bawah ini.) Kita juga dapat memberi peringkat satu set atribut berdasarkan keinformatifan mereka, khususnya oleh perolehan informasi mereka.

Ini dapat digunakan hanya untuk memahami data dengan lebih baik. Ini dapat digunakan untuk membantu memprediksi target. Atau dapat digunakan untuk mengurangi ukuran data yang akan dianalisis, dengan memilih subset atribut dalam kasus di mana kita tidak bisa atau tidak ingin memproses seluruh dataset.

Untuk mengilustrasikan penggunaan perolehan informasi, kami memperkenalkan dataset sederhana namun realistis yang diambil dari repositori dataset machine learning di University of California di Irvine. Ini adalah kumpulan data yang menjelaskan jamur yang dapat dimakan dan beracun yang diambil dari The Audubon Society Field Guide ke Jamur Amerika Utara. Dari uraian:

Dataset ini mencakup deskripsi sampel hipotetis yang sesuai dengan 23 spesies gilled mushrooms di Agaricus dan Lepiota Family (pp. 500–525). Setiap spesies diidentifikasi sebagai  yang dipastikan bisa dimakan, dipastikan beracun, atau tidak dapat diketahui dan tidak dianjurkan. Kelas terakhir ini dikombinasikan dengan yang beracun. Panduan tersebut dengan jelas menyatakan bahwa tidak ada aturan sederhana untuk menentukan edibility of a mushroom; no rule like “leaflets three, let it be” for Poisonous Oak and Ivy.

Setiap contoh data (instance) adalah salah satu contoh jamur, dijelaskan dalam hal atribut yang dapat diamati (the features). Dua puluh atribut dan nilai untuk masing-masing tercantum pada Tabel 3-1. Untuk contoh yang diberikan, setiap atribut mengambil satu nilai diskrit (misalnya, Gill-color =black). Kami menggunakan 5.644 contoh dari dataset, terdiri dari 2.156 jamur beracun dan 3.488 jamur yang dapat dimakan.

Ini adalah masalah klasifikasi karena kami memiliki variabel target, yang disebut edible?, dengan dua nilai ya (edible) dan tidak (poisonous), specifying our two classes. Setiap baris dalam set pelatihan memiliki nilai untuk variabel target ini. Kami akan menggunakan keuntungan informasi untuk menjawab pertanyaan: "Atribut tunggal mana yang paling berguna untuk membedakan jamur yang dapat dimakan (edible? = Ya) dari yang beracun (edible? = Tidak)?"

Ini adalah masalah pemilihan atribut dasar. Dalam masalah yang jauh lebih besar, kita dapat membayangkan memilih sepuluh atau lima puluh atribut terbaik dari beberapa ratus atau ribuan, dan sering kali Anda ingin melakukan ini jika Anda curiga ada terlalu banyak atribut untuk masalah penambangan Anda, atau banyak yang tidak berguna. Di sini, untuk kesederhanaan, kita akan menemukan satu-satunya atribut terbaik daripada sepuluh teratas.



Karena kita sekarang memiliki cara untuk mengukur perolehan informasi, ini mudah: kita meminta atribut tunggal yang memberikan perolehan informasi tertinggi. Untuk melakukan ini, kita  menghitung perolehan informasi yang dicapai dengan membagi pada setiap atribut. Keuntungan informasi dari Persamaan 3-2 didefinisikan pada parent dan satu set children. Induk dalam setiap kasus adalah seluruh dataset. Pertama kita membutuhkan entropi (induk), entropi dari seluruh dataset. Jika kedua kelas sempurna seimbang dalam dataset itu akan memiliki entropi 1. Dataset ini sedikit tidak seimbang (more edible than poisonous mushrooms are represented) dan entropinya adalah 0,96.

Untuk mengilustrasikan reduksi entropi secara grafis, kami akan menampilkan sejumlah grafik entropi untuk domain jamur (Gambar 3-6 hingga Gambar 3-8). Setiap grafik adalah deskripsi dua dimensi dari seluruh entropi dataset karena dibagi dalam berbagai cara oleh atribut yang berbeda. Pada sumbu x adalah proporsi dataset (0 hingga 1), dan pada sumbu y adalah entropi (juga 0 hingga 1) dari bagian data tertentu. Jumlah daerah yang diarsir dalam setiap grafik mewakili jumlah entropi dalam dataset ketika dibagi oleh beberapa atribut yang dipilih (atau tidak dibagi, dalam kasus Gambar 3-6). Our goal of having the lowest entropy corresponds to having as little shaded area as possible.

Grafik pertama, Gambar 3-6, menunjukkan entropi seluruh dataset. Dalam bagan semacam itu, entropi yang paling tinggi sesuai dengan seluruh area yang diarsir; entropi terendah yang mungkin sesuai dengan seluruh area menjadi putih. Bagan semacam ini berguna untuk memvisualisasikan perolehan informasi dari berbagai partisi suatu dataset, karena setiap partisi dapat ditampilkan hanya sebagai irisan grafik (dengan lebar yang sesuai dengan proporsi dataset), masing-masing dengan entropinya sendiri. Jumlah entropi yang terbobot dalam perhitungan perolehan informasi akan digambarkan hanya dengan jumlah total area yang diarsir.




Untuk seluruh dataset kami, entropi global adalah 0,96, jadi Gambar 3-6 menunjukkan area yang diarsir besar di bawah garis y = 0,96. Kita dapat menganggap ini sebagai entropi awal kita semua atribut informatif harus menghasilkan grafik baru dengan area yang kurang diarsir. Sekarang kami menunjukkan grafik entropi dari tiga atribut sampel. Setiap nilai atribut terjadi dalam dataset dengan frekuensi yang berbeda, jadi setiap atribut membagi set dengan cara yang berbeda.

Gambar 3-7 menunjukkan dataset terpisah oleh atribut GILL-COLOR, yang nilainya dikodekan sebagai y (kuning), u (ungu), n (coklat), dan seterusnya. Lebar masing-masing atribut mewakili berapa proporsi dataset yang memiliki nilai tersebut, dan tingginya adalah entropinya. Kita dapat melihat bahwa GILL-COLOR mengurangi entropi sedikit; daerah yang diarsir pada Gambar 3-7 jauh lebih sedikit daripada area pada Gambar 3-6.



Demikian pula, Gambar 3-8 menunjukkan bagaimana SPORE-PRINT-COLOR mengurangi ketidakpastian (entropi). Beberapa nilai, seperti h (coklat), menentukan nilai target dengan sempurna dan dengan demikian menghasilkan zero-entropy bars. Tetapi perhatikan bahwa mereka tidak memperhitungkan sangat banyak populasi, hanya sekitar 30%.

Gambar 3-9 menunjukkan grafik yang dihasilkan oleh ODOR (bau/aroma). Banyak nilai, seperti (almond), c (creosote), dan m (musty) menghasilkan partisi nol-entropi; hanya n (tidak ada bau) memiliki entropi yang cukup besar (sekitar 20%). Bahkan, ODOR memiliki perolehan informasi tertinggi dari setiap atribut dalam dataset Jamur. Ini dapat mengurangi total entropi dataset menjadi sekitar 0,1, yang memberikannya gain informasi 0,96 - 0,1 = 0,86. What is this saying? Banyak bau yang benar-benar merupakan karakteristik jamur beracun atau yang dapat dimakan, sehingga bau adalah atribut yang sangat informatif untuk diperiksa ketika mempertimbangkan mashroom edibility.

Jika Anda akan membuat model untuk menentukan edibilitas jamur hanya menggunakan satu fitur, Anda harus memilih baunya. Jika Anda akan membangun model yang lebih kompleks, Anda mungkin mulai dengan atribut ODOR sebelum mempertimbangkan menambahkan yang lain. Sebenarnya, ini persis topik dari bagian selanjutnya.



Comments