03 September 2019

Algoritma C4.5 merupakan Pengembangan Dari Algoritma Decision Tree ID3

Algoritma C4.5 atau atau Classification version 4.5 merupakan kelompok algoritma Decision Tree. Decision Tree merupakan metode klasifikasi untuk melakukan berbagai analisis yang sangat terkenal. Pohon keputusan juga berguna untuk melakukan mengeksplorasi data dan menemukan hubungan tersembunyi antara sejumlah calon variabel masukan dengan sebuah variabel target. Algoritma Decission Tree juga dikenal dengan nama Pohon Keputusan. Algoritma C4.5 mempunyai masukan berupa training samples dan samples. Training samples adalah data contoh yang digunakan untuk membangun sebuah tree yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang nantinya akan digunakan sebagai parameter ketika melakukan klasifikasi data. Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan training samples yang telah tersedia. Algoritma C 4.5 merupakan pengembangan dari ID3, kedua algoritma tersebut dibuat oleh Ross Quinlan. Pengembangan yang dilakukan pada C4.5 adalah bisa menangani missing value, bisa menangani continue-data, dan pruning. Algoritma C4.5 adalah algoritma yang sudah banyak dikenal dan digunakan untuk klasifikasi data yang memiliki atribut-atribut numerik dan kategori. Setelah dilakukan klasifikasi dengan pohon keputusan maka data masukan yang bersifat heterogen berubah menjadi lebih homogen. Proses klasifikasi tersebut dapat dilakukan secara manual atau otomatis. Untuk melakukan klasifikasi C4.5 secara otomatis diperlukan alat bantu tambahan berupa perangkat lunak komputer.

Pohon Keputusan merupakan metode klasifikasi dan perkiraan yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang mengekspresikan aturan. Aturan-aturan tersebut dapat dengan mudah dipahami dengan bahasa alami. Aturan tersebut juga dapat direfleksikan dalam bentuk bahasa basis data seperti SQL untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel masukan dengan sebuah variabel target. Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan ini sangat bagus digunakan sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Proses mengubah data masukan menjadi sebuah pohon keputusan secara manual relatif lebih sulit dan memerlukan waktu lebih lama. Apalagi jika data yang menjadi objek penelitian berukuran sangat besar. Risiko terburuk membuat pohon keputusan secara manual dengan data masukan berukuran besar ialah membutuhkan waktu penyelesaian yang lama atau bahkan pengamatan yang dilakukan mengalami kegagalan karena objek pengamatan terlalu rumit. Dengan alat bantu perangkat lunak aktivitas tersebut menjadi lebih mudah dilaksanakan. Sehingga kemungkinan keberhasilan pengamatan yang dilakukan menjadi lebih besar. Hasil pengamatan yang dilakukan dengan perangkat lunak juga lebih bagus daripada hasil pengamatan yang dilakukan secara manual.

Algoritma C4.5 merupakan generasi baru dari algoritma ID3 yang dikembangkan oleh J.Ross Quinlan dari negara Australia. Agoritma C4.5 dikembangkan oleh J. Ross Quinlan pada tahun 1983. Algoritma ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan pada tahun 1979, dengan memanfaatkan teori informasi atau Information Theory milik Shanon. ID3 merupakan singkatan dari Iterative Dichotomiser 3. John Ross Quinlan adalah seorang peneliti ilmu komputer dalam Data Mining dan Decission Theori. Dia telah memberikan kontribusi secara luas pada pengembangan algoritma pohon keputusan, termasuk menciptakan algoritma kanonik C4.5 dan ID3. Saat ini belian menjalankan perusahaan RuleQuest Research yang ia dirikan pada 1997. Website personal John Ross Quinlan dapat di akses melalui alamat www.rulequest.com/Personal.

Algoritma yang dapat dipakai dalam pembentukan pohon keputusan,antara lain ID3, CART, dan C4.5. Sehingga dapat disimpulkan bahwa C4.5 merupakan salah satu jenis algortima klasifikasi untuk membuat pohon keputusan. Perangkat lunak yang dapat digunakan untuk melakukan percobaan klasifikasi pohon keputusan dengan algoritma C4.5 antara lain adalah WEKA, Rstudio, Octave, Matlab dan SPSS. Di lingkungan non-akademis algoritma tersebut juga dimanfaatkan untuk berbagai keperluan. Contohnya, algoritma tersebut dimanfaatkan untuk klasifikasi data pada basis data komputer sehingga pengguna komputer dapat mengetahui berbagai kategori pada basis data tersebut. Hasil proses klasifikasi yang berupa aturan-aturan dapat digunakan untuk membuat perkiraan nilai atribut berjenis diskret dari record yang baru. Seiring dengan berkembangnya teknologi penyimpanan data, semakin berkembang pula kemampuan seseorang dalam mengumpulkan dan mengolah data. Data yang terkumpul dan berukuran besar tersebut merupakan aset yang dapat dimanfaatkan untuk dianalisis yang hasilnya berupa pengetahuan atau informasi berharga untuk masa mendatang. Melihat kondisi tersebut diperlukan penelitian untuk menggali data yang dimiliki. Sehingga dibutuhkan suatu teknik klasifikasi yang merupakan salah satu teknik data mining untuk menganalisis data tersebut.

Pada saat membuat pohon keputusan, banyaknya cabang mencerminkan adanya noise atau outlier pada training data. Maka dari itu perlu dilakukan pembabatan pohon untuk mengenali dan menghapus cabang-cabang tersebut. Pohon yang di-pangkas akan menjadi lebih kecil dan lebih mudah dipahami. Dua metode dalam melakukan pembabatan pohon keputusan adalah Pre-pruning dan Post-pruning. Prepruning menghentikan proses pembuatan suatu subtree lebih awal, yaitu dengan memutuskan untuk tidak lebih jauh membagi data training. Pada prepruning, sebuah pohon di-pangkas dengan cara menghentikan pembangunannya jika partisi yang akan dibuat dianggap tidak signifikan. Postpruning menyederhanakan pohon dengan cara membuang beberapa cabang subtree setelah pohon selesai dibuat. Metode post-pruning merupakan metode standar untuk algoritma C4.5. Pembabatan pohon juga dapat digunakan untuk mengatasi over-fitting. Over-fitting juga terjadi karena adanya noise pada data training, yaitu data yang tidak relevan sehingga mengakibatkan pohon keputusan memiliki subtree yang panjang dan tidak seimbang. Misal internal node memiliki kelas YA berjumlah lima dan TIDAK berjumlah satu. Maka data yang berada pada kelas TIDAK merupakan noise, sehingga apabila data tersebut diolah akan menghasilkan pohon dengan subtree yang panjang. Overfitting juga dapat terjadi karena jumlah data training sedikit.

Algoritma C4.5 melalui empat tahapan utama untuk membuat sebuah pohon keputusan berdasarkan data yang dimiliki. Pertama, pilih atribut sebagai akar. Kedua, buat cabang untuk tiap-tiap nilai. Ketiga, bagi kasus dalam cabang. Keempat, mengulangi proses untuk setiap cabang sehingga semua kasus pada cabang memiliki kelas yang sama. Perangkat lunak seperti WEKA, Rstudio, Matlab, Octave dan SPSS telah menyediakan library untuk ditambahkan pada perangkat lunak tersebut agar dapat dimanfaatkan untuk melakukan pengamatan dengan algoritma C4.5. Contoh website yang sangat membantu proses pencarian data-set antara lain: archive.ics.uci.edu, data.go.id, data.oecd.org dan index.okfn.org. Agar dapat menyelesaikan pengamatan dengan baik, maka diperlukan pemahaman yang bagus tentang berbagai teori data mining, klasifikasi dan decission tree.