21 Agustus 2019

Aplikasi WEKA Dapat Digunakan Untuk Melakukan Klasifikasi Dengan Algoritma J48

Data Mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu basis data yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Data Mining banyak diterapkan di berbagai bidang keilmuan seperti artificial intelligent, machine learning, statistik dan basis data. Klasifikasi adalah proses penemuan model atau fungsi yang menggambarkan dan membedakan kelas data atau konsep yang bertujuan agar bisa digunakan untuk melakukan prediksi kelas dari objek yang label kelas-nya tidak diketahui. Algoritme Decision Tree J48 adalah salah satu jenis classifier pada metode klasifikasi data mining dan bagian dari C4.5 decision tree sederhana. Klasifikasi merupakan suatu proses menemukan kumpulan pola atau fungsi yang mendeskripsikan serta memisahkan kelas data yang satu dengan yang lainnya untuk menyatakan objek tersebut masuk pada kategori tertentu. C4.5 membuat sebuah decision tree berdasarkan pada seperangkat input data yang berlabel. Decision tree adalah model prediksi menggunakan struktur pohon atau struktur hierarki. Konsep dari decision tree adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan. Decision tree terdiri dari node dan leaf nodes. Node akan melakukan test pada attribute dan leaf adalah kelas dari klasifikasi. Algoritma J48 merupakan algoritma yang menerapkan algoritma C4.5 dalam bahasa java. Algoritma ini di implementasikan ke dalam aplikasi WEKA.

Klasifikasi data terdiri dari 2 langkah proses, yang Pertama adalah learning (fase training), dimana algoritma klasifikasi dibuat untuk menganalisis data training, lalu direprestasikan dalam bentuk rule klasifikasi. Proses yang Kedua adalah klasifikasi, dimana data tes digunakan untuk memperkirakan atau memperkirakan akurasi dari rule klasifikasi. Algoritme J48 mengabaikan missing value yaitu nilai untuk item yang dapat diperkirakan berdasarkan apa yang diketahui tentang nilai-nilai atribut pada baris lainnya. Ide dasar dari algoritme ini adalah untuk membagi data ke dalam jangkauan berdasarkan nilai atribut untuk item yang ditemukan dalam training data set. Algoritma J48 memungkinkan klasifikasi baik melalui pohon keputusan atau-pun aturan yang dihasilkan dari pembentukan klasifikasi. Pemilihan atribut pada algoritma ini berdasarkan pada asumsi bahwa kerumitan yang dimiliki oleh pohon keputusan sangat berkaitan erat dengan jumlah informasi yang diberikan oleh nilai-nilai atributnya.

Masalah-masalah yang sesuai untuk diselesaikan dengan teknik data mining dapat dirincikan dengan lima poin berikut, yaitu: Pertama, memerlukan keputusan yang bersifat knowledge-based. Kedua, mempunyai lingkungan yang berubah-ubah. Ketiga, metode yang ada saat ini bersifat sub-optimal. Keempat, ketersediaan data yang bisa di akses, cukup dan relevan. Kelima, memberikan keuntungan yang tinggi ketika keputusan yang diambil tepat.

Algoritma J48 termasuk dalam metode klasifikasi dengan berbasis divide and conquer. S ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan pada tahun 1993 dengan memanfaatkan Teori Informasi atau Information Theory milik Shanon. ID3 merupakan singkatan dari Iterative Dichotomiser 3. Algoritma C4.5 merupakan pengembangan dari ID3. Perangkat lunak WEKA mempunyai versi sendiri C4.5 yang dikenal sebagai J48. Proses Algoritma C4.5 terdiri dari pemilihan atribut sebagai akar (root), membuat cabang untuk tiap nilai, membagi kasus ke dalam cabang, mengulangi proses pada tiap cabang hingga semua cabang memiliki kelas yang sama. Decision Tree J48 merupakan implementasi algoritma C4.5 pada perangkat lunak Weka yang berfungsi sebagai pemisah obyek. Decision Tree atau pohon keputusan banyak dikenal sebagai bagian dari Graph yang termasuk bagian bidang ilmu otomata dan teori bahasa serta matematika diskrit. Decision Tree sendiri merupakan graf tak-berarah yang terhubung, serta tidak mengandung sirkuit.

Klasifikasi data terdiri dari 2 langkah proses, yang Pertama adalah learning (fase training), dimana algoritma klasifikasi dibuat untuk menganalisis data training, lalu direprestasikan dalam bentuk rule klasifikasi. Proses yang Kedua adalah klasifikasi, dimana data tes digunakan untuk melakukan prediksi atau memperkirakan akurasi dari rule klasifikasi. Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi atau formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak pada algoritma yang makin lengkap dan canggih, keberhasilan data mining tetap terletak pada faktor pengetahuan manusia. Jadi, ketika ingin melakukan klasifikasi dengan menggunakan WEKA, akan ada empat pilihan yang disebut dengan test options. Test options ini digunakan untuk menguji hasil klasifikasi yang telah dilakukan. Keempat Test Option tersebut adalah Use training set, Supplied test set, Cross-validation dan Percentage split. Dalam algortima C4.5 digunakan Information gain untuk memilih atribut yang akan digunakan untuk pemisahan obyek.

Penambangan data atau data mining adalah serangkaian proses untuk menggali nilai tambah dari sekumpulan data berupa informasi yang selama ini tersembunyi dibalik data atau tidak diketahui. Pengumpulan data yang berkualitas dan informasi pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin akurasi formulasi yang diharapkan. Dalam prosedur algoritma ID3, input berupa sampel training, label training dan atribut. Decision tree digunakan karena semakin sedikit kategori data maka semakin tinggi akurasi pada metode ini. C4.5 merupakan pengembangan dari ID3 yang memiliki beberapa kemampuan tambahan seperti: mampu menangani atribut dengan tipe diskrit atau kontinu, mampu menangani atribut yang kosong (missing value) dan bisa memangkas cabang. Untuk menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat cabang pohon, digunakan-lah teori informasi.

Empat tombol berikut adalah tombol-tombol yang perlu diperhatikan ketika mempelajari aplikasi perangkat lunak WEKA, yaitu: Explorer, Experimenter, Knowledge Flow dan Simple CLI. Explorer digunakan untuk menggali lebih jauh data dengan aplikasi WEKA. Experimenter digunakan untuk melakukan percobaan dengan pengujian statistik skema belajar. Knowledge Flow digunakan untuk pengetahuan pendukung. Simple CLI merupakan antar muka dengan menggunakan tampilan command-line yang memungkinkan pengguna WEKA untuk mengeksekusi perintah weka.

J48 merupakan salah satu algoritma yang terdapat pada perangkat lunak aplikasi WEKA untuk melakukan klasifikasi suatu data sehingga diperoleh informasi berguna. Aplikasi WEKA tersebut dikembangkan oleh Universitas Waikato sebagai pilihan perangkat lunak statistik yang lengkap. Proses tahapan algoritma J48 terdiri dari lima langkah atau tahapan, yaitu pertama, Menyiapkan data training. Kedua, Menentukan akar pohon. Ketiga, menghitung nilai Gain melalui Persamaan. Keempat, Ulang langkah kedua hingga semua tupel ter-partisi dengan menggunakan Persamaan kedua. Dan kelima, proses partisi pohon keputusan akan berhenti saat semua tupel dalam node N mendapat kelas yang sama dan atau tidak ada atribut di dalam tupel yang di partisi lagi dan atau tidak ada tupel di dalam cabang yang kosong.