30 Agustus 2019

Dataset Di Klasifikasi Dengan Metode CART Sehingga Menghasilkan Informasi Bernilai



Metodologi CART adalah suatu metode analisis diskriminan non-parametrik yang dirancang untuk menyajikan kaidah keputusan berbentuk pohon biner dengan cara membagi data pada learning sampel sesuai batasan linier uni-variat. Kata CART berasal dari singkatan Classification and Regression Tree. CART terdiri dari dua macam analisis yaitu classification tree dan regression tree. Analisis ini menghasilkan kelompok data hierarki yang dimulai dari node root untuk keseluruhan learning sampel dan berakhir pada kelompok kecil pengamatan yang homogen. CART merupakan metode non-parametrik yang tidak memberikan syarat asumsi distribusi sebagaimana pada metode parametrik lainnya. CART dapat menyeleksi variabel-variabel sekaligus interaksi-interaksi variabel yang penting untuk menentukan hasil atau variabel dependen-nya. CART menghasilkan suatu pohon klasifikasi jika variabel respons-nya kategorik, dan menghasilkan pohon regresi jika variabel respons-nya kontinu. Regresi logistik adalah salah satu metode statistik untuk menganalisis hubungan variabel respons yang memiliki skala nominal atau ordinat dengan variabel prediktor. Regresi logistik tidak memerlukan asumsi normalitas, meski screening data outliers tetap dapat dilakukan. Regresi logistik yang memiliki variabel respons dengan tiga atau lebih kategori yang memiliki tingkatan dinamakan regresi logistik ordinat. CART adalah suatu metode non-parametrik di-mana setelah didapatkan model klasifikasi-nya maka struktur data dapat dilihat secara visual, sehingga memudahkan untuk melakukan eksplorasi dan analisis. Proses kerja CART saat membuat sebuah pohon klasifikasi dikenal dengan istilah Binary Recursive Partitioning.

Metode klasifikasi CART merupakan metode non-parametrik yang berguna untuk mendapatkan suatu kelompok data akurat untuk digunakan sebagai faktor penentu dari suatu proses klasifikasi. Metode ini bekerja dengan mengelompokkan setiap pola atau data dalam sebuah kelas-kelas tertentu. Tujuan dari metode klasifikasi adalah untuk menemukan model yang dapat menjelaskan class attribute yang terdapat dalam suatu pola yang sudah dikelompokkan tersebut. Keuntungan penggunaan analisis CART adalah pertama, tidak memerlukan asumsi sebaran dan uji hipotesis. Kedua, tidak memerlukan variabel untuk dipilih sebelumnya. Ketiga sangat efisien. Keempat, dapat menangani data-set dengan struktur kompleks. Kelima, sangat tangguh dalam menangani outlier. keenam, dapat menggunakan sembarang kombinasi data numerik dan kategorik. Ketujuh, pergantian variabel tidak akan menyebabkan struktur pohon berubah. Klasifikasi pohon merupakan metode alternatif untuk memodelkan dan memperkirakan nilai variabel respons berjenis kategorik yang dipengaruhi variabel-variabel bebas berjenis kategorik, kontinyu atau kombinasi keduanya. Metode persoalan bisnis seperti Churn Analysis dan Risk Management biasanya lebih melibatkan metode klasifikasi dibandingkan regresi. CART lebih banyak digunakan karena memiliki kemudahan interpretasi dan memiliki kemampuan untuk melakukan penanganan data missing.

Metodologi CART pertama kali diperkenalkan pada tahun 1984 oleh empat ilmuwan dari negara Amerika Serikat, yaitu Leo Breiman, Jerome H. Friedman, Richard A. Olshen, dan Charles J. Stone. Leo Breiman adalah seorang profesor di bidang statistik yang aktif mengajar di University of California. Jerome Harold Friedman adalah ahli statistik, konsultan dan profesor statistik Amerika di Stanformad University. Jerome H. Friedman banyak dikenal oleh masyarakat karena memberikan kontribusi di bidang statistik dan data mining. Richard A. Olshen adalah seorang profesor Biomedical Data Science di Universitas Stanford. Sedangkan Charles J. Stone adalah seorang pengajar di University of Washington yang aktif menerbitkan buku. Buku-bukunya dapat dibeli melalui website amazon dengan alamat www.amazon.com.

Berbagai penelitian telah dilakukan untuk mencapai berbagai tujuan. Diantaranya mengetahui perbandingan metode klasifikasi antara CART dengan pembanding-nya. Selain itu, CART juga digunakan untuk menangani permasalahan dalam kehidupan sehari-hari. Perbandingan performa antara CART dengan metode pembanding berguna untuk mengetahui kelebihan dan kekurangan dari masing-masing metode yang dibandingkan. Sedangkan penanganan permasalahan dalam kehidupan yang telah berhasil diselesaikan dengan metode CART adalah berbagai permasalahan di bidang bisnis, pendidikan dan pembangunan daerah. Umumnya jumlah kasus minimum dalam suatu terminal akhir adalah lima, dan apabila hal itu terpenuhi maka pengembangan pohon dihentikan. Sedangkan jumlah kasus yang terdapat dalam simpul terminal homogen adalah kurang dari sepuluh. Pemberian label kelas pada simpul terminal dilakukan berdasarkan aturan jumlah terbanyak. Pemangkas pohon klasifikasi dilakukan dengan cara memangkas bagian pohon yang kurang penting sehingga pohon menjadi lebih optimal. Ukuran pemangkas yang digunakan untuk memperoleh ukuran pohon yang layak disebut dengan Cost complexity minimum.

Metode ini merupakan metode yang bisa diterapkan untuk himpunan data yang mempunyai jumlah besar dengan jumlah variabel yang sangat banyak. Ketika suatu kumpulan data yang terdiri dari beberapa variabel bebas dan sebuah variabel dependen, maka CART menghasilkan pohon klasifikasi, sedangkan jika variabel dependen yang dimiliki jenis numerik maka CART menghasilkan pohon regresi. Pada tahun 2009 Prasetyo membandingkan metode CART dan MARS dengan cara melakukan klasifikasi deteksi intrusi menggunakan pendekatan kedua metode tersebut. Hasil penelitian tersebut menunjukkan bahwa tingkat akurasi CART dalam mengidentifikasi ketepatan klasifikasi lebih tinggi dibandingkan dengan MARS. MARS merupakan singkatan dari Multivariate Adaptive Regression Splines. Istilah tersebut mengacu pada jenis analisis statistik regresi yang ditemukan oleh Jerome H. Friedman pada tahun 1991. Penelitian lain tentang CART pernah dilakukan oleh P. M. Kuhnert, Kim-Anh Do dan Rod McClure pada tahun 2000. Mereka meneliti tentang gabungan antara regresi logistik, CART dan MARS sehingga dapat menghasilkan model yang lebih baik. Dalam penelitian tersebut juga dijelaskan tentang penggunaan gabungan CART, MARS dan regresi logistik tidak hanya dapat digunakan untuk representasi data saja tetapi juga berfungsi sebagai alat eksplorasi untuk melakukan analisis yang lebih rinci.

Proses pembentukan CART terdiri dari tiga kelompok tahapan, yaitu Pembentukan klasifikasi pohon, memangkas pohon klasifikasi dan mengoptimalkan pohon klasifikasi. Proses pembentukan klasifikasi pohon meliputi 3 tahapan yaitu penentuan pemisah, simpul terminal dan label kelas. Tiga fungsi yang perlu diperhatikan pada tahap ini ialah fungsi heterogen, kriteria simpul dan kriteria Goodness of Split. Fungsi heterogen pada simpul dilakukan untuk meminimalkan sifat heterogen pada simpul utama dan menciptakan fungsi homogen pada simpul anak. Proses pembentukan pohon dilakukan terus sampai tidak memungkinkan lagi untuk dilanjutkan. Untuk mendapatkan pohon yang layak, maka perlu dilakukan pembabatan atau pruning, yaitu suatu penilaian ukuran pohon tanpa pengorbanan ketepatan atau kebaikannya melalui pengurangan simpul pohon sehingga dicapai ukuran pohon yang layak berdasarkan pada ukuran cost complexity pruning. Pohon klasifikasi optimal yang dipilih adalah pohon optimal yang berukuran tepat dan mempunyai nilai penduga pengganti yang cukup kecil. Ukuran pohon klasifikasi yang sangat besar akan memberikan nilai penduga pengganti yang sangat kecil, sehingga pohon ini cenderung dipilih untuk menduga nilai respons. Yang perlu diperhatikan adalah ukuran pohon yang besar akan cenderung kompleks karena struktur data yang digambarkan cenderung kompleks. Data sampel yang digunakan untuk mendapatkan nilai pengganti adalah data paling kecil dari pohon klasifikasi yang dipilih.