26 Agustus 2019

Data Dapat Diklasifikasi Dengan Cepat Menggunakan Algoritma Bernama NB-Tree

Salah satu metode untuk melakukan klasifikasi data adalah dengan menggunakan algoritma Decision Tree. Naïve Bayesian Tree Learner atau NBTree merupakan kombinasi dari klasifikasi Naïve Bayes dan decision tree learning. Decision Tree adalah sebuah struktur pohon, setiap node pohon merupakan representasi dari atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun merupakan representasi kelompok kelas tertentu. Level node ter-atas dari sebuah decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Decision Tree melakukan strategi pencarian solusi secara top-down. Salah satu algoritme percabangan decision tree adalah algoritme NBTree. Algoritme NBTree merupakan algoritme hasil gabungan teknik decision tree classifier dengan naïve-bayes classifier. Terdapat tiga jenis node pada decision tree, yaitu: Root Node, Internal Node dan Leaf Node. Root node merupakan node paling atas, node tersebut tidak memiliki input. Internal Node merupakan node percabangan. Pada node tersebut terdapat percabangan, setiap satu buah input memiliki output minimal dua. Leaf node atau terminal node merupakan node akhir. Pada node tersebut terdapat satu input dan tidak mempunyai output. Node leaf pada algoritma NBTree terkandung naïve-bayes classifier, selain node tersebut struktur NBTree sama dengan algoritma Decision Tree secara umum. Hasil klasifikasi NBTree dapat diterapkan di berbagai bidang, contohnya pendidikan, teknologi informasi dan pengolahan data.

Klasifikasi adalah salah satu teknik untuk menemukan model atau fungsi yang menjelaskan sekaligus membedakan kelas-kelas dengan tujuan agar model tersebut dapat digunakan untuk mengetahui informasi objek berdasarkan jenis pengelompokan tertentu. Model yang dihasilkan berasal dari hasil analisis pengolahan data. Dengan memberikan sekumpulan instance ke suatu node, algoritme NBTree akan melakukan evaluasi utility of split terhadap setiap atribut. Algoritma NB-Tree tergolong bagian dari metode klasifikasi pada Machine Learning yang memiliki tingkat akurasi tinggi. Selain itu algoritma tersebut juga telah banyak digunakan oleh ilmuwan dan ahli teknologi di berbagai bidang. Naive Bayes juga merupakan algoritma klasifikasi utama pada data mining dan banyak diterapkan dalam masalah klasifikasi di dunia nyata karena memiliki performa klasifikasi yang tinggi. Banyak ahli teknologi yang berpendapat bahwa NBTree merupakan salah satu algoritma yang praktis, mudah untuk dipelajari dan waktu untuk mengolah data pada basis data tergolong cepat.

Algoritma NBTree pertama kali di usulkan oleh Ron Kohavi dari Negara Kanada melalui makalah penelitian berjudul Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid. Pada saat itu mayoritas algoritma klasifikasi digunakan untuk mengamati basis data berskala kecil. Maka dari itu Ron Kohavi memiliki inisiatif untuk mengembangkan algoritma NBTree agar dapat dimanfaatkan untuk melakukan analisis pada basis data berukuran besar. Dalam ilmu statistik dan literatur sains komputer, model Naif Bayes juga dikenal dengan berbagai nama, termasuk Simple Bayes dan Independence Bayes. Semua nama tersebut merujuk pada penggunaan teori-teori Bayes dalam aturan melakukan klasifikasi, tetapi Naif Bayes bukanlah bagian dari metode Bayesian. NBTree adalah algoritma hybrid yang menggunakan Naif Bayes classifier pada setiap simpul dari pohon keputusan yang dibuat dan telah menunjukkan kinerja yang luar biasa. Algoritma tersebut dapat dimanfaatkan oleh orang dari berbagai latar belakang pendidikan, contohnya Ilmu Komputer, Sains dan Teknologi.

Data merupakan hal yang penting pada saat ini baik bagi perusahaan, pemerintahan, instansi, maupun individu yang ada. Kumpulan data yang ada dapat diolah menjadi suatu informasi yang berharga bagi setiap organisasi dan atau individu yang membutuhkannya. Salah satu kegunaan data yang terkumpul dalam bidang pendidikan adalah untuk membenahi dan meningkatkan kualitas pendidikan bagi mahasiswa. Data mining merupakan proses untuk mencari pola pada sekumpulan data besar sehingga diperoleh suatu pengetahuan. Dengan menggunakan beberapa metode seperti NBTree untuk classification, XMeans dan DBScan untuk clustering, maka dapat dilakukan percobaan untuk menerapkan metode-metode tersebut. Dari hasil analisis dengan classification diperoleh pola, dengan clustering diperoleh kelompok data (cluster). Pola dari tree yang terbentuk pada proses classification dan hasil pengelompokan data yang terbentuk pada proses clustering dapat memberikan hal yang bermanfaat untuk semua anggota universitas.

Dengan memberikan sekumpulan instance ke suatu node, algoritme NBTree akan melakukan evaluasi utility of split untuk setiap atribut. Jika utility terbesar dari semua atribut lebih tinggi dibanding utility yang dimiliki node yang sekarang, maka akan dilakukan pembagian instance-instance yang ada berdasarkan atribut tersebut. Utility of node dihitung dengan melakukan diskretisasi pada data yang ada dan menghitung perkiraan akurasi 5-fold cross validation dari penggunaan naïve-bayes di node tersebut. Sedangkan utility of split adalah jumlah bobot dari utility of node, bobot yang diberikan ke sebuah node sebanding dengan jumlah instance yang diturunkan node tersebut. NB-Tree telah banyak digunakan dan menjadi topik penelitian para ilmuwan dari berbagai penjuru dunia. Contoh penggunaan NB-Tree antara lain untuk melakukan klasifikasi teks, pendeteksian kecelakaan lalu lintas pada sistem Intelligence Transportation Systems dan Klasifikasi Penyakit untuk diagnosis penyakit.

Proses klasifikasi dibagi menjadi dua fase yaitu pelatihan dan pengujian. Pada fase pelatihan, data yang telah diketahui kelas data-nya (training set) digunakan untuk membentuk model. Selanjutnya pada fase testing, model yang sudah terbentuk diuji dengan sampel data lainnya sehingga tingkat akurasi dari model tersebut dapat diketahui. Jika tingkat akurasi yang dihasilkan memenuhi syarat maka model tersebut dapat dipakai untuk informasi sebagai masukan ketika melakukan perkiraan terhadap kelas data. Untuk menerapkan algoritma NB-Tree pada komputer diperlukan perlengkapan tambahan berupa perangkat lunak dan data-set. Contoh perangkat lunak yang dapat dimanfaatkan ialah WEKA (Waikato Environment for Knowledge Analysis), perangkat lunak tersebut dapat diperoleh melalui website dengan alamat www.cs.waikato.ac.nz. Data-set yang digunakan juga dapat diperoleh dari Internet. Contoh website yang menyediakan data-set yang boleh dimanfaatkan dengan bebas antara lain: http://archive.ics.uci.edu, https://www.kaggle.com dan https://www.kdnuggets.com. Tiga tahapan untuk melakukan percobaan tersebut adalah Use Training Set, Supplied Test Set dan Cross Validation. Ketiga tahapan tersebut dilakukan dengan bantuan perangkat lunak WEKA. Hasil pengujian juga ditampilkan melalui perangkat lunak tersebut.