04 September 2019

Clustering Data-set Dengan Salah Satu Metode Non-Hierarki Bernama Mixture Modelling

Metode ini memodelkan atau mengelompokkan data-data di dalam suatu data-set menjadi kelompok-kelompok data yang sebelumnya tidak ter-definisikan. Analisis data menggunakan mixture modelling menghasilkan analisis berupa jumlah kelompok di dalam model tersebut, persentase data di dalam setiap kelompok relatif terhadap jumlah keseluruhan data, parameter yang menerangkan setiap kelompok yang ditemukan dan keterangan data-data yang tercakup di setiap kelompok. Mixture modelling yang juga disebut dengan istilah-istilah lain seperti clustering, intrinsic classification dan numerical taxonomy, mengelompokkan data-data di dalam suatu data-set menjadi kelompok-kelompok data yang sebelumnya tidak ter-definisikan. Metode ini mengasumsikan bahwa keseluruhan individu adalah campuran dari G sebaran peluang, mewakili G gerombol, dimana masing-masing sebaran secara khas mempunyai parameter sebaran. Model-based clustering mengasumsikan bahwa data dibangkitkan oleh campuran dari sebaran peluang dengan masing-masing komponen mewakili kelompok berbeda, sehingga dapat mengelompokkan individu di dalam suatu data-set menjadi kelompok-kelompok data yang sebelumnya tidak ter-definisi. Apabila model merupakan mixture dari G komponen Gaussian, maka disebut Gaussian Mixture Models.

Pada tahun 1894 Karl Pearson dari negara Inggris menulis tentang teori Mixture Modelling untuk menganalisis pengaruh dahi terhadap panjang tubuh pada populasi kepiting pantai. Inspirasi tersebut diperoleh dari hasil pemikiran Walter Frank Raphael Weldon pada tahun 1983. David Dowe dengan beberapa peneliti lainnya mengembangkan program Mixture Modelling Snob yang menggunakan prinsip Minimum Message Length dalam pemodelannya. David Dowe Mixture Modelling Page memuat link yang lengkap terkait Mixture Modelling dan orang-orang yang terlibat penelitian Mixture Modelling. Beberapa peneliti lainnya yang populer adalah Geoff McLachlan meneliti tentang EMMIX, Peter Cheeseman meneliti AutoClass, Chris Fraley meneliti tentang MClust, Murray Jorgensen meneliti tentang MultiMix dan masih banyak lagi peneliti lain. Halaman website tersebut dapat di akses melalui alamat http://users.monash.edu/~dld/cluster.html.

Clustering adalah metode analisis data yang sering dimasukkan sebagai salah satu metode Data Mining, tujuannya adalah untuk mengelompokkan data dengan karakter yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakter berbeda ke ‘wilayah’ yang lain. Ada beberapa pendekatan yang digunakan dalam mengembangkan metode clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan hierarki. Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering mengelompokkan data dengan memilah data yang dianalisis ke dalam cluster-cluster yang ada. Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering mengelompokkan data dengan membuat suatu hierarki berupa dendogram, data yang mirip akan ditempatkan pada hierarki yang berdekatan dan yang tidak mirip ditempatkan pada hierarki yang berjauhan. Di samping kedua pendekatan tersebut, ada juga clustering dengan pendekatan automatic mapping, metode tersebut bernama Self-Organising Map atau SOM. Mixture modelling merupakan metode pengelompokan data dengan kelebihan menggunakan distribusi statistik dalam mendefinisikan setiap cluster yang ditemukan. Penggunaan distribusi statistik menjadikannya dapat digunakan untuk memodelkan data dengan pengaturan karakter yang berbeda-beda. Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan seiring dengan proses pemodelan karakteristik masing-masing cluster. Hasil pemodelan clustering yang dilaksanakan juga bisa diuji tingkat akurasi-nya.

Secara umum terdapat dua metode pengelompokan, yaitu metode hierarki dan metode non-hierarki. Metode hierarki dimulai dengan mengelompokkan dua atau lebih objek yang mempunyai kesamaan paling dekat, kemudian berlanjut pada objek selanjutnya sehingga kelompok terlihat membentuk hierarki yang jelas antar objek, hasilnya dapat digambarkan melalui dendogram. Metode hierarki digunakan bila banyaknya kelompok yang akan dibentuk tidak diketahui sebelumnya dan banyaknya amatan tidak terlalu besar. Sedangkan pada metode non-hierarki, proses pengelompokan dimulai dengan terlebih dahulu menentukan jumlah kelompok. K-means merupakan metode non-hierarki yang paling banyak digunakan. Metode non-hierarki lainnya adalah metode pengelompokan dengan menggunakan mixture model. Mixture model dapat diterapkan pada data kategorik, kontinyu maupun keduanya, metode ini juga dapat mengidentifikasi pencilan dan pemilihan kelompok berdasarkan kriteria tertentu. K-means menggunakan jarak metrik dalam mendefinisikan setiap kelompok yang terbentuk, sedangkan metode pengelompokan berdasarkan mixture model menggunakan distribusi statistik dalam mendefinisikan setiap kelompok yang terbentuk. Model-based clustering ini bertujuan untuk mengoptimalkan kemiripan antara individu dengan menggunakan pendekatan model probabilistik. Pendekatan tersebut dapat menggambarkan representasi data yang dimiliki dengan menerapkan pengaturan karakter yang berbeda-beda dan menentukan jumlah kelompok yang sesuai dengan data seiring proses pemodelan karakteristik dari masing-masing kelompok tersebut.

Ketika melakukan mixture modelling, penentuan jumlah kelompok yang paling sesuai untuk data-set yang sedang dianalisis merupakan masalah yang cukup kompleks. Untuk bisa melaksanakan proses tersebut, keseimbangan antara kesempurnaan suatu model dengan pas tidaknya suatu model terhadap data yang dianalisis harus benar-benar terjaga. Dengan kata lain, model yang dipilih untuk suatu data-set haruslah cukup sempurna agar bisa mencakup semua informasi yang terkandung di dalam data-set tersebut, tetapi tidak harus terlalu sempurna agar tidak mengalami permasalahan over-fit. Banyak teori yang telah digunakan dalam perkembangan metode ini, termasuk diantaranya Minimum Message Length (MML), Maximum Likelihood (ML), Akaike Information Criterion (AIC), Bayesian Information Criterion (BIC), Maximum A Posterior (MAP) dan Markov Chain Monte Carlo (MCMC). Teori-teori tersebut juga telah diterapkan menjadi paket-paket program pengelompokan data, contohnya SNOB yang menggunakan MML dalam proses penentuan parameter dan pemilihan model. EMMIX menggunakan ML untuk perhitungan parameter dan AIC serta BIC untuk pemilihan model. MCLUST yang juga menggunakan ML untuk penentuan parameter dan BIC untuk pemilihan model.

MClust adalah paket perangkat lunak yang dapat di tambahkan ke Rstudio, WEKA, SPSS, Matlab dan Octave. Paket Mclust perlu ditambahkan agar dapat dimanfaatkan untuk melakukan analisis Mixture Modelling. Untuk menggunakan paket perangkat lunak tersebut, pengguna harus melakukan instalasi salah satu perangkat lunak Rstudio atau WEKA atau SPSS atau Matlab atau Octave terlebih dahulu. Setelah itu paket perangkat lunak Mclust baru dapat ditambahkan. Paket perangkat lunak Mclust dapat diperoleh dari website https://cran.r-project.org/web/packages/mclust/index.html. Pengguna perangkat lunak dapat menambahkan paket perangkat lunak tambahan lebih dari satu. Contohnya, Matlab dapat ditambahkan paket perangkat lunak tambahan Mclust dan GMM secara bersamaan. Tidak ada keharusan untuk menghapus salah satu paket perangkat lunak tambahan ketika ingin menambahkan suatu paket perangkat lunak tambahan yang lain ke dalam perangkat lunak Matlab, Octave atau SPSS.