30 Agustus 2019

Data Mining Memiliki Algoritma Clustering Populer Bernama K-Means Clustering



Pengertian clustering dalam keilmuan data mining adalah pengelompokan sejumlah data atau objek ke dalam cluster atau grup atau kelompok, sehingga setiap kelompok tersebut berisi data yang mirip, dan data tersebut berbeda dengan objek yang berada di dalam kelompok lainnya. Mengelompokkan data ke dalam suatu kelompok dapat dilakukan dengan cara menghitung jarak terdekat dari suatu data ke sebuah titik centroid. Metode K-Means Clustering berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, data yang berada dalam satu kelompok mempunyai ciri-ciri yang sama satu sama lainnya dan data yang berada dalam kelompok berbeda mempunyai ciri-ciri yang berbeda. Dengan kata lain, metode K-Means Clustering bertujuan untuk meminimalkan objective function yang di setel dalam proses clustering dengan cara meminimalkan variasi antar data yang ada di dalam suatu kelompok dan mengoptimalkan variasi data yang berada di kelompok lain. Untuk mengoptimalkan fungsi pengelompokan pada suatu percobaan, algoritma K-means juga dapat digabungkan dengan berbagai algoritma lain, contohnya hierarchical clustering, K-means++ dan K-medoids. Setiap algoritma memiliki ciri-ciri yang dapat memudahkan proses pengamatan, tetapi algoritma tersebut juga memiliki kekurangan yang dapat menghambat proses pengamatan, sehingga kekurangan dan kelebihan algoritma yang ingin diterapkan sebaiknya dipelajari terlebih dahulu sebelum memulai proses percobaan.

Ada beberapa kelebihan pada algoritma k-means, yaitu mudah untuk di implementasi dan dijalankan. Waktu yang dibutuhkan untuk menjalankan pembelajaran juga relatif cepat. Dan yang terakhir algoritma tersebut mudah untuk diadaptasi dan telah umum digunakan oleh akademisi dan ilmuwan dari berbagai bidang keilmuan. Selain memiliki beberapa kelebihan, namun Algoritma tersebut juga memiliki kekurangan. Kekurangan dari algoritma tersebut adalah sebelum algoritma dijalankan, beberapa buah titik di inisialisasi secara acak sehingga pengelompokan data yang dihasilkan dapat berbeda-beda. Jika nilai acak untuk inisialisasi kurang baik, maka pengelompokan yang dihasilkan pun menjadi kurang optimal. Kelemahan kedua, k-means dapat terjebak dalam masalah yang disebut curse of dimensionality. Hal ini terjadi jika data pelatihan memiliki dimensi yang sangat tinggi. Contohnya jika data pelatihan terdiri dari dua atribut maka dimensi atribut tersebut adalah dua dimensi. Sehingga jika ada dua puluh atribut, maka akan terdapat dua puluh dimensi. Salah satu cara kerja algoritma k-means adalah mencari jarak terdekat antara sejumlah titik dengan titik lainnya. Ketika mencari jarak antar titik dua dimensi, masih mudah untuk dilakukan. Tetapi mencari jarak antar titik ketika terdapat dua puluh dimensi tentu saja menjadi sulit. Kelemahan ketiga, proses pencarian jarak terdekat tersebut dapat dipercepat, namun dibutuhkan struktur data yang lebih rumit seperti KD-Tree atau Hashing.

K-Means merupakan metode data clustering yang tergolong sebagai metode klasifikasi yang bersifat unsupervised. Kategori metode-metode klasifikasi data antara supervised dan unsupervised classification didasarkan pada adanya data-set yang data barangnya sudah sejak awal mempunyai label kelas atau tidak. Untuk data yang sudah mempunyai label kelas, metode klasifikasi yang digunakan merupakan metode supervised classification dan untuk data yang belum mempunyai label kelas, metode klasifikasi yang digunakan adalah metode unsupervised classification. Selain mengoptimalkan pengelompokan data ke masing-masing cluster, data clustering juga mengasosiasikan penentuan jumlah cluster yang paling tepat untuk data yang dianalisis. Kedua jenis K-Means, baik Hard K-Means dan Fuzzy K-Means umumnya dilakukan secara supervised atau ditentukan dari awal oleh pengguna, walaupun dalam penerapan-nya ada beberapa metode yang sering dipasang-kan dengan metode K-Means. Karena secara teori metode penentuan jumlah cluster ini tidak sama dengan metode pengelompokan yang dilakukan oleh K-Means, keabsahan jumlah cluster yang dihasilkan umumnya masih dipertanyakan. Melihat keadaan pengguna sering menentukan jumlah cluster sendiri secara terpisah, baik itu dengan menggunakan metode tertentu atau berdasarkan pengalaman, kedua metode K-Means ini dapat disebut sebagai metode semi-supervised classification, karena metode ini mengalokasikan data barang ke masing-masing cluster secara unsupervised dan penentuan jumlah cluster yang paling sesuai dengan data yang dianalisis dilakukan secara supervised.

Lima ciri-ciri K-Means yang menjadikan algoritma tersebut banyak dipilih adalah pertama, K-Means sangat cepat dalam proses clustering. Kedua K-Means sangat sensitif pada pembangkitan centroid awal secara acak. Ketiga, memungkinkan suatu cluster tidak mempunyai anggota, Keempat, hasil clustering dengan K-Means bersifat selalu berubah-ubah, maksudnya hasilnya terkadang baik tetapi terkadang jelek. Kelima, K-means sangat sulit untuk mencapai global optimum. Memperhatikan masukan dalam algoritma K-Means, dapat dikatakan bahwa algoritma ini hanya mengolah data kuantitatif atau numerik. Sebuah basis data tidak mungkin hanya berisi satu macam tipe data saja, akan tetapi beragam tipe. Sebuah basis data dapat berisi data-data dengan tipe sebagai berikut: biner, nominal, ordinat, interval dan rasio. Berbagai macam atribut dalam basis data yang berbeda tipe disebut sebagai data multivariate. Tipe data seperti nominal dan ordinat harus diolah terlebih dahulu menjadi data numerik agar dapat diberlakukan algoritma K-Means dalam pembentukan cluster-nya.

Sebagai bagian dari algoritma clustering, K-means juga memiliki kegunaan yang beraneka ragam. Algoritma tersebut telah digunakan secara luas untuk berbagai keperluan, contohnya meningkatkan pemahaman tentang suatu topik. Di bidang non-data mining K-means juga banyak dipilih sebagai algoritma untuk memecahkan permasalahan yang timbul. Contohnya di bidang biologi, bisnis, Information Retrieval, multimedia dan teknologi. Pengelompokan untuk pemahaman bertujuan menghasilkan kelompok-kelompok yang terdiri dari objek-objek dengan ciri-ciri yang serupa, seperti halnya manusia mengelompokkan objek-objek. Di Bidang Biologi, k-means dapat digunakan untuk mengelompokkan gen berdasarkan pola yang terbentuk. Hal ini diperlukan untuk menemukan gen yang memiliki fungsi serupa. Aplikasi di Bidang Bisnis, k-means dapat digunakan untuk melakukan segmentasi pasar. Segmentasi pasar adalah pengelompokan pelanggan sesuai ciri-ciri mereka, misalnya: gaya hidup, kebutuhan. K-means juga dapat digunakan dalam sistem pemberi rekomendasi untuk mengelompokkan objek-objek yang saling terkait. Di Bidang Information Retrieval, K-means dapat digunakan untuk mengelompokkan dokumen sehingga memudahkan temu kembali dokumen berdasarkan topik tersebut. K-means juga dapat digunakan untuk kompresi data multimedia, contohnya citra, audio, dan video. Setiap objek dalam data merupakan representasi centroid dari cluster yang memuat objek tersebut. Teknik kompresi ini disebut juga dengan istilah kuantisasi vektor.

K-means merupakan salah satu metode clustering non hierarki yang berusaha membagi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini membagi data ke dalam cluster sehingga data yang memiliki ciri-ciri yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai ciri-ciri yang berbeda di kelompokan ke dalam cluster yang lain. Secara umum algoritma dasar dari K-Means Clustering adalah sebagai berikut: Satu, Tentukan jumlah cluster. Dua, Mengalokasikan data ke dalam cluster secara acak. Tiga, menghitung centroid atau rata-rata data yang ada di masing-masing cluster. Empat, mengalokasikan masing-masing data ke centroid terdekat. Lima, Kembali ke tahap tiga. Hal tersebut dilakukan apabila masih ada data yang berpindah cluster, atau apabila perubahan nilai centroid ada yang berada di atas nilai threshold yang ditentukan, atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan. Distance space digunakan untuk menghitung jarak antara data dan centroid. Persamaan yang dapat digunakan salah satunya yaitu Euclidean Distance Space. Euclidean distance space sering digunakan dalam perhitungan jarak, hal ini dikarenakan hasil yang diperoleh merupakan jarak ter-pendek antara dua titik yang diperhitungkan.