28 Agustus 2019

Self-Organizing Map Populer Digunakan Untuk Clustering Data Berukuran Besar

Self-Organizing Map (SOM) merupakan salah satu metode dalam Artificial Neural Network yang bertujuan untuk melakukan representasi data dengan cara mengurangi dimensi data melalui penggunaan self-organizing neural networks sehingga manusia dapat mengerti high-dimensional data yang dipetakan dalam bentuk low-dimensional data. Artificial Neural Network lebih sering dikenal dengan nama Jaringan Saraf Tiruan. Dari istilah tersebut muncul istilah yang merupakan akronim dari ketiga kata tersebut, yaitu JST. SOM merupakan jaringan yang terdiri dari dua lapisan atau dua layer, yaitu lapisan input dan lapisan output. Setiap neuron di lapisan input terhubung dengan setiap neuron di lapisan output. Setiap neuron di lapisan output merupakan representasi cluster dari input yang diberikan. Berdasarkan jenis neighborhood-nya SOM dapat dibedakan menjadi tiga jenis, yaitu linear array, rectangular dan heksagonal grid. Ketiganya lebih sering disebut dengan topologi SOM. Topologi linear aray menunjukkan cluster unit yang tersusun secara linear. Rectangular grid adalah topologi dari cluster unit dua dimensi. Dan topologi heksagonal grid adalah topologi yang berbentuk heksagonal. Topologi atau bentuk yang berbeda akan menghasilkan neuron yang berbeda, sehingga bobot yang dihasilkan juga akan berbeda. Dalam data mining SOM lazim digunakan sebagai metode untuk mengelompokkan data atau clustering.

Self Organizing Maps merupakan metode terkemuka yang menggunakan pendekatan jaringan saraf tiruan untuk mengelompokkan data. Proses mengenali distribusi dan topologi dari vektor masukan dilakukan melalui proses training. SOM merupakan salah satu metode perhitungan yang paling populer digunakan, dan ribuan artikel ilmiah menggunakan SOM untuk menyelesaikan permasalahan yang dihadapi. SOM sangat baik dalam menghasilkan representasi data berdimensi tinggi. SOM menggunakan metode unsupervised learning yang tidak memerlukan target selama proses pengelompokan dilakukan. Tujuan utama metode SOM adalah untuk melakukan transformasi masukan yang bersifat kompleks menjadi bentuk yang lebih sederhana dalam dimensi yang lebih rendah. Dimensi tersebut biasanya berjumlah dua, atau dapat di istilahkan dengan dua dimensi. Keunggulan SOM antara lain adalah mudah di implementasi-kan dan mampu menangani permasalahan kompleks yang non-linier. Sebelum mencoba menerapkan algoritma SOM dengan komputer, maka perlu mempertimbangkan perangkat lunak dan perlengkapan pendukung yang diperlukan. Dengan begitu proses pengamatan akan dapat berlangsung dengan lancar tanpa mengalami kendala atau hambatan teknis.

Self-Organizing Map (SOM) atau sering disebut topology-preserving-map pertama kali diperkenalkan oleh Profesor Teuvo Kohonen dari negara Finlandia pada tahun 1982. Buku terbaru karya Prof. Kohonen dapat dibeli melalui Internet, buku tersebut berjudul Self-Organizing Map yang diterbitkan melalui Springer pada tahun 2001. SOM menyediakan suatu teknik untuk melakukan representasi data yang membantu manusia memahami data kompleks dengan cara mengurangi dimensi data tersebut ke dalam suatu peta. Algoritma tersebut merupakan pengembangan dari Neural Network, terutama associative memory and adaptive learning. Tiga komponen penting di dalam SOM yaitu Competition, Cooperation dan Synaptic Adaption. Competition maksudnya untuk setiap pola masukan, neuron menghitung nilai masing-masing fungsi diskriminan yang memberi dasar untuk kompetisi. Neuron dengan nilai terkecil dari fungsi diskriminan dinyatakan sebagai pemenang. Cooperation maksudnya neuron pemenang menentukan lokasi lokasi atau letak dari lingkungan topologi excited neuron untuk memberi dasar kerja-sama dalam suatu lingkungan neuron. Sedangkan Synaptic Adaption maksudnya excited neuron menurunkan nilai fungsi diskriminan yang berkaitan dengan pola masukan melalui penyesuaian bobot terkait sehingga respons dari neuron pemenang ke aplikasi selanjutnya yang memiliki pola masukan yang sama akan meningkat.

SOM merupakan salah satu bentuk topologi dari Unsupervised Artificial Neural Network (Unsupervised ANN), di-mana dalam proses pelatihan tersebut tidak memerlukan pengawasan (target keluaran). Metode dapat di terapkan dengan baik menggunakan perangkat lunak Rstudio dan tambahan library bernama Kohonen. Analisis data, pengelompokan dan representasi data dengan SOM dapat dilakukan dengan menggunakan perangkat lunak domain publik, komersial atau perangkat lunak yang dibuat sendiri. Penggunaan perangkat lunak buatan sendiri tidak dianjurkan karena ada banyak aspek yang perlu diperhitungkan dan memengaruhi representasi dan akurasi dari algoritma SOM. Contoh lain perangkat lunak yang baik untuk mengaplikasikan SOM adalah SOM-PAK. Perangkat lunak tersebut dibuat oleh Tim Pemrograman SOM dari Universitas Teknologi Helsinki. Untuk mendapatkannya dapat dilakukan dengan mengakses website universitas tersebut melalui alamat www.cis.hut.fi. Website tersebut juga menyediakan SOM Toolbox, SOM Toolbox merupakan library perangkat lunak untuk keperluan umum yang lebih fleksibel untuk implementasi algoritma SOM pada MATLAB. Panduan untuk menggunakan dan instalasi perangkat lunak dan toolbox tersebut juga tersedia pada website www.cis.hut.fi.

Self Organizing Map merupakan konsep clustering dengan cara mengelompokkan data yang memiliki kemiripan tertentu. Oleh karena itu dapat dikatakan bahwa SOM membuat representasi data dengan mengurangi dimensi data dan menampilkan kesamaan antar data. Bermacam-macam variasi SOM sering diperkenalkan dalam serangkaian konferensi WSOM. WSOM merupakan akronim dari Workshop Self-Organizing Map, kegiatan tersebut diselenggarakan untuk melaporkan hasil penelitian tentang Self-Organizing Map. Prinsip dasar SOM dapat di modifikasi untuk kepeningan menganalisis hubungan sub-space atau pola dinamis suatu data. Algoritma tersebut telah banyak diterapkan di berbagai bidang, contohnya biologi, neural computation, neural networks, pendidikan dan sistem informasi. Teori tentang SOM dapat dipelajari lebih jauh melalui berbagai website yang menyediakan akses pengetahuan secara terbuka dan gratis. Contoh website tersebut adalah wikipedia, scholarpedia dan MIT CourseWare. Untuk mencari daftar website yang menyediakan materi-materi ilmiah, dapat dilakukan dengan mencarinya melalui website search enginee atau mesin telusur seperti google, bing dan yahoo.

Agar dapat menghasilkan representasi data pengamatan, maka harus melakukan empat tahapan berikut. Keempat tahapan tersebut adalah Initialization, Training, Evaluation dan Visualization. Proses Initialization meliputi inisialisasi vektor bobot, inisialisasi topologi jaringan, inisialiasasi parameter waktu, inisialisasi learning rate, inisialisasi banyaknya iterasi, inisialisasi jenis fungsi lingkungan dan inisialisasi radius daerah proses training. Proses training terdiri dari proses sampling, Similarity Matching dan Updating. Tahap Evaluation merupakan tahap mengevaluasi atau menghitung average quantization error dengan menggunakan data training yang diperoleh pada proses sebelumnya. Tahap terakhir adalah Visualization atau Map Visualization, pada tahap tersebut data training di representasi ke dalam bentuk hexagonal grid atau rectangular grid yang telah di tentukan ketika melakukan tahap pertama. Dari representasi data yang dihasilkan pada tahap ke empat, dapat dilakukan analisis berdasarkan pola-pola yang terbentuk. Baik atau buruk pengamatan yang dilakukan dapat dilihat melalui persentase kesalahan yang terjadi. Nilai tersebut diperoleh pada saat melakukan proses atau tahapan ketiga, yaitu tahap Evaluation.