Data Informasi: Agustus 2019

31 Agustus 2019

CBR Menyelesaikan Permasalahan Dengan Mempelajari Permasalahan Yang Pernah Terjadi

Case Based Reasoning merupakan metode pemecahan masalah yang memberikan prioritas penggunaan informasi pengalaman masa lalu untuk memecahkan masalah yang terjadi saat ini. Solusi untuk masalah saat ini dapat ditemukan dengan menggunakan kembali informasi masa lalu atau mengadopsi solusi untuk masalah yang telah diselesaikan. Metode case based reasoning adalah salah satu metode untuk membuat sistem pengambilan keputusan dari kasus baru dengan berdasarkan solusi dari kasus–kasus sebelumnya. Konsep dari metode Case Based Reasoning ditemukan dari ide untuk menggunakan dokumentasi pengalaman untuk menyelesaikan masalah baru. Para decision maker kebanyakan menggunakan pengalaman–pengalaman dari problem solving terdahulu untuk menyelesaikan masalah yang dihadapi saat ini. Cased Based Reasoning sering di ucapkan dengan akronim dari kalimat tersebut, yaitu CBR. CBR menggunakan pendekatan kecerdasan buatan atau Artificial Intelligent yang menitik beratkan pemecahan masalah dengan didasarkan pada pengetahuan dari kasus-kasus sebelumnya. Apabila ada kasus baru maka kasus tersebut disimpan pada basis pengetahuan sehingga sistem akan melakukan learning, hal tersebut menjadikan knowledge yang dimiliki oleh sistem tersebut menjadi bertambah.

CBR sangat mudah dan membantu untuk mengambil suatu keputusan. Sistem dari case base reasoning ini yaitu mengambil keputusan berdasarkan solusi dari pengalaman kasus yang sudah pernah terjadi sebelumnya. Sistem tersebut memiliki berbagai kekurangan dan kelebihan. Kelebihan-kelebihan CBR yang menjadikan algoritma tersebut banyak dipilih untuk menyelesaikan permasalahan dalam kehidupan nyata adalah sebagai berikut. CBR dapat Memecahkan masalah dengan mudah karena dapat mengambil solusi dengan cepat dan tepat. Semakin banyak pengalaman yang tersimpan di dalam sistem menjadikan sistem tersebut semakin pintar dalam menemukan solusi untuk sebuah kasus. Biasanya sistem CBR dapat langsung fokus pada titik terpenting pada masalah tersebut, sehingga waktu penyelesaian masalah menjadi relatif singkat. CBR juga tetap dapat memberikan solusi ketika tidak ada metode algoritmik yang tersedia dan konsep pemecahan masalah dalam domain yang hanya dapat dipahami sebagian. Sebelum benar-banar menggunakan CBR untuk menyelesaikan permasalahan yang dihadapi, sebaiknya memperhatikan dua kelemahan algoritma tersebut. Pertama, CBR tidak menjamin solusi yang didapat menjadi solusi terbaik, karena dalam sistem CBR sangat bergantung pada kasus yang pernah terjadi. Jika solusi dari kasus yang pernah terjadi salah mengakibatkan solusi yang menjadi pilihan merupakan suatu solusi yang keliru. Maka dari itu dalam hal ini tahapan revisi sangat diperlukan untuk mengurangi tingkat kesalahannya. Kelemahan kedua, semakin banyak pengalaman yang tersimpan di basis data, mengakibatkan waktu untuk menyelesaikan suatu kasus baru akan menjadi lebih lama. Hal tersebut dikarenakan sistem CBR mencari solusi dengan mencari kasus yang paling mirip.

Awal mula Case Based Reasoning merupakan penemuan Roger Schank dan murid-muridnya di Universitas Yale pada sekitar tahun 1980. Universitas Yale merupakan universitas swasta tertua ke-tiga di negara Amerika Serikat. Pada karya Roger Schank terdapat model memori yang dinamik, model tersebut yang menjadi dasar awal sistem Case Based Reasoning. Pada sekitar tahun 1980 contoh lain dari Case Based Reasoning dan contoh bidang lainnya muncul, seperti penalaran hukum, penalaran berbasis memori dan kombinasi Case Based Reasoning dengan metode lainnya. Pada sekitar tahun 1990, peminat Cased Based Reasoning meningkat secara drastis, hal tersebut dapat dilihat dari dibentuknya Konferensi Internasional tentang Penalaran Berbasis Kasus pada tahun 1995, serta lokakarya atau workshop Case Based Reasoning di benua Eropa, contohnya di negara Jerman, Inggris dan Italia. CBR sudah diterapkan dalam berbagai bidang yang berbeda. Bidang keilmuan yang telah menerapkan metode CBR antara lain adalah: hukum, kedokteran, rekayasa, komputerisasi, jaringan komunikasi, keuangan, penjualan dan lingkungan.

Case Based Reasoning telah diterapkan dalam bidang yang berbeda-beda. Teknologi Case Based Reasoning menghasilkan beberapa sistem yang sukses, contohnya yaitu CLAVIER Lockheed. CLAVIER Lockheed adalah sebuah sistem yang digunakan untuk meletakkan bagian komposit yang akan dipanggang dengan pemanggang Industri Konfeksi. Case Based Reasoning juga banyak digunakan dalam aplikasi help desk, sebagai contohnya yaitu sistem Compaq SMART. Pendekatan case-based reasoning sudah banyak mengalami pertumbuhan dengan sangat cepat. Beberapa tokoh yang akrab dengan algoritma CBR antara lain, Schank dengan teori dynamic memory fokus pada pengaruh pengetahuan, belajar dan memori. Carbonell pada bidang analogi. Kolodner dan Rissland yang bekerja di bidang penalaran formal. Case Based Reasoning terus dikembangkan melalui berbagai penelitian oleh Kolodner dan murid-muridnya.

Di dalam proses Case Based Reasoning, ada salah satu tahapan yang paling penting dalam proses penyelesaian masalah ini, yaitu proses pengambilan kasus atau case retrieval. Sejak zaman dahulu banyak peneliti yang fokus pada tahapan ini. Di dalam proses pengambilan keputusan, persamaan antara kasus satu dan kasus lain dijadikan sebagai dasar dalam pengambilan sebuah kasus di dalam basis kasus. Semakin besar persamaan yang dimiliki oleh suatu kasus dengan kasus yang baru di dalam basis kasus, maka memungkinkannya solusi yang terdapat pada kasus tersebut bisa digunakan untuk menyelesaikan masalah di dalam kasus yang baru. Penalaran berbasis kasus ini biasa dipakai untuk melakukan diagnosis, manajemen pengetahuan dan sistem pendukung keputusan. Dalam hal ini tingkat kecocokan kasus akan sangat berpengaruh pada kerja sistem Case Based Reasoning, karena solusi-solusi yang ada di dalam kasus sebelumnya akan digunakan kembali sebagai patokan penyelesaian masalah baru. Banyak peneliti yang menggunakan berbagai macam algoritma di dalam kasus retrieval. Jika di dalam basis kasus terdapat kasus yang memiliki atribut berbeda-beda, maka hal tersebut akan menyebabkan sulitnya suatu sistem retrieval dalam menemukan kasus baru yang sesuai.

Ada empat langkah dalam Case Based Reasoning, yaitu memperoleh kembali, menggunakan kembali, revisi dan menyimpan. Dalam bahasa Inggris empat istilah tersebut bernama retrieve, reuse, revise dan retain. RETRIEVE adalah proses menemukan kembali kasus yang sama atau yang paling mirip dengan kasus baru. Retrieve artinya memperoleh kembali kasus yang paling menyerupai atau relevan dengan kasus yang baru. Tahap ini dimulai dengan menggambarkan atau menguraikan sebagian masalah, dan diakhiri dengan ditemukannya kecocokan terhadap masalah sebelumnya yang memiliki tingkat kecocokan paling tinggi. REUSE adalah menggunakan kembali informasi dan pengetahuan yang telah tersimpan untuk memecahkan masalah kasus baru. Proses tersebut juga disebut dengan tansfer solusi. Reuse artinya memodelkan atau menggunakan kembali pengetahuan dan informasi kasus lama berdasarkan bobot kemiripan yang paling relevan ke dalam kasus yang baru, sehingga menghasilkan usulan solusi. Hasil tahap tersebut memungkinkan diperlukannya suatu adaptasi dengan masalah yang baru. REVISE adalah merevisi atau memperbaiki solusi yang diusulkan oleh sistem. Revise artinya meninjau kembali solusi yang diusulkan kemudian mengujinya pada kasus nyata dan jika diperlukan memperbaiki solusi tersebut agar cocok dengan kasus yang baru. RETAIN adalah proses menyimpan pengalaman yang telah di proses untuk memecahkan masalah yang akan datang ke dalam basis kasus. Retain artinya menyimpan kasus baru yang telah berhasil mendapatkan solusi agar dapat digunakan oleh kasus-kasus selanjutnya yang mirip dengan kasus tersebut. Tetapi Jika solusi baru tersebut gagal, maka pengguna perlu menjelaskan kegagalannya, memperbaiki solusi yang digunakan, dan mengujinya lagi.

30 Agustus 2019

Dataset Di Klasifikasi Dengan Metode CART Sehingga Menghasilkan Informasi Bernilai

Metodologi CART adalah suatu metode analisis diskriminan non-parametrik yang dirancang untuk menyajikan kaidah keputusan berbentuk pohon biner dengan cara membagi data pada learning sampel sesuai batasan linier uni-variat. Kata CART berasal dari singkatan Classification and Regression Tree. CART terdiri dari dua macam analisis yaitu classification tree dan regression tree. Analisis ini menghasilkan kelompok data hierarki yang dimulai dari node root untuk keseluruhan learning sampel dan berakhir pada kelompok kecil pengamatan yang homogen. CART merupakan metode non-parametrik yang tidak memberikan syarat asumsi distribusi sebagaimana pada metode parametrik lainnya. CART dapat menyeleksi variabel-variabel sekaligus interaksi-interaksi variabel yang penting untuk menentukan hasil atau variabel dependen-nya. CART menghasilkan suatu pohon klasifikasi jika variabel respons-nya kategorik, dan menghasilkan pohon regresi jika variabel respons-nya kontinu. Regresi logistik adalah salah satu metode statistik untuk menganalisis hubungan variabel respons yang memiliki skala nominal atau ordinat dengan variabel prediktor. Regresi logistik tidak memerlukan asumsi normalitas, meski screening data outliers tetap dapat dilakukan. Regresi logistik yang memiliki variabel respons dengan tiga atau lebih kategori yang memiliki tingkatan dinamakan regresi logistik ordinat. CART adalah suatu metode non-parametrik di-mana setelah didapatkan model klasifikasi-nya maka struktur data dapat dilihat secara visual, sehingga memudahkan untuk melakukan eksplorasi dan analisis. Proses kerja CART saat membuat sebuah pohon klasifikasi dikenal dengan istilah Binary Recursive Partitioning.

Metode klasifikasi CART merupakan metode non-parametrik yang berguna untuk mendapatkan suatu kelompok data akurat untuk digunakan sebagai faktor penentu dari suatu proses klasifikasi. Metode ini bekerja dengan mengelompokkan setiap pola atau data dalam sebuah kelas-kelas tertentu. Tujuan dari metode klasifikasi adalah untuk menemukan model yang dapat menjelaskan class attribute yang terdapat dalam suatu pola yang sudah dikelompokkan tersebut. Keuntungan penggunaan analisis CART adalah pertama, tidak memerlukan asumsi sebaran dan uji hipotesis. Kedua, tidak memerlukan variabel untuk dipilih sebelumnya. Ketiga sangat efisien. Keempat, dapat menangani data-set dengan struktur kompleks. Kelima, sangat tangguh dalam menangani outlier. keenam, dapat menggunakan sembarang kombinasi data numerik dan kategorik. Ketujuh, pergantian variabel tidak akan menyebabkan struktur pohon berubah. Klasifikasi pohon merupakan metode alternatif untuk memodelkan dan memperkirakan nilai variabel respons berjenis kategorik yang dipengaruhi variabel-variabel bebas berjenis kategorik, kontinyu atau kombinasi keduanya. Metode persoalan bisnis seperti Churn Analysis dan Risk Management biasanya lebih melibatkan metode klasifikasi dibandingkan regresi. CART lebih banyak digunakan karena memiliki kemudahan interpretasi dan memiliki kemampuan untuk melakukan penanganan data missing.

Metodologi CART pertama kali diperkenalkan pada tahun 1984 oleh empat ilmuwan dari negara Amerika Serikat, yaitu Leo Breiman, Jerome H. Friedman, Richard A. Olshen, dan Charles J. Stone. Leo Breiman adalah seorang profesor di bidang statistik yang aktif mengajar di University of California. Jerome Harold Friedman adalah ahli statistik, konsultan dan profesor statistik Amerika di Stanformad University. Jerome H. Friedman banyak dikenal oleh masyarakat karena memberikan kontribusi di bidang statistik dan data mining. Richard A. Olshen adalah seorang profesor Biomedical Data Science di Universitas Stanford. Sedangkan Charles J. Stone adalah seorang pengajar di University of Washington yang aktif menerbitkan buku. Buku-bukunya dapat dibeli melalui website amazon dengan alamat www.amazon.com.

Berbagai penelitian telah dilakukan untuk mencapai berbagai tujuan. Diantaranya mengetahui perbandingan metode klasifikasi antara CART dengan pembanding-nya. Selain itu, CART juga digunakan untuk menangani permasalahan dalam kehidupan sehari-hari. Perbandingan performa antara CART dengan metode pembanding berguna untuk mengetahui kelebihan dan kekurangan dari masing-masing metode yang dibandingkan. Sedangkan penanganan permasalahan dalam kehidupan yang telah berhasil diselesaikan dengan metode CART adalah berbagai permasalahan di bidang bisnis, pendidikan dan pembangunan daerah. Umumnya jumlah kasus minimum dalam suatu terminal akhir adalah lima, dan apabila hal itu terpenuhi maka pengembangan pohon dihentikan. Sedangkan jumlah kasus yang terdapat dalam simpul terminal homogen adalah kurang dari sepuluh. Pemberian label kelas pada simpul terminal dilakukan berdasarkan aturan jumlah terbanyak. Pemangkas pohon klasifikasi dilakukan dengan cara memangkas bagian pohon yang kurang penting sehingga pohon menjadi lebih optimal. Ukuran pemangkas yang digunakan untuk memperoleh ukuran pohon yang layak disebut dengan Cost complexity minimum.

Metode ini merupakan metode yang bisa diterapkan untuk himpunan data yang mempunyai jumlah besar dengan jumlah variabel yang sangat banyak. Ketika suatu kumpulan data yang terdiri dari beberapa variabel bebas dan sebuah variabel dependen, maka CART menghasilkan pohon klasifikasi, sedangkan jika variabel dependen yang dimiliki jenis numerik maka CART menghasilkan pohon regresi. Pada tahun 2009 Prasetyo membandingkan metode CART dan MARS dengan cara melakukan klasifikasi deteksi intrusi menggunakan pendekatan kedua metode tersebut. Hasil penelitian tersebut menunjukkan bahwa tingkat akurasi CART dalam mengidentifikasi ketepatan klasifikasi lebih tinggi dibandingkan dengan MARS. MARS merupakan singkatan dari Multivariate Adaptive Regression Splines. Istilah tersebut mengacu pada jenis analisis statistik regresi yang ditemukan oleh Jerome H. Friedman pada tahun 1991. Penelitian lain tentang CART pernah dilakukan oleh P. M. Kuhnert, Kim-Anh Do dan Rod McClure pada tahun 2000. Mereka meneliti tentang gabungan antara regresi logistik, CART dan MARS sehingga dapat menghasilkan model yang lebih baik. Dalam penelitian tersebut juga dijelaskan tentang penggunaan gabungan CART, MARS dan regresi logistik tidak hanya dapat digunakan untuk representasi data saja tetapi juga berfungsi sebagai alat eksplorasi untuk melakukan analisis yang lebih rinci.

Proses pembentukan CART terdiri dari tiga kelompok tahapan, yaitu Pembentukan klasifikasi pohon, memangkas pohon klasifikasi dan mengoptimalkan pohon klasifikasi. Proses pembentukan klasifikasi pohon meliputi 3 tahapan yaitu penentuan pemisah, simpul terminal dan label kelas. Tiga fungsi yang perlu diperhatikan pada tahap ini ialah fungsi heterogen, kriteria simpul dan kriteria Goodness of Split. Fungsi heterogen pada simpul dilakukan untuk meminimalkan sifat heterogen pada simpul utama dan menciptakan fungsi homogen pada simpul anak. Proses pembentukan pohon dilakukan terus sampai tidak memungkinkan lagi untuk dilanjutkan. Untuk mendapatkan pohon yang layak, maka perlu dilakukan pembabatan atau pruning, yaitu suatu penilaian ukuran pohon tanpa pengorbanan ketepatan atau kebaikannya melalui pengurangan simpul pohon sehingga dicapai ukuran pohon yang layak berdasarkan pada ukuran cost complexity pruning. Pohon klasifikasi optimal yang dipilih adalah pohon optimal yang berukuran tepat dan mempunyai nilai penduga pengganti yang cukup kecil. Ukuran pohon klasifikasi yang sangat besar akan memberikan nilai penduga pengganti yang sangat kecil, sehingga pohon ini cenderung dipilih untuk menduga nilai respons. Yang perlu diperhatikan adalah ukuran pohon yang besar akan cenderung kompleks karena struktur data yang digambarkan cenderung kompleks. Data sampel yang digunakan untuk mendapatkan nilai pengganti adalah data paling kecil dari pohon klasifikasi yang dipilih.

Data Mining Memiliki Algoritma Clustering Populer Bernama K-Means Clustering

Pengertian clustering dalam keilmuan data mining adalah pengelompokan sejumlah data atau objek ke dalam cluster atau grup atau kelompok, sehingga setiap kelompok tersebut berisi data yang mirip, dan data tersebut berbeda dengan objek yang berada di dalam kelompok lainnya. Mengelompokkan data ke dalam suatu kelompok dapat dilakukan dengan cara menghitung jarak terdekat dari suatu data ke sebuah titik centroid. Metode K-Means Clustering berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, data yang berada dalam satu kelompok mempunyai ciri-ciri yang sama satu sama lainnya dan data yang berada dalam kelompok berbeda mempunyai ciri-ciri yang berbeda. Dengan kata lain, metode K-Means Clustering bertujuan untuk meminimalkan objective function yang di setel dalam proses clustering dengan cara meminimalkan variasi antar data yang ada di dalam suatu kelompok dan mengoptimalkan variasi data yang berada di kelompok lain. Untuk mengoptimalkan fungsi pengelompokan pada suatu percobaan, algoritma K-means juga dapat digabungkan dengan berbagai algoritma lain, contohnya hierarchical clustering, K-means++ dan K-medoids. Setiap algoritma memiliki ciri-ciri yang dapat memudahkan proses pengamatan, tetapi algoritma tersebut juga memiliki kekurangan yang dapat menghambat proses pengamatan, sehingga kekurangan dan kelebihan algoritma yang ingin diterapkan sebaiknya dipelajari terlebih dahulu sebelum memulai proses percobaan.

Ada beberapa kelebihan pada algoritma k-means, yaitu mudah untuk di implementasi dan dijalankan. Waktu yang dibutuhkan untuk menjalankan pembelajaran juga relatif cepat. Dan yang terakhir algoritma tersebut mudah untuk diadaptasi dan telah umum digunakan oleh akademisi dan ilmuwan dari berbagai bidang keilmuan. Selain memiliki beberapa kelebihan, namun Algoritma tersebut juga memiliki kekurangan. Kekurangan dari algoritma tersebut adalah sebelum algoritma dijalankan, beberapa buah titik di inisialisasi secara acak sehingga pengelompokan data yang dihasilkan dapat berbeda-beda. Jika nilai acak untuk inisialisasi kurang baik, maka pengelompokan yang dihasilkan pun menjadi kurang optimal. Kelemahan kedua, k-means dapat terjebak dalam masalah yang disebut curse of dimensionality. Hal ini terjadi jika data pelatihan memiliki dimensi yang sangat tinggi. Contohnya jika data pelatihan terdiri dari dua atribut maka dimensi atribut tersebut adalah dua dimensi. Sehingga jika ada dua puluh atribut, maka akan terdapat dua puluh dimensi. Salah satu cara kerja algoritma k-means adalah mencari jarak terdekat antara sejumlah titik dengan titik lainnya. Ketika mencari jarak antar titik dua dimensi, masih mudah untuk dilakukan. Tetapi mencari jarak antar titik ketika terdapat dua puluh dimensi tentu saja menjadi sulit. Kelemahan ketiga, proses pencarian jarak terdekat tersebut dapat dipercepat, namun dibutuhkan struktur data yang lebih rumit seperti KD-Tree atau Hashing.

K-Means merupakan metode data clustering yang tergolong sebagai metode klasifikasi yang bersifat unsupervised. Kategori metode-metode klasifikasi data antara supervised dan unsupervised classification didasarkan pada adanya data-set yang data barangnya sudah sejak awal mempunyai label kelas atau tidak. Untuk data yang sudah mempunyai label kelas, metode klasifikasi yang digunakan merupakan metode supervised classification dan untuk data yang belum mempunyai label kelas, metode klasifikasi yang digunakan adalah metode unsupervised classification. Selain mengoptimalkan pengelompokan data ke masing-masing cluster, data clustering juga mengasosiasikan penentuan jumlah cluster yang paling tepat untuk data yang dianalisis. Kedua jenis K-Means, baik Hard K-Means dan Fuzzy K-Means umumnya dilakukan secara supervised atau ditentukan dari awal oleh pengguna, walaupun dalam penerapan-nya ada beberapa metode yang sering dipasang-kan dengan metode K-Means. Karena secara teori metode penentuan jumlah cluster ini tidak sama dengan metode pengelompokan yang dilakukan oleh K-Means, keabsahan jumlah cluster yang dihasilkan umumnya masih dipertanyakan. Melihat keadaan pengguna sering menentukan jumlah cluster sendiri secara terpisah, baik itu dengan menggunakan metode tertentu atau berdasarkan pengalaman, kedua metode K-Means ini dapat disebut sebagai metode semi-supervised classification, karena metode ini mengalokasikan data barang ke masing-masing cluster secara unsupervised dan penentuan jumlah cluster yang paling sesuai dengan data yang dianalisis dilakukan secara supervised.

Lima ciri-ciri K-Means yang menjadikan algoritma tersebut banyak dipilih adalah pertama, K-Means sangat cepat dalam proses clustering. Kedua K-Means sangat sensitif pada pembangkitan centroid awal secara acak. Ketiga, memungkinkan suatu cluster tidak mempunyai anggota, Keempat, hasil clustering dengan K-Means bersifat selalu berubah-ubah, maksudnya hasilnya terkadang baik tetapi terkadang jelek. Kelima, K-means sangat sulit untuk mencapai global optimum. Memperhatikan masukan dalam algoritma K-Means, dapat dikatakan bahwa algoritma ini hanya mengolah data kuantitatif atau numerik. Sebuah basis data tidak mungkin hanya berisi satu macam tipe data saja, akan tetapi beragam tipe. Sebuah basis data dapat berisi data-data dengan tipe sebagai berikut: biner, nominal, ordinat, interval dan rasio. Berbagai macam atribut dalam basis data yang berbeda tipe disebut sebagai data multivariate. Tipe data seperti nominal dan ordinat harus diolah terlebih dahulu menjadi data numerik agar dapat diberlakukan algoritma K-Means dalam pembentukan cluster-nya.

Sebagai bagian dari algoritma clustering, K-means juga memiliki kegunaan yang beraneka ragam. Algoritma tersebut telah digunakan secara luas untuk berbagai keperluan, contohnya meningkatkan pemahaman tentang suatu topik. Di bidang non-data mining K-means juga banyak dipilih sebagai algoritma untuk memecahkan permasalahan yang timbul. Contohnya di bidang biologi, bisnis, Information Retrieval, multimedia dan teknologi. Pengelompokan untuk pemahaman bertujuan menghasilkan kelompok-kelompok yang terdiri dari objek-objek dengan ciri-ciri yang serupa, seperti halnya manusia mengelompokkan objek-objek. Di Bidang Biologi, k-means dapat digunakan untuk mengelompokkan gen berdasarkan pola yang terbentuk. Hal ini diperlukan untuk menemukan gen yang memiliki fungsi serupa. Aplikasi di Bidang Bisnis, k-means dapat digunakan untuk melakukan segmentasi pasar. Segmentasi pasar adalah pengelompokan pelanggan sesuai ciri-ciri mereka, misalnya: gaya hidup, kebutuhan. K-means juga dapat digunakan dalam sistem pemberi rekomendasi untuk mengelompokkan objek-objek yang saling terkait. Di Bidang Information Retrieval, K-means dapat digunakan untuk mengelompokkan dokumen sehingga memudahkan temu kembali dokumen berdasarkan topik tersebut. K-means juga dapat digunakan untuk kompresi data multimedia, contohnya citra, audio, dan video. Setiap objek dalam data merupakan representasi centroid dari cluster yang memuat objek tersebut. Teknik kompresi ini disebut juga dengan istilah kuantisasi vektor.

K-means merupakan salah satu metode clustering non hierarki yang berusaha membagi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini membagi data ke dalam cluster sehingga data yang memiliki ciri-ciri yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai ciri-ciri yang berbeda di kelompokan ke dalam cluster yang lain. Secara umum algoritma dasar dari K-Means Clustering adalah sebagai berikut: Satu, Tentukan jumlah cluster. Dua, Mengalokasikan data ke dalam cluster secara acak. Tiga, menghitung centroid atau rata-rata data yang ada di masing-masing cluster. Empat, mengalokasikan masing-masing data ke centroid terdekat. Lima, Kembali ke tahap tiga. Hal tersebut dilakukan apabila masih ada data yang berpindah cluster, atau apabila perubahan nilai centroid ada yang berada di atas nilai threshold yang ditentukan, atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan. Distance space digunakan untuk menghitung jarak antara data dan centroid. Persamaan yang dapat digunakan salah satunya yaitu Euclidean Distance Space. Euclidean distance space sering digunakan dalam perhitungan jarak, hal ini dikarenakan hasil yang diperoleh merupakan jarak ter-pendek antara dua titik yang diperhitungkan.

29 Agustus 2019

Algoritma Naïve Bayes Classifier Dimanfaatkan Ilmuwan Untuk Pendeteksian Email Berbahaya

Seiring dengan berkembangnya volume informasi, terjadi pertumbuhan minat untuk menemukan cara yang lebih baik untuk mencari, menapis dan mengelola informasi tersebut. Suatu Klasifikasi teks mengelompokkan dokumen ke dalam satu atau lebih kategori yang sudah ter-definisi sebelumnya ke dalam kelas-kelas dari dokumen-dokumen yang sama. Algoritma Naïve Bayes dibuat berdasarkan Teorema Bayes yang digunakan untuk menghitung probabilitas terjadinya suatu peristiwa berdasarkan pengaruh yang didapat dari hasil pengamatan. Teorema Bayes menerangkan hubungan antara probabilitas terjadinya peristiwa A dengan syarat peristiwa B telah terjadi dan probabilitas terjadinya peristiwa B dengan syarat peristiwa A telah terjadi. Teorema ini didasarkan pada prinsip bahwa tambahan informasi dapat memperbaiki probabilitas. Teorema Bayes ini bermanfaat untuk mengubah atau memperbaharui probabilitas yang dihitung dengan tersedianya data dan informasi tambahan.Teori probabilitas Bayesian merupakan bagian dari cabang teori statistik matematis yang memungkinkan untuk membuat model ketidakpastian dari suatu kejadian yang terjadi dengan menggabungkan pengetahuan umum dengan fakta dari hasil pengamatan. Contohnya bila seseorang mengamati kejadian B dan mempunyai keyakinan bahwa ada kemungkinan B akan muncul, maka probabilitas B disebut probabilitas prior. Setelah ada informasi tambahan bahwa misalnya kejadian A telah muncul, mungkin akan terjadi perubahan terhadap perkiraan semula mengenai kemungkinan B untuk muncul. Probabilitas untuk B berubah menjadi probabilitas bersyarat akibat A, hal tersebut disebut sebagai probabilitas posterior. Teorema Bayes merupakan mekanisme untuk memperbaharui probabilitas prior menjadi probabilitas posterior.

Algoritma Naïve Bayes memiliki banyak keuntungan dan kekurangan yang menjadi pertimbangan untuk menggunakan metode tersebut. Kelebihan yang dimiliki antara lain: Bisa dipakai untuk data kuantitatif maupun kualitatif, tidak memerlukan jumlah data yang banyak, tidak perlu melakukan data training yang banyak, jika ada nilai yang hilang maka bisa diabaikan dalam perhitungan, perhitungannya cepat dan efisien, mudah dipahami, mudah dibuat, proses klasifikasi dokumen bisa dilakukan personalitas dan disesuaikan dengan kebutuhan, jika digunakan dalam bahasa pemrograman, kode program-nya sederhana dan bisa digunakan untuk klasifikasi permasalahan biner dan multi-class. Walaupun memiliki banyak kelebihan, tetapi algoritma tersebut juga memiliki kekurangan yang perlu di pertimbangkan ketika ingin menerapkan algortima tersebut. Kekurangan Naïve Bayes antar lain: apabila probabilitas kondisi bernilai nol maka probabilitas prediksi juga bernilai nol, asumsi bahwa masing-masing variabel independen membuat berkurangnya akurasi, tingkat keakuratan tidak bisa diukur menggunakan satu probabilitas saja, keberhasilan percobaan sangat bergantung pada pengetahuan awal, banyak celah yang bisa mengurangi efektivitas dan yang terakhir dirancang untuk pendeteksian kata-kata saja sehingga tidak bisa melakukan pendeteksian data berupa gambar.

Algoritma Naïve Bayes kurang lebih ditemukan pada pertengahan abad ke-18. Pada saat itu algoritma ini dikenal dengan banyak nama. Naïve Bayes merupakan metode klasifikasi dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris bernama Reverend Thomas Bayes. Naïve Bayes merupakan metode klasifikasi yang berdasarkan pada Teorama Bayes.Teori tersebut digunakan untuk membuat perkiraan peluang di masa depan berdasarkan pengalaman di masa sebelumnya. Selain ilmuwan Thomas Bayes juga seorang pendeta presbyterian. Ketika masih hidup Reverend Thomas Bayes banyak mempelajari tentang hal-hal mengenai klasifikasi, namun setelah beliau meninggal, temannya yang menggantikannya untuk menunjukkan atau melakukan presentasi hasil penelitiannya. Algoritma Naïve Bayes populer dikenal sebagai metode untuk mengelompokkan teks dan membuat kategori kata berdasarkan frekuensi kata-kata. Sesuai namanya, algoritma Naïve Bayes disebut demikian karena cirinya yang “naïve”, yaitu mengasumsikan bahwa setiap variabel bersifat independen, bebas antara satu sama lain dan tidak memiliki hubungan atau korelasi yang bisa memengaruhi hasilnya.

Proses transfer informasi pada zaman modern telah sampai kepada era elektronik, hal tersebut ditandai dengan semakin banyak teknologi komputer dan jaringan Internet yang digunakan sebagai sarana penyampaian informasi. Informasi yang beredar melalui teknologi tersebut semakin banyak seiring dengan semakin banyaknya dokumen yang tersimpan dan dikirimkan melalui komputer dan jaringan Internet. Hal ini menyebabkan kebutuhan untuk melakukan klasifikasi terhadap dokumen-dokumen tersebut. Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek. Klasifikasi merupakan proses awal dari proses mengelompokkan data. Proses klasifikasi dokumen merupakan proses yang sangat penting dalam bidang sistem informasi, khususnya dalam proses data mining. Ada banyak teknik klasifikasi dokumen, di antaranya adalah Naïve Bayes classifier, Decision Trees, dan Support Vector Machines. Metode Naïve Bayes classifier merupakan metode yang paling populer digunakan dalam klasifikasi dokumen. Asumsi yang digunakan dalam melakukan klasifikasi dokumen adalah dokumen dipandang sebagai kumpulan kata-kata yang saling bebas, dan proses klasifikasi dokumen dilakukan dengan pengecekan kata-kata yang menyusun informasi di dalam dokumen tersebut. Penentuan kelas dari dokumen sampel dilakukan dengan cara menghitung besarnya peluang kata-kata pada dokumen suatu kelas yang muncul pada dokumen sampel yang dianalisis.

Walaupun Naïve Bayes dianggap memiliki asumsi yang terlalu sederhana, namun Naïve Bayes dapat bekerja dengan baik untuk menangani masalah-masalah nyata yang rumit. Berbagai hasil analisis penelitian menyatakan bahwa metode tersebut disimpulkan sebagai salah satu metode klasifikasi yang memiliki tingkat akurasi tinggi. Selain itu, Naïve Bayes memberikan performa dan hasil yang lebih baik ketika dibandingkan dengan metode-metode lain seperti random forest dan boosted trees. Metode Naïve Bayes digunakan untuk berbagai tujuan, antara lain klasifikasi dokumen teks seperti teks berita atau teks akademis, sebagai metode machine learning, membuat diagnosis medis secara otomatis dan pendeteksian spam. Teknik Klasifikasi teks juga bisa digunakan untuk memecahkan suatu kasus teks yang mengandung kata homograf. Homograf adalah kata yang memiliki kesamaan ejaan, tetapi berbeda lafal dan maknanya. Dengan adanya klasifikasi teks homograf maka akan memudahkan pengguna mengenali speech homograf dengan mudah dan benar.

Proses analisis dengan Algoritma Naïve Bayes Classifier dilakukan dengan beberapa tahapan proses. Sebagai contoh, untuk pendeteksian email spam dengan algoritma Naïve Bayes Classifier dilakukan melalui lima tahapan. Tahap pertama bernama Identify the prerequisites to train a Naive Bayes classifier. Tahap tersebut dilakukan untuk identifikasi parameter yang diperlukan untuk data training. Tahap kedua bernama Computing the Term-Document Matrix (TDM) for each class. Tahap tersebut bertujuan untuk menghitung nilai TDM pada masing-masing class yang terbentuk. Tahap ketiga bernama Compute frequencies. Setelah TDM untuk setiap kelas dihitung, langkah selanjutnya adalah menghitung frekuensi dan pemunculan setiap istilah pada objek pengamatan. Tahap keempat bernama Recall the Naive Bayes rule. Tahap tersebut menghitung nilai probabilitas posterior yang digunakan sebagai acuan bahwa suatu email dapat disimpulkan sebagai spam. Tahap kelima atau terakhir bernama Compute the probability of an incoming email being Spam or Ham. Tahap tersebut melakukan perhitungan probabilitas spam dan ham pada setiap email yang masuk. Kesimpulan diperoleh dengan membandingkan kedua probabilitas tersebut. Jika nilai probabilitas spam lebih besar maka email yang masuk dianggap spam. Jika nilai probabilitas ham lebih besar maka email tersebut dianggap sebagai ham.

28 Agustus 2019

Self-Organizing Map Populer Digunakan Untuk Clustering Data Berukuran Besar

Self-Organizing Map (SOM) merupakan salah satu metode dalam Artificial Neural Network yang bertujuan untuk melakukan representasi data dengan cara mengurangi dimensi data melalui penggunaan self-organizing neural networks sehingga manusia dapat mengerti high-dimensional data yang dipetakan dalam bentuk low-dimensional data. Artificial Neural Network lebih sering dikenal dengan nama Jaringan Saraf Tiruan. Dari istilah tersebut muncul istilah yang merupakan akronim dari ketiga kata tersebut, yaitu JST. SOM merupakan jaringan yang terdiri dari dua lapisan atau dua layer, yaitu lapisan input dan lapisan output. Setiap neuron di lapisan input terhubung dengan setiap neuron di lapisan output. Setiap neuron di lapisan output merupakan representasi cluster dari input yang diberikan. Berdasarkan jenis neighborhood-nya SOM dapat dibedakan menjadi tiga jenis, yaitu linear array, rectangular dan heksagonal grid. Ketiganya lebih sering disebut dengan topologi SOM. Topologi linear aray menunjukkan cluster unit yang tersusun secara linear. Rectangular grid adalah topologi dari cluster unit dua dimensi. Dan topologi heksagonal grid adalah topologi yang berbentuk heksagonal. Topologi atau bentuk yang berbeda akan menghasilkan neuron yang berbeda, sehingga bobot yang dihasilkan juga akan berbeda. Dalam data mining SOM lazim digunakan sebagai metode untuk mengelompokkan data atau clustering.

Self Organizing Maps merupakan metode terkemuka yang menggunakan pendekatan jaringan saraf tiruan untuk mengelompokkan data. Proses mengenali distribusi dan topologi dari vektor masukan dilakukan melalui proses training. SOM merupakan salah satu metode perhitungan yang paling populer digunakan, dan ribuan artikel ilmiah menggunakan SOM untuk menyelesaikan permasalahan yang dihadapi. SOM sangat baik dalam menghasilkan representasi data berdimensi tinggi. SOM menggunakan metode unsupervised learning yang tidak memerlukan target selama proses pengelompokan dilakukan. Tujuan utama metode SOM adalah untuk melakukan transformasi masukan yang bersifat kompleks menjadi bentuk yang lebih sederhana dalam dimensi yang lebih rendah. Dimensi tersebut biasanya berjumlah dua, atau dapat di istilahkan dengan dua dimensi. Keunggulan SOM antara lain adalah mudah di implementasi-kan dan mampu menangani permasalahan kompleks yang non-linier. Sebelum mencoba menerapkan algoritma SOM dengan komputer, maka perlu mempertimbangkan perangkat lunak dan perlengkapan pendukung yang diperlukan. Dengan begitu proses pengamatan akan dapat berlangsung dengan lancar tanpa mengalami kendala atau hambatan teknis.

Self-Organizing Map (SOM) atau sering disebut topology-preserving-map pertama kali diperkenalkan oleh Profesor Teuvo Kohonen dari negara Finlandia pada tahun 1982. Buku terbaru karya Prof. Kohonen dapat dibeli melalui Internet, buku tersebut berjudul Self-Organizing Map yang diterbitkan melalui Springer pada tahun 2001. SOM menyediakan suatu teknik untuk melakukan representasi data yang membantu manusia memahami data kompleks dengan cara mengurangi dimensi data tersebut ke dalam suatu peta. Algoritma tersebut merupakan pengembangan dari Neural Network, terutama associative memory and adaptive learning. Tiga komponen penting di dalam SOM yaitu Competition, Cooperation dan Synaptic Adaption. Competition maksudnya untuk setiap pola masukan, neuron menghitung nilai masing-masing fungsi diskriminan yang memberi dasar untuk kompetisi. Neuron dengan nilai terkecil dari fungsi diskriminan dinyatakan sebagai pemenang. Cooperation maksudnya neuron pemenang menentukan lokasi lokasi atau letak dari lingkungan topologi excited neuron untuk memberi dasar kerja-sama dalam suatu lingkungan neuron. Sedangkan Synaptic Adaption maksudnya excited neuron menurunkan nilai fungsi diskriminan yang berkaitan dengan pola masukan melalui penyesuaian bobot terkait sehingga respons dari neuron pemenang ke aplikasi selanjutnya yang memiliki pola masukan yang sama akan meningkat.

SOM merupakan salah satu bentuk topologi dari Unsupervised Artificial Neural Network (Unsupervised ANN), di-mana dalam proses pelatihan tersebut tidak memerlukan pengawasan (target keluaran). Metode dapat di terapkan dengan baik menggunakan perangkat lunak Rstudio dan tambahan library bernama Kohonen. Analisis data, pengelompokan dan representasi data dengan SOM dapat dilakukan dengan menggunakan perangkat lunak domain publik, komersial atau perangkat lunak yang dibuat sendiri. Penggunaan perangkat lunak buatan sendiri tidak dianjurkan karena ada banyak aspek yang perlu diperhitungkan dan memengaruhi representasi dan akurasi dari algoritma SOM. Contoh lain perangkat lunak yang baik untuk mengaplikasikan SOM adalah SOM-PAK. Perangkat lunak tersebut dibuat oleh Tim Pemrograman SOM dari Universitas Teknologi Helsinki. Untuk mendapatkannya dapat dilakukan dengan mengakses website universitas tersebut melalui alamat www.cis.hut.fi. Website tersebut juga menyediakan SOM Toolbox, SOM Toolbox merupakan library perangkat lunak untuk keperluan umum yang lebih fleksibel untuk implementasi algoritma SOM pada MATLAB. Panduan untuk menggunakan dan instalasi perangkat lunak dan toolbox tersebut juga tersedia pada website www.cis.hut.fi.

Self Organizing Map merupakan konsep clustering dengan cara mengelompokkan data yang memiliki kemiripan tertentu. Oleh karena itu dapat dikatakan bahwa SOM membuat representasi data dengan mengurangi dimensi data dan menampilkan kesamaan antar data. Bermacam-macam variasi SOM sering diperkenalkan dalam serangkaian konferensi WSOM. WSOM merupakan akronim dari Workshop Self-Organizing Map, kegiatan tersebut diselenggarakan untuk melaporkan hasil penelitian tentang Self-Organizing Map. Prinsip dasar SOM dapat di modifikasi untuk kepeningan menganalisis hubungan sub-space atau pola dinamis suatu data. Algoritma tersebut telah banyak diterapkan di berbagai bidang, contohnya biologi, neural computation, neural networks, pendidikan dan sistem informasi. Teori tentang SOM dapat dipelajari lebih jauh melalui berbagai website yang menyediakan akses pengetahuan secara terbuka dan gratis. Contoh website tersebut adalah wikipedia, scholarpedia dan MIT CourseWare. Untuk mencari daftar website yang menyediakan materi-materi ilmiah, dapat dilakukan dengan mencarinya melalui website search enginee atau mesin telusur seperti google, bing dan yahoo.

Agar dapat menghasilkan representasi data pengamatan, maka harus melakukan empat tahapan berikut. Keempat tahapan tersebut adalah Initialization, Training, Evaluation dan Visualization. Proses Initialization meliputi inisialisasi vektor bobot, inisialisasi topologi jaringan, inisialiasasi parameter waktu, inisialisasi learning rate, inisialisasi banyaknya iterasi, inisialisasi jenis fungsi lingkungan dan inisialisasi radius daerah proses training. Proses training terdiri dari proses sampling, Similarity Matching dan Updating. Tahap Evaluation merupakan tahap mengevaluasi atau menghitung average quantization error dengan menggunakan data training yang diperoleh pada proses sebelumnya. Tahap terakhir adalah Visualization atau Map Visualization, pada tahap tersebut data training di representasi ke dalam bentuk hexagonal grid atau rectangular grid yang telah di tentukan ketika melakukan tahap pertama. Dari representasi data yang dihasilkan pada tahap ke empat, dapat dilakukan analisis berdasarkan pola-pola yang terbentuk. Baik atau buruk pengamatan yang dilakukan dapat dilihat melalui persentase kesalahan yang terjadi. Nilai tersebut diperoleh pada saat melakukan proses atau tahapan ketiga, yaitu tahap Evaluation.

27 Agustus 2019

FP-Growth Menghasilkan Frequent Pattern Suatu Itemset Dengan Cepat Dan Efisien

Algoritma FP-Growth merupakan pengembangan dari algoritma Apriori. Algortima tersebut menggunakan sebuah struktur data yang sangat padat untuk memperkecil ukuran basis data transaksi asli. FP-growth menggunakan pendekatan yang berbeda dari paradigma yang digunakan pada algoritma Apriori. FP-growth adalah salah satu alternatif algoritma yang dapat digunakan untuk menentukan frequent itemset, frequent Itemset merupakan himpunan data yang paling sering muncul dalam sebuah kumpulan data. Algoritma FP-Growth menggunakan konsep pembangunan tree, yang biasa disebut dengan FP-Tree untuk mencari frequent itemset bukan menggunakan generate candidate seperti yang dilakukan pada algoritma Apriori. Algoritma Apriori dan FP-growth memiliki fungsi utama sama, yaitu untuk menggali frequent itemset pada suatu basis data. Hal yang membedakan antara kedua-nya terletak pada proses yang dilalui. Jika Apriori menggali frequent itemset dengan menguji sekumpulan kandidat itemset, FP-Growth menggali informasi tersebut dengan cara membuat struktur pohon menggunakan FP-Tree tanpa melakukan pembentukan sekumpulan kandidat itemset terlebih dahulu. Informasi yang digali tersebut dapat dimanfaatkan untuk berbagai tujuan, mulai dari untuk tujuan bisnis guna meningkatkan taraf ekonomi hingga untuk tujuan yang memiliki dampak lebih besar. Perangkat lunak yang digunakan sebagai alat bantu melakukan penggalian data dengan algoritma FP-Growth antara lain Rapid Miner, WEKA dan SAS. Ketiga perangkat lunak tersebut dapat diperoleh dari Internet melalui masing-masing website.

Penggalian association rules adalah suatu prosedur untuk mencari hubungan antar barang dalam suatu dataset. Proses penggalian dimulai dengan mencari frequent itemset, yaitu kombinasi barang yang paling sering terjadi dalam suatu itemset. Penggalian itemset yang sering muncul pada basis data transaksi berukuran besar adalah salah satu permasalahan yang paling menantang dalam data mining. Informasi yang ditemukan melalui proses data mining tersebut diharapkan bisa membantu operasional bisnis sehingga berubah menjadi lebih baik. Secara umum, terdapat dua tahap dalam melakukan Association Rule Mining yaitu Frequent Itemset Candidate Generation dan Rule Generation. Pada tahap penentuan Frequent Itemset Candidate Generation terdapat beberapa kendala yang harus dihadapi untuk memperoleh Frequent Itemset, seperti banyaknya jumlah kandidat yang memenuhi minimum support, dan proses perhitungan minimum support dari Frequent Itemset yang harus melakukan scanning basis data secara berulang-ulang. Dengan menggunakan FP-growth frequent itemset dapat diketahui tanpa harus menentukan candidate generation terlebih dahulu. FP-Growth menggunakan FP-Tree untuk membuat struktur data objek pengamatan. Setelah itu dilakukan pendekatan divide and conquer untuk memperoleh frequent itemset yang menjadi hasil akhir algoritma FP-Growth. Pada algoritma FP-Growth proses scanning basis data hanya dilakukan dua kali, tidak seperti algoritma Apriori yang melakukan proses scanning basis data secara berulang-ulang. Proses tersebut menjadikan Apriori membutuhkan waktu lebih lama daripada FP-Growth. Keunggulan Apriori dibandingkan FP-Growth adalah memiliki tingkat akurasi lebih tinggi daripada FP-Growth.

Algoritma FP-Growth telah banyak dikenal oleh orang dari berbagai latar belakang lingkungan pekerjaan. Contohnya dari lingkungan teknologi informasi, industri dan bisnis. Dengan menggunakan FP-Tree, algoritma FP-Growth dapat mengekstrak itemset yang diperoleh secara cepat dan praktis. Algoritma tersebut pertama kali diusulkan oleh Jiawei Han, Jian Pei dan Yiwen Yin dari universitas Simon Fraser di Kanada pada tahun 2000. Dokumentasi penelitian tersebut berupa makalah penelitian berjudul Mining frequent patterns without candidate generation. Melalui penelitian tersebut dapat diketahui bahwa FP-Growth merupakan metode yang efisien dan fleksibel untuk menemukan long frequent pattern dan short frequent pattern. Selain itu FP-Growth juga lebih cepat dari algoritma Apriori dan berbagai metode frequent pattern mining baru pada saat itu.

Dalam banyak skenario dunia nyata, data tidak di-ekstrak dari sumber data tunggal tetapi dari data yang terdistribusi dan bersifat heterogen. Algoritma FP-Growth pada data mining memiliki tujuan untuk menemukan pola yang sering terjadi dari basis data berukuran besar. Data mining digunakan untuk menggali berbagai data berukuran besar menggunakan pandangan atau perspektif yang berbeda-beda, kemudian meringkas data tersebut menjadi informasi yang lebih bernilai. Saat ini FP-Growth merupakan salah satu algortima data mining yang paling cepat untuk menghasilkan informasi tentang frequent itemset. FP-Growth dapat dimanfaatkan untuk mendapatkan pola akses yang sering muncul dari data pencatatan suatu website. Informasi tersebut bermanfaat untuk mengetahui tentang minat pengunjung website sehingga administrator dapat memberikan tindak lanjut agar website yang dikelola menjadi lebih baik. Contoh lain, jumlah penduduk Indonesia diperkirakan akan mencapai jumlah lebih dari dua ratus tujuh puluh satu juta pada tahun 2020. Sehingga dapat diperoleh kesimpulan bahwa Indonesia merupakan pasar yang potensial untuk perusahaan kosmetik. Berbagai organisasi dunia juga memperkirakan bahwa Indonesia dan Vietnam akan menjadi pasar kosmetik paling cepat tumbuh di kawasan Asia. Melalui informasi tersebut para pengusaha kosmetik dapat membuat berbagai rencana dan strategi untuk meningkatkan laba penjualan.

Dalam metode data mining, association rules adalah salah satu yang paling populer. Assosiation rules mining digunakan untuk mencari hubungan korelasi atau asosiasi antar barang pada sebuah dataset. Analisis asosiasi dikenal sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya. FP-Growth merupakan salah satu algoritma yang termasuk dalam association rule mining. Algoritma FP-Growth merupakan pengembangan dari algoritma Apriori. Association rules merupakan suatu proses pada data mining untuk menentukan semua aturan asosiatif yang memenuhi syarat minimum untuk support dan confidance pada basis data. Contoh aturan asosiatif dari analisis pembelian di swalayan adalah mencari kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Lift ratio digunakan untuk mengukur seberapa penting rule yang telah terbentuk berdasarkan nilai support dan nilai confidence. Lift ratio adalah perbandingan antara nilai confidence dengan nilai benchmark confidence. Benchmark confidence adalah perbandingan antara jumlah semua item consequent terhadap jumlah total transaksi. Apabila nilai lift ratio lebih besar dari satu, maka aturan tersebut dapat disimpulkan memberikan manfaat. Semakin tinggi nilai lift ratio yang tercipta maka semakin besar pula kekuatan asosiasi-nya.

Metode FP-Growth terbagi menjadi tiga tahapan yaitu: tahap pembangkitan conditional pattern base, tahap pembangkitan conditional FP-Tree, dan tahap pencarian frequent itemset. Ketiga tahap tersebut merupakan langkah yang perlu dilakukan untuk mendapat frequent itemset. Ketiganya dapat diterapkan dengan baik menggunakan perangkat lunak Rapid Miner, SAS dan WEKA. Tahap pembangkitan Conditional Pattern Base merupakan bagian basis data yang berisi tentang lintasan prefix dan pola akhiran. Pembangkitan conditional pattern base diperoleh dengan menggunakan algoritma FP-Tree. Tahap pembangkitan Conditional FP-Tree. dilakukan dengan menjumlahkan support count dari setiap barang pada setiap conditional pattern base, kemudian setiap barang yang memiliki jumlah support count lebih besar atau sama dengan minimum support count akan dibangkitkan dengan conditional FP-Tree. Pada tahap pencarian frequent itemset apabila Conditional FP-Tree. merupakan lintasan tunggal, maka frequent itemset diperoleh dengan menggabungkan barang untuk setiap conditional FP-Tree. Jika bukan lintasan tunggal, maka dilakukan pembangkitan FP-growth secara rekursif.

26 Agustus 2019

Data Dapat Diklasifikasi Dengan Cepat Menggunakan Algoritma Bernama NB-Tree

Salah satu metode untuk melakukan klasifikasi data adalah dengan menggunakan algoritma Decision Tree. Naïve Bayesian Tree Learner atau NBTree merupakan kombinasi dari klasifikasi Naïve Bayes dan decision tree learning. Decision Tree adalah sebuah struktur pohon, setiap node pohon merupakan representasi dari atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun merupakan representasi kelompok kelas tertentu. Level node ter-atas dari sebuah decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Decision Tree melakukan strategi pencarian solusi secara top-down. Salah satu algoritme percabangan decision tree adalah algoritme NBTree. Algoritme NBTree merupakan algoritme hasil gabungan teknik decision tree classifier dengan naïve-bayes classifier. Terdapat tiga jenis node pada decision tree, yaitu: Root Node, Internal Node dan Leaf Node. Root node merupakan node paling atas, node tersebut tidak memiliki input. Internal Node merupakan node percabangan. Pada node tersebut terdapat percabangan, setiap satu buah input memiliki output minimal dua. Leaf node atau terminal node merupakan node akhir. Pada node tersebut terdapat satu input dan tidak mempunyai output. Node leaf pada algoritma NBTree terkandung naïve-bayes classifier, selain node tersebut struktur NBTree sama dengan algoritma Decision Tree secara umum. Hasil klasifikasi NBTree dapat diterapkan di berbagai bidang, contohnya pendidikan, teknologi informasi dan pengolahan data.

Klasifikasi adalah salah satu teknik untuk menemukan model atau fungsi yang menjelaskan sekaligus membedakan kelas-kelas dengan tujuan agar model tersebut dapat digunakan untuk mengetahui informasi objek berdasarkan jenis pengelompokan tertentu. Model yang dihasilkan berasal dari hasil analisis pengolahan data. Dengan memberikan sekumpulan instance ke suatu node, algoritme NBTree akan melakukan evaluasi utility of split terhadap setiap atribut. Algoritma NB-Tree tergolong bagian dari metode klasifikasi pada Machine Learning yang memiliki tingkat akurasi tinggi. Selain itu algoritma tersebut juga telah banyak digunakan oleh ilmuwan dan ahli teknologi di berbagai bidang. Naive Bayes juga merupakan algoritma klasifikasi utama pada data mining dan banyak diterapkan dalam masalah klasifikasi di dunia nyata karena memiliki performa klasifikasi yang tinggi. Banyak ahli teknologi yang berpendapat bahwa NBTree merupakan salah satu algoritma yang praktis, mudah untuk dipelajari dan waktu untuk mengolah data pada basis data tergolong cepat.

Algoritma NBTree pertama kali di usulkan oleh Ron Kohavi dari Negara Kanada melalui makalah penelitian berjudul Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid. Pada saat itu mayoritas algoritma klasifikasi digunakan untuk mengamati basis data berskala kecil. Maka dari itu Ron Kohavi memiliki inisiatif untuk mengembangkan algoritma NBTree agar dapat dimanfaatkan untuk melakukan analisis pada basis data berukuran besar. Dalam ilmu statistik dan literatur sains komputer, model Naif Bayes juga dikenal dengan berbagai nama, termasuk Simple Bayes dan Independence Bayes. Semua nama tersebut merujuk pada penggunaan teori-teori Bayes dalam aturan melakukan klasifikasi, tetapi Naif Bayes bukanlah bagian dari metode Bayesian. NBTree adalah algoritma hybrid yang menggunakan Naif Bayes classifier pada setiap simpul dari pohon keputusan yang dibuat dan telah menunjukkan kinerja yang luar biasa. Algoritma tersebut dapat dimanfaatkan oleh orang dari berbagai latar belakang pendidikan, contohnya Ilmu Komputer, Sains dan Teknologi.

Data merupakan hal yang penting pada saat ini baik bagi perusahaan, pemerintahan, instansi, maupun individu yang ada. Kumpulan data yang ada dapat diolah menjadi suatu informasi yang berharga bagi setiap organisasi dan atau individu yang membutuhkannya. Salah satu kegunaan data yang terkumpul dalam bidang pendidikan adalah untuk membenahi dan meningkatkan kualitas pendidikan bagi mahasiswa. Data mining merupakan proses untuk mencari pola pada sekumpulan data besar sehingga diperoleh suatu pengetahuan. Dengan menggunakan beberapa metode seperti NBTree untuk classification, XMeans dan DBScan untuk clustering, maka dapat dilakukan percobaan untuk menerapkan metode-metode tersebut. Dari hasil analisis dengan classification diperoleh pola, dengan clustering diperoleh kelompok data (cluster). Pola dari tree yang terbentuk pada proses classification dan hasil pengelompokan data yang terbentuk pada proses clustering dapat memberikan hal yang bermanfaat untuk semua anggota universitas.

Dengan memberikan sekumpulan instance ke suatu node, algoritme NBTree akan melakukan evaluasi utility of split untuk setiap atribut. Jika utility terbesar dari semua atribut lebih tinggi dibanding utility yang dimiliki node yang sekarang, maka akan dilakukan pembagian instance-instance yang ada berdasarkan atribut tersebut. Utility of node dihitung dengan melakukan diskretisasi pada data yang ada dan menghitung perkiraan akurasi 5-fold cross validation dari penggunaan naïve-bayes di node tersebut. Sedangkan utility of split adalah jumlah bobot dari utility of node, bobot yang diberikan ke sebuah node sebanding dengan jumlah instance yang diturunkan node tersebut. NB-Tree telah banyak digunakan dan menjadi topik penelitian para ilmuwan dari berbagai penjuru dunia. Contoh penggunaan NB-Tree antara lain untuk melakukan klasifikasi teks, pendeteksian kecelakaan lalu lintas pada sistem Intelligence Transportation Systems dan Klasifikasi Penyakit untuk diagnosis penyakit.

Proses klasifikasi dibagi menjadi dua fase yaitu pelatihan dan pengujian. Pada fase pelatihan, data yang telah diketahui kelas data-nya (training set) digunakan untuk membentuk model. Selanjutnya pada fase testing, model yang sudah terbentuk diuji dengan sampel data lainnya sehingga tingkat akurasi dari model tersebut dapat diketahui. Jika tingkat akurasi yang dihasilkan memenuhi syarat maka model tersebut dapat dipakai untuk informasi sebagai masukan ketika melakukan perkiraan terhadap kelas data. Untuk menerapkan algoritma NB-Tree pada komputer diperlukan perlengkapan tambahan berupa perangkat lunak dan data-set. Contoh perangkat lunak yang dapat dimanfaatkan ialah WEKA (Waikato Environment for Knowledge Analysis), perangkat lunak tersebut dapat diperoleh melalui website dengan alamat www.cs.waikato.ac.nz. Data-set yang digunakan juga dapat diperoleh dari Internet. Contoh website yang menyediakan data-set yang boleh dimanfaatkan dengan bebas antara lain: http://archive.ics.uci.edu, https://www.kaggle.com dan https://www.kdnuggets.com. Tiga tahapan untuk melakukan percobaan tersebut adalah Use Training Set, Supplied Test Set dan Cross Validation. Ketiga tahapan tersebut dilakukan dengan bantuan perangkat lunak WEKA. Hasil pengujian juga ditampilkan melalui perangkat lunak tersebut.

25 Agustus 2019

Mikrokontroller Pada Voice Recognition Berguna Untuk Mengenali Biometrik Pengguna

Speech Recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan dengan melakukan konversi sebuah sinyal akustik, yang ditangkap oleh audio device (perangkat input suara). Sistem ini dapat digunakan untuk menggantikan peranan keyboard dan mouse sebagai perangkat masukan komputer. Kata-kata tersebut diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka lalu disesuaikan dengan kode-kode tertentu dan dicocokkan dengan suatu pola yang tersimpan dalam suatu perangkat. Hasil dari identifikasi kata yang diucapkan ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi. Voice Recognition adalah suatu sistem yang dapat mengidentifikasi seseorang melalui suaranya, pada saat saya mencari pengertiaan dari voice recognition terdapat juga pengertian Speech Recognition yang hampir sama secara fungsinya. Tapi terdapat perbedaan antara keduanya, Voice Recognition mengidentifikasi orang yang sedang berbicara, tetapi Speech Recognition mengidentifikasi tentang isi pesan yang diucapkan. Tetapi istilah voice recognition terkadang juga digunakan untuk mendeskripsikan speech recognition. Speech recognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasil proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisis dengan membandingkan dengan template suara pada basis data sistem.

Keuntungan dari sistem ini adalah pada kecepatan dan kemudahan dalam penggunaannya. Sistem berbasis perintah suara umumnya dapat diakses oleh semua orang. Sistem yang menjamin unsur privacy harus dapat memenuhi unsur biometrik atau behaviour dari penggunanya. Memproses pengenalan pengguna berdasarkan unsur biometrik atau behaviour memerlukan perangkat komputerisasi. Hal ini membutuhkan komputer seperti PC, Laptop atau Netbook yang berperan khusus untuk mengolah perintah suara yang diterima melalui mikrofon. Proses pencarian, query dan pengisian formulir bisa lebih cepat selesai dilakukan dengan suara dibandingkan dengan menggunakan keyboard. Banyak aplikasi Electronic Medical Records (EMR) dapat menjadi lebih efektif dan dapat dilakukan lebih mudah bila menggunakan Speech Recognition. Perangkat keras mikrokontroller sering dimanfaatkan sebagai perangkat keras untuk memproses sinyal suara sekaligus menyimpan data suara. Beberapa alasan yang menyebabkan hal tersebut antara lain adalah: mudah diperoleh, lebih praktis, lebih hemat tempat, harganya lebih murah dari komputer.

Metode Hidden Markov Model mulai diperkenalkan dan dipelajari pada akhir tahun 1960, metode yang berupa model statistik dari rantai Markov ini semakin banyak dipakai pada tahun-tahun terakhir terutama dalam bidang speech recognition, seperti dijelaskan oleh Lawrence R. Rabiner dalam laporannya yang berjudul “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”. Parameter yang dibandingkan pada voice rocognition ialah tingkat penekanan suara yang kemudian dicocokkan dengan template basis data yang tersedia. Sebelum dapat mengenali suara pembicara, metode ini membutuhkan beberapa pelatihan di mana sistem tersebut akan mempelajari suara, aksen dan nada pembicara. Hal tersebut umumnya dilakukan dengan merekam serangkaian kata-kata atau perintah tekstual oleh pembicara melalui mikrofon. Tiga contoh sistem Voice Recognition atau Voice Command adalah Jasper, Raspberry Pi Voice Recognition dan Raspberry Pi Voice Control. Perangkat keras untuk menyimpan data pengguna dan mengolah proses voice recognition dapat berupa komputer atau mikrokontroller.

Ada beberapa jenis teknologi biometric antara lain adalah pengenalan melalui suara yang disebut dengan speech recognition. Biometrik merupakan suatu metoda untuk mengenali manusia berdasarkan pada satu atau lebih ciri-ciri fisik atau tingkah laku yang unik. Sistem pengenalan suara berdasarkan orang yang berbicara dinamakan dengan speaker recognition. Voice Recognition dan speech recognition adalah suatu teknik yang memungkinkan sistem komputer untuk menerima input berupa kata yang diucapkan. Voice recognition memiliki dua jenis proses untuk mencocokan suara yang diterima dengan pola suara yang telah tersimpan di basis data. Kedua proses tersebut disebut dengan Model Akustik dan Model Bahasa. Model Akustik terdiri dari fonem yang memiliki nilai tertentu yang diambil dari sinyal akustik dan Model Bahasa berupa metode yang mengestimasikan satu kata diikuti oleh serangkaian kata lainnya. Terdapat 4 langkah utama dalam sistem pengenalan suara, yaitu: Pertama, penerimaan data input. Kedua adalah melakukan ekkstraksi, yaitu penyimpanan data masukan sekaligus pembuatan basis data untuk dijadikan template. Ketiga adalah pencocokan, yaitu tahap pencocokan data baru dengan data suara pada template yang disimpan pada basis data. Keempat adalah validasi identitas pengguna.

Salah satu penerapan speech recognition adalah pada konfrensi PBB dimana speech recognition berfungsi untuk menterjemahkan bahasa pembicara dari suatu Negara kedalam bahasa yang dipahami pendengar dengan penguasaan bahasa yang berbeda. Pada tahun 2010 Microsoft windows vista dan windows 7 fungsi speech recognition telah disertakan dalam system operasinya. Speech recognition tersebut dimanfaatkan untuk menterjemahkan pengucapan kalimat menjadi bentuk teks digital. Peraangkat keras komputer baik digunakan ketika tidak ada tuntutan tentang ukuran perangkat keras yang boleh digunakan. Karena komputer pada umumnya memiliki ukuran yang besar sehingga tidak cocok untuk digunakan pada peralatan yang minimalis. Peralatan tersebut tentunya kurang praktis bila dimanfaatkan untuk mengontrol otomasi perangkat rumahan seperti sistem home automation. Mikrokontroller memiliki ukuran kecil, sehingga cocok untuk digunakan sebagai pengganti komputer untuk memproses suara masukan dan menyimpan data suara pengguna. Mikrokontroller yang banyak digunakan antara lain Arduino Duemilanove, Arduino Uno, Arduino Mega, Raspberry Pi dan Arduino Leonardo. Untuk mengkonfigurasi mikrokontroller tersebut menggunakan perangkat lunak komputer, contohnya EasyVR Commander dan Arduino IDE.

Perangkat keras yang dibutuhkan untuk menerapkan Voice Recognition minimal adalah komputer, soundcard dan mikrofon. Perangkat lunak untuk melengkapi perangkat keras tersebut antara lain: Jasper, Easy VR Shield, Raspberry Pi Voice Recognition dan Raspberry Pi Voice. Sound card merupakan perangkat yang ditambahkan dalam suatu komputer sebagai perangkat input dan output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi digital. Microphone merupakan perangkat input suara yang berfungsi untuk mengubah suara orang menjadi sinyal elektrik. Komputer berfungsi untuk melakukan proses pengolahan suara digital dan menterjemahkan gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan basis data yang berisi berkas suara agar dapat dikenali. Fungsi komputer sebagai perangkat untuk memproses sinyal suara dapat digantikan oleh mikrokontroller yang memiliki ukuran jauh lebih kecil.

24 Agustus 2019

Approximate Bayesian Computation Digunakan Ilmuwan Untuk Melakukan Berbagai Analisis Biologi

Dalam Bayesian Inference, informasi lengkap tentang vektor parameter model terkandung dalam distribusi posterior. Memahami kekuatan yang memengaruhi variasi alami di dalam dan di antara populasi telah menjadi tujuan para ahli evolusi biologi selama beberapa dekade. Biologi adalah ilmu yang kompleks, sehingga tidak dapat dihindari bahwa pengamatan tentang sistem biologis diarahkan untuk membuat suatu model yang kompleks. Kenyataan bahwa kemudahan penggunaan pendekatan Review Trend dalam ekologi dan evolusi algoritma seperti ABC dapat memudahkan untuk membuat kesimpulan ketika digunakan pada berbagai permasalahan kompleks adalah suatu kenyataan yang tidak dapat dihindari. ABC adalah alat yang sangat berguna untuk membuat kesimpulan pada suatu model yang bersifat kompleks. Tanpa metode yang tepat, model kompleks yang menjadi objek pengamatan menjadi sulit untuk di analisis sehingga informasi tentang permasalahan yang ingin di selesaikan atau diketahui juga sulit diperoleh. ABC sangat fleksibel dan relatif mudah diterapkan, sehingga memungkinkan subjek pengamatan untuk membuat kesimpulan pada berbagai model yang bersifat kompleks. Beberapa aspek pemikiran Bayesian belum di eksplorasi sepenuhnya dalam metode ABC. Namun, subjektivitas pengamatan dapat dikurangi melalui penerapan semua langkah analisis data Bayesian secara cermat.

ABC dengan cepat menjadi populer selama beberapa tahun terakhir, khususnya untuk melakukan analisis permasalahan kompleks yang timbul dalam ilmu biologi, misalnya populasi genetika, ekologi, epidemiologi, dan sistem biologi. Sejumlah algoritma populer yang dapat dimanfaatkan untuk menghasilkan sampel dari distribusi posterior antara lain importance sampling, Markov Chain Monte Carlo (MCMC) dan Sequential Monte Carlo (SMC). Biologi komputasi lebih mirip dengan bioinformatika, dengan kata lain Biologi Komputasi merupakan ilmu bidang studi yang memanfaatkan penggunaan komputer untuk menyimpan dan mengolah data-data biologi. Distribusi prior merupakan distribusi awal yang memberikan informasi mengenai parameter dan harus ditentukan terlebih dahulu sebelum merumuskan distribusi posteriornya. Informasi yang diperoleh mengenai fungsi kepekatan peluang dari data sampel disebut dengan fungsi likelihood. ABC merupakan salah satu metode yang dapat dikelompokkan menjadi bagian dari Biologi Komputasi untuk melakukan analisis permasalahan kompleks sehingga memudahkan subjek penelitian melakukan analisis berdasar data yang dimiliki.

Approximate Bayesian Computation yang biasa disingkat dengan ABC, pertama kali diciptakan oleh Beaumont dalam konteks teknik statistik Bayesian populasi genetika dan mengacu pada suatu jenis metode tertentu dari metode likelihood-free. Approximate Bayesian Computation (ABC) merupakan kelompok metode komputerisasi yang berakar pada metode statistik Bayesian yang dapat digunakan untuk memperkirakan distribusi parameter model posterior. Distribusi posterior yang dihasilkan berisi semua informasi yang diperlukan untuk melakukan analisis, termasuk pemeriksaan dan validasi sekaligus hipotesis dan pengambilan keputusan. Istilah Likelihood-free dan ABC biasa digunakan untuk menjelaskan metode komputerisasi Bayesian yang dikembangkan untuk digunakan ketika fungsi likelihood tidak bisa dilaksanakan secara komputerisasi. Algoritma ABC mirip dengan Algortima MCMC, namun secara keseluruhan algoritma ABC memiliki tingkat akurasi lebih rendah daripada MCMC. Beberapa kelemahan algortima ABC antara lain adalah: jumlah informasi sedikit, jumlah statistik ringkasan terbatas, membutuhkan banyak waktu untuk melakukan tahapan proses dan memerlukan banyak waktu untuk melakukan perhitungan statistik.

Biologi komputasi mencakup banyak aspek dari ilmu pengetahuan yang menggunakan data biologi untuk mengembangkan algoritme atau model untuk memahami berbagai sistem dan hubungan biologis. Biologi komputasi berbeda dari komputasi biologi, komputasi biologi merupakan bagian dari ilmu komputer dan teknik komputer yang menggunakan bioteknologi dan biologi untuk membuat sebuah komputer. Bidang ini di definisikan secara luas dan mencakup dasar-dasar dalam ilmu komputer, matematika, animasi, statistik, biokimia, kimia, biofisika, biologi molekuler, genetika, genetika, ekologi, evolusi, anatomi, neuroscience, dan visualisasi. Sampai saat ini banyak ahli biologi yang tidak memiliki akses ke berbagai data umum, terutama dalam biologi molekuler dan genomik. Peneliti mampu mengembangkan metode analisis untuk menafsirkan informasi biologis, tetapi tidak mampu untuk membagikannya secara cepat kepada rekannya. Biologi komputasi meliputi pengembangan dan aplikasi dari data-analitis dan teoretis metode, algoritma matematika dan simulasi komputasi teknik untuk mempelajari biologi, perilaku dan sistem sosial. Bidang ilmu tersebut mulai berkembang pada sekitar awal tahun 1970. Hal tersebut dianggap sebagai ilmu untuk menganalisis informasi proses dari berbagai sistem biologi.

Teorema Bayes memungkinkan dua buah sumber informasi yang berisi tentang parameter dari suatu model statistik digabung menjadi satu. Dengan teorema tersebut informasi sampel (fungsi likelihood) dan informasi prior (distribusi prior) bisa digabung menjadi informasi posterior (distribusi posterior). Distribusi posterior merupakan salah satu konsep dasar Bayesian, dimana distribusi posterior akan proporsional terhadap perkalian antara distribusi prior dan likelihood. Pada ABC analisis Bayesian menggali dua buah sumber informasi tentang parameter suatu model statistik. Sumber informasi pertama berasal dari sampel dan disebut informasi sampel. Sumber informasi kedua berasal dari opini sang ahli atau peneliti, yang disebut dengan informasi prior. Gabungan dua buah sumber informasi tersebut akan membentuk informasi posterior. Gabungan kedua sumber informasi ini dicapai dengan mengikuti seperangkat aturan dalam teorema Bayes.

Pada analisis Bayesian, informasi awal dan informasi sampel yang dinyatakan dengan fungsi likelihood di gabungkan untuk membentuk distribusi posterior. Bentuk dan kurva fungsi likelihood menunjukkan tentang informasi stabilitas perhitungan yang dilakukan. Untuk memudahkan perhitungan fungsi likelihood, maka fungsi tersebut biasanya di transformasi terlebih dahulu menjadi fungsi log-likelihood. Setelah nilai logaritma berhasil ditemukan, maka nilai likelihood diperoleh dengan mencari nilai inverse log dari hasil perhitungan log-likelihood sebelumnya. Menaksir parameter model dapat dilakukan dengan memilih nilai parameter yang menghasilkan nilai distribusi peluang terbesar atau maksimum. Nilai parameter tersebut diperoleh dengan cara memaksimumkan fungsi likelihood. Salah satu metode untuk menghitung nilai tersebut ialah dengan Maximum Likelihood Estimation (MLE).

Metode ABC telah banyak dipelajari dan dikembangkan oleh ahli biologi untuk membuat suatu analisis tentang distribusi parameter model posterior pada objek yang diamati. Semua proses analisis pada algoritma ABC dilakukan dengan mematuhi seperangkat aturan pada teorema Bayes. ABC merupakan bagian dari kelompok metode statistik Bayesian berbasis komputerisasi untuk menghitung perkiraan distribusi parameter posterior. Perhitungan yang dilakukan akan menjadi lebih cepat dan akurat jika dilakukan dengan menggunakan alat bantu perangkat lunak. Perangkat lunak yang banyak dimanfaatkan untuk mencoba metode ABC adalah DIY-ABC, R dan ABCtoolbox. Pilih perangkat lunak yang sesuai dan memudahkan pengguna ketika melakukan berbagai percobaan agar perangkat lunak tersebut dapat berfungsi dengan optimal.

23 Agustus 2019

Bayesian Linear Regression Merupakan Bagian Analisis Statistik Berbasis Bayesian Inference

Analisis regresi adalah metode statistik yang memungkinkan untuk melakukan pengamatan terhadap hubungan antara beberapa variabel yang menjadi objek analisis. Beberapa tahun terakhir pembelajaran Bayesian telah banyak diadopsi dan bahkan terbukti memberikan hasil yang lebih baik daripada teknik Machine Learning lainnya. Menghitung perkiraan untuk mendapatkan informasi tambahan sebagai bahan pertimbangan membuat keputusan tidak selalu harus dilakukan dengan data yang berukuran besar. Bayesian Linear Regression merupakan contoh penerapan Machine Learning yang paling praktis untuk melakukan analisis statistik dengan alat bantu komputer dan perangkat lunak. Bayesian Learning dapat memberikan informasi tambahan berdasarkan pengetahuan dan informasi yang telah diketahui sebelumnya. Berbagai macam keterbatasan dan halangan jika tidak dihadapi dengan bijaksana dapat mengakibatkan kegagalan yang merugikan. Penggunaan metode dan peralatan yang tepat memperbesar kemungkinan terselesaikan-nya permasalahan yang diteliti atau dihadapi. Berbagai teknik Bayesian telah banyak dimanfaatkan untuk memperbaiki dan menyelesaikan permasalahan yang dihadapi secara ilmiah.

Regresi Linier seperti Bayesian Linear Regression, ANOVA dan T-Test adalah jenis pemodelan statistik yang paling umum digunakan. Perangkat lunak yang dapat digunakan secara umum adalah JAGS, sedangkan perangkat lunak seperti Rstudio dan SAS hanya baik untuk digunakan pada regresi Bayesian untuk menyelesaikan permasalahan yang bersifat berat atau sukar. Bayesian Inference merupakan suatu metode untuk menghitung perkiraan berdasarkan data. Hal tersebut sangat berguna untuk menghadapi situasi ketika memiliki jumlah data yang terbatas namun hasil perkiraan yang dilakukan memberikan dampak yang penting. CMC methods are used to approximate the posterior distribution of a parameter of interest by random sampling in a probabilistic space. Metode MCMC digunakan untuk memperkirakan distribusi posterior dari parameter minat secara acak melalui sampling pada lingkungan yang bersifat mudah berubah-ubah. Bayesian Estimation berbeda dengan semua metode klasik yang menganggap bahwa parameter sebagai variabel acak dan bukan suatu konstanta yang tidak diketahui. Berbagai perangkat lunak seperti JAGS, Rstudio dan SAS adalah perangkat lunak yang dapat dimanfaatkan untuk melakukan Bayesian Linear Regression sehingga menghasilkan perhitungan statistik untuk menyelesaikan berbagai permasalahan yang dihadapi.

Tujuan dari penggunaan Bayesian Linear Regression bukan untuk menemukan nilai terbaik dari parameter yang telah ditentukan, tetapi untuk menentukan distribusi posterior pada parameter yang ditentukan sebelumnya. Dalam ilmu statistik, Bayesian Linear Regression merupakan pendekatan regresi linier dengan melakukan analisis statistik yang dilakukan sesuai dengan konteks Bayesian Inference. Keuntungan utama menggunakan Bayesian Linear Regression adalah jika sebelum melakukan analisis sudah memiliki hipotesis awal, maka hipotesis tersebut dapat dimasukkan ke dalam pemodelan yang dibuat. Keuntungan lainnya yaitu metode tersebut dapat diterapkan dengan menggunakan data real-time dan data terdahulu. Bayesian linear regression memiliki mekanisme yang berguna untuk menangani data tidak lengkap atau data yang di distribusikan dengan buruk. Adanya berbagai perangkat lunak yang dapat diperoleh secara gratis dan berbayar menjadikan aktivitas melakukan analisis Bayesian Linear Regression menjadi lebih mudah dan cepat. Metode tersebut dapat di terapkan pada berbagai perangkat lunak statistik, contohnya PSPP, Octave, SAS, SPSS dan Rstudio.

Bayesian Inference memiliki cara untuk mendapatkan perkiraan yang tajam melalui data statistik terbatas, padahal hasil analisis tersebut dimanfaatkan untuk menyelesaikan permasalahan yang penting. Dengan kata lain Bayesian Inference memungkinkan pengguna membuat kesimpulan yang lebih kuat melalui data yang dimiliki dengan berdasarkan hal-hal yang sudah diketahui sebelumnya. Pada sekitar pertengahan tahun antara 1970 sampai 1980 gagasan Bayes yang sangat populer tersebut diperbaiki oleh Richard Price sehingga memberikan hasil akhir yang lebih akurat. Bayesian Inference adalah cara untuk membuat perkiraan yang akurat berdasarkan penggunaan akal sehat seperti data, informasi, pengetahuan dan perhitungan matematika. Untuk lebih memahami tentang teori Bayes yang dibahas, Anda dapat mencoba membuat perhitungan Bayesian Linear Regression pada berbagai perangkat lunak yang dapat diperoleh dengan gratis. Empat konsep dasar yang menjadi landasan teori Bayes adalah: probabilities, conditional probabilities, joint probabilities dan marginal probabilities.

Metode MCMC juga dapat digunakan untuk menghitung distribusi posterior pada parameter dengan jumlah lebih dari satu. Pengambilan sampel terhadap parameter yang digunakan dilakukan secara acak dengan cara mengambilnya dari lingkungan yang terus berubah-ubah. Prosedur dasar melakukan analisis Bayesian Linear Regression adalah: Pertama, menentukan parameter yang ingin digunakan. Kedua, membuat sebuah model mapping dari training input hingga menjadi training output. Ketiga, gunakan algoritma MCMC untuk mengambil sampel dari distribusi posterior untuk setiap parameter. Untuk memulai menggunakan metode MCMC, pilih nilai parameter acak untuk dipertimbangkan dan taati aturan pembuatan nilai parameter agar memberikan hasil yang memuaskan. Hasil perhitungan statistik pada sekumpulan sampel yang dihasilkan oleh simulasi MCMC merupakan perkiraan terbaik pada distribusi posterior berdasarkan data statistik.

Salah satu sifat utama dari pendekatan Bayesian adalah dapat dimanfaatkan untuk melakukan pencatatan data berskala kecil sekaligus menambahkan perhitungan secara berurutan ketika data baru tiba. Namun jika metode tersebut tidak dapat membuahkan hasil selama tiga percobaan awal, maka kemungkinan besar percobaan yang dilakukan akan menuai kegagalan. Pendekatan Bayesian dapat memberikan hasil yang memuaskan walaupun hanya didukung dengan jumlah data yang sedikit atau kecil. Tiga metode bayesian yang paling populer digunakan ialah minimum mean square error estimator (MMSE), Median dan Maximum a Posteriori (MAP). Pada Bayes Estimation risiko dapat diminimalkan untuk mendapatkan hasil perhitungan yang optimal. Dalam teori estimasi dan teori pengambilan keputusan, Bayes Estimation adalah estimator atau aturan pengambilan keputusan yang meminimalkan nilai harapan posterior melalui fungsi kerugian. Dengan kata lain Bayes Estimation mengoptimalkan harapan posterior melalui fungsi utilitas.

Bayesian Linear Regression merupakan salah satu metode yang dapat digunakan untuk melakukan analisis regresi yang bersifat linier. Contoh metode regresi linier selain Bayesian Linear Regression antara lain adaah ANOVA dan T-Test. Metode Bayesian Linear Regression dapat dilakukan dengan berbagai perangkat lunak seperti Rstudio, SAS, SPSS, JAGS dan Octave. Metode tersebut dapat memberikan hasil optimal walaupun memiliki hambatan berupa keterbatasan data penelitian. Bayesian Linear Regression merupakan bagian dari metode Machine Learning dan Data Mining yang dimanfaatkan untuk membuat perkiraan berdasarkan data statistik. Perangkat lunak JAGS lebih dipilih karena dapat dimanfaatkan untuk melakukan analisis dalam keadaan tingkat kesulitan yang ringan hingga tingkat kesulitan yang berat. Sedangkan perangkat lunak Rstudio dan SAS kurang maksimal ketika dimanfaatkan untuk melakukan analisis dengan tingkat permasalahan sederhana.

21 Agustus 2019

Aplikasi WEKA Dapat Digunakan Untuk Melakukan Klasifikasi Dengan Algoritma J48

Data Mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu basis data yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Data Mining banyak diterapkan di berbagai bidang keilmuan seperti artificial intelligent, machine learning, statistik dan basis data. Klasifikasi adalah proses penemuan model atau fungsi yang menggambarkan dan membedakan kelas data atau konsep yang bertujuan agar bisa digunakan untuk melakukan prediksi kelas dari objek yang label kelas-nya tidak diketahui. Algoritme Decision Tree J48 adalah salah satu jenis classifier pada metode klasifikasi data mining dan bagian dari C4.5 decision tree sederhana. Klasifikasi merupakan suatu proses menemukan kumpulan pola atau fungsi yang mendeskripsikan serta memisahkan kelas data yang satu dengan yang lainnya untuk menyatakan objek tersebut masuk pada kategori tertentu. C4.5 membuat sebuah decision tree berdasarkan pada seperangkat input data yang berlabel. Decision tree adalah model prediksi menggunakan struktur pohon atau struktur hierarki. Konsep dari decision tree adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan. Decision tree terdiri dari node dan leaf nodes. Node akan melakukan test pada attribute dan leaf adalah kelas dari klasifikasi. Algoritma J48 merupakan algoritma yang menerapkan algoritma C4.5 dalam bahasa java. Algoritma ini di implementasikan ke dalam aplikasi WEKA.

Klasifikasi data terdiri dari 2 langkah proses, yang Pertama adalah learning (fase training), dimana algoritma klasifikasi dibuat untuk menganalisis data training, lalu direprestasikan dalam bentuk rule klasifikasi. Proses yang Kedua adalah klasifikasi, dimana data tes digunakan untuk memperkirakan atau memperkirakan akurasi dari rule klasifikasi. Algoritme J48 mengabaikan missing value yaitu nilai untuk item yang dapat diperkirakan berdasarkan apa yang diketahui tentang nilai-nilai atribut pada baris lainnya. Ide dasar dari algoritme ini adalah untuk membagi data ke dalam jangkauan berdasarkan nilai atribut untuk item yang ditemukan dalam training data set. Algoritma J48 memungkinkan klasifikasi baik melalui pohon keputusan atau-pun aturan yang dihasilkan dari pembentukan klasifikasi. Pemilihan atribut pada algoritma ini berdasarkan pada asumsi bahwa kerumitan yang dimiliki oleh pohon keputusan sangat berkaitan erat dengan jumlah informasi yang diberikan oleh nilai-nilai atributnya.

Masalah-masalah yang sesuai untuk diselesaikan dengan teknik data mining dapat dirincikan dengan lima poin berikut, yaitu: Pertama, memerlukan keputusan yang bersifat knowledge-based. Kedua, mempunyai lingkungan yang berubah-ubah. Ketiga, metode yang ada saat ini bersifat sub-optimal. Keempat, ketersediaan data yang bisa di akses, cukup dan relevan. Kelima, memberikan keuntungan yang tinggi ketika keputusan yang diambil tepat.

Algoritma J48 termasuk dalam metode klasifikasi dengan berbasis divide and conquer. S ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan pada tahun 1993 dengan memanfaatkan Teori Informasi atau Information Theory milik Shanon. ID3 merupakan singkatan dari Iterative Dichotomiser 3. Algoritma C4.5 merupakan pengembangan dari ID3. Perangkat lunak WEKA mempunyai versi sendiri C4.5 yang dikenal sebagai J48. Proses Algoritma C4.5 terdiri dari pemilihan atribut sebagai akar (root), membuat cabang untuk tiap nilai, membagi kasus ke dalam cabang, mengulangi proses pada tiap cabang hingga semua cabang memiliki kelas yang sama. Decision Tree J48 merupakan implementasi algoritma C4.5 pada perangkat lunak Weka yang berfungsi sebagai pemisah obyek. Decision Tree atau pohon keputusan banyak dikenal sebagai bagian dari Graph yang termasuk bagian bidang ilmu otomata dan teori bahasa serta matematika diskrit. Decision Tree sendiri merupakan graf tak-berarah yang terhubung, serta tidak mengandung sirkuit.

Klasifikasi data terdiri dari 2 langkah proses, yang Pertama adalah learning (fase training), dimana algoritma klasifikasi dibuat untuk menganalisis data training, lalu direprestasikan dalam bentuk rule klasifikasi. Proses yang Kedua adalah klasifikasi, dimana data tes digunakan untuk melakukan prediksi atau memperkirakan akurasi dari rule klasifikasi. Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi atau formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak pada algoritma yang makin lengkap dan canggih, keberhasilan data mining tetap terletak pada faktor pengetahuan manusia. Jadi, ketika ingin melakukan klasifikasi dengan menggunakan WEKA, akan ada empat pilihan yang disebut dengan test options. Test options ini digunakan untuk menguji hasil klasifikasi yang telah dilakukan. Keempat Test Option tersebut adalah Use training set, Supplied test set, Cross-validation dan Percentage split. Dalam algortima C4.5 digunakan Information gain untuk memilih atribut yang akan digunakan untuk pemisahan obyek.

Penambangan data atau data mining adalah serangkaian proses untuk menggali nilai tambah dari sekumpulan data berupa informasi yang selama ini tersembunyi dibalik data atau tidak diketahui. Pengumpulan data yang berkualitas dan informasi pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin akurasi formulasi yang diharapkan. Dalam prosedur algoritma ID3, input berupa sampel training, label training dan atribut. Decision tree digunakan karena semakin sedikit kategori data maka semakin tinggi akurasi pada metode ini. C4.5 merupakan pengembangan dari ID3 yang memiliki beberapa kemampuan tambahan seperti: mampu menangani atribut dengan tipe diskrit atau kontinu, mampu menangani atribut yang kosong (missing value) dan bisa memangkas cabang. Untuk menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat cabang pohon, digunakan-lah teori informasi.

Empat tombol berikut adalah tombol-tombol yang perlu diperhatikan ketika mempelajari aplikasi perangkat lunak WEKA, yaitu: Explorer, Experimenter, Knowledge Flow dan Simple CLI. Explorer digunakan untuk menggali lebih jauh data dengan aplikasi WEKA. Experimenter digunakan untuk melakukan percobaan dengan pengujian statistik skema belajar. Knowledge Flow digunakan untuk pengetahuan pendukung. Simple CLI merupakan antar muka dengan menggunakan tampilan command-line yang memungkinkan pengguna WEKA untuk mengeksekusi perintah weka.

J48 merupakan salah satu algoritma yang terdapat pada perangkat lunak aplikasi WEKA untuk melakukan klasifikasi suatu data sehingga diperoleh informasi berguna. Aplikasi WEKA tersebut dikembangkan oleh Universitas Waikato sebagai pilihan perangkat lunak statistik yang lengkap. Proses tahapan algoritma J48 terdiri dari lima langkah atau tahapan, yaitu pertama, Menyiapkan data training. Kedua, Menentukan akar pohon. Ketiga, menghitung nilai Gain melalui Persamaan. Keempat, Ulang langkah kedua hingga semua tupel ter-partisi dengan menggunakan Persamaan kedua. Dan kelima, proses partisi pohon keputusan akan berhenti saat semua tupel dalam node N mendapat kelas yang sama dan atau tidak ada atribut di dalam tupel yang di partisi lagi dan atau tidak ada tupel di dalam cabang yang kosong.

HTML Di Transformasi Dengan XLST Sehingga Menjadi Sesuai Standar XML

Salah satu kesulitan melakukan konversi dokumen dengan XLS terletak pada kenyataan bahwa XSL mendukung gaya pemrosesan yang rekursif. Identity Transform dapat dilakukan dengan menggunakan template untuk mengubah semua isi dokumen kecuali bagian yang ingin di modifikasi. Dalam pemrograman komputer istilah rekursif memiliki arti sebagai fungsi atau metode yang melakukan perhitungan bagiannya secara berulang kali agar dapat selesai hingga pada hasil akhir. Walaupun konsep pemrograman rekursif sulit untuk dipahami namun menguasai konsep tersebut bisa sangat berguna bagi programmer. XLS dapat melakukan konversi dokumen dengan praktis sehingga memudahkan pengguna mengubah dokumen HTML agar sesuai dengan standar XML. Tanpa cara yang tepat proses transformasi tidak dapat terjadi atau menyulitkan pengguna sehingga tujuan yang ingin dicapai tidak terlaksana dengan baik. Identity Transform memberikan dasar seluruh kelas transformasi yang berguna. Sebuah Identity Transform merupakan stylesheet yang memproduksi ulang input sebagai output.

Identity Transform adalah transformasi data yang menyalin data sumber menjadi data tujuan tanpa melakukan perubahan. Identity Transform dianggap sebagai suatu proses penting dalam membuat sebuah library transformasi yang reusable. Dengan membuat library berbagai dasar Identity Transform memudahkan untuk memelihara berbagai macam filter transformasi data. Hypertext Markup Language (HTML) adalah sebuah bahasa markah yang digunakan untuk membuat sebuah halaman web, menampilkan berbagai informasi di dalam sebuah penjelajah web Internet dan pemformatan hiperteks sederhana yang ditulis dalam berkas format ASCII agar dapat menghasilkan tampilan yang ter-integrasi. XSLT (Extensible Stylesheet Language Transformations) memiliki kemampuan untuk mengubah data XML dari satu format ke format lainnya secara otomatis. XML memiliki metode standar untuk mengakses informasi sehingga membuatnya lebih mudah untuk digunakan menyimpan, mengirim, dan menampilkan data ke berbagai aplikasi dan perangkat komputer. Identity Transform memungkinkan pengguna komputer untuk melakukan transformasi data ke dalam berbagai bentuk dokumen standar.

Banyak pengembang merasakan kesulitan memulai belajar XSL. Salah satu kesulitan terletak pada kenyataan bahwa XSL memiliki gaya proses secara rekursif. XSLT Identity Transform digunakan untuk mengubah dokumen XML agar menghasilkan output berbentuk dokumen XML atau yang lainnya yang identik dengan input. Istilah XLS dan XLST memiliki arti yang sama, namun penggunaan istilah keduanya di pilih di berbagai tempat yang berbeda. Dengan kata lain yang dimaksud dengan XLS adalah XLST yang merupakan salah satu rekomendasi dari W3C. Extensible Markup Language (XML) adalah bahasa markup yang mendefinisikan tentang seperangkat aturan untuk encoding dokumen ke dalam format yang bisa dibaca oleh manusia dan mesin. XSLT menggunakan Stylesheet XSLT untuk menerapkan aturan transformasi pada dokumen XML sehingga dapat menghasilkan dokumen yang di format dalam bentuk XML, HTML, dan teks. Dengan begitu dokumen dapat ditampilkan dan di akses melalui berbagai jenis perangkat lunak dan berbagai jenis peralatan komputer.

Sebagian besar dari apa yang terlihat pada layar browser adalah sebuah deskripsi mendasar menggunakan HTML. HTML adalah bahasa yang menggambarkan struktur dan isi semantik dari sebuah dokumen Web. Isi dalam halaman Web ditandai dengan elemen HTML seperti &#060img&#062, &#060title&#062, &#060p&#062 dan &#060div&#062. Standar HTML di definisikan sebagai bahasa tunggal yang ditulis menggunakan Sintaks HTML ringan, tetapi lebih ketat dari pada XML dan juga mampu menangani kebutuhan aplikasi web. HTML adalah standar internasional yang memiliki dasar atau landasan spesifikasi dari World Wide Web Consortium dan WHATWG. Website kedua Organisasi dan komunitas tersebut dapat di akses melalui alamat https://whatwg.org dan https://www.w3.org.

XSL adalah kelompok bahasa transformasi yang mendeskripsikan tentang pemformatan atau transformasi suatu berkas yang dibuat dengan standar XML. XSL merupakan cara ampuh untuk melakukan manipulasi XML, sehingga pengembang harus akrab dengan berbagai perlengkapan yang ada. Kemampuan melakukan transformasi dokumen XML dengan XSL sama pentingnya dengan kemampuan menggunakan query basis data relasional dengan SQL. Bahasa XSL tersebut terdiri dari tiga bahasa, yaitu: XSLT, XSL-FO, dan XPath. Hasil konversi XSLT berupa salinan dokumen yang identik dengan aslinya kecuali hal-hal yang telah di modifikasi. Spesifikasi ketiga bahasa tersebut di simpan dalam bentuk dokumen rekomendasi W3C. XSLT dikembangkan sebagai bahasa stylesheet yang bertugas untuk melakukan transformasi XML menjadi dokumen yang dapat dibaca oleh manusia.

XML merupakan bagian dasar dari luasnya teknologi. XML yang dibuat dengan baik akan menghasilkan dokumen XML yang dapat di representasi sebagai struktur pohon. Industri teknologi informasi menggunakan banyak bahasa yang berdasarkan pada XML sebagai bahasa yang bersifat data-description. Tag XML menyerupai tag HTML, tapi XML lebih fleksibel karena memungkinkan pengguna mendefinisikan tagnya sendiri. HTML merupakan bahasa representasi, sedangkan XML adalah bahasa data-description. Cara bertindak XML seperti sebuah meta-language, di mana XML dapat digunakan untuk mendefinisikan bahasa lain.

XSLT adalah salah satu bahasa pemrograman XML untuk melakukan konversi dokumen menjadi berbagai bentuk format dokumen yang sesuai dengan standar XML. Sandar dokumen XML diatur dalam standar yang dikeluarkan oleh W3C. XLST merupakan salah satu metode yang perlu dikuasai oleh orang yang sehari-hari bekerja di lingkungan teknologi informasi, terutama orang yang akrab dengan pengembangan Website. Setelah menguasai konsep tersebut akan mempermudah pengguna mengembangkan suatu sistem yang dapat menampilkan berbagai informasi ke dalam berbagai jenis peralatan komputer. HTML dan XML merupakan topik yang sebaiknya dikuasai sebelum mempelajari tentang konsep XLST agar lebih mudah melalui tahapan proses untuk menguasainya. Selain populer, metode XLST merupakan metode yang memiliki kemampuan untuk menghasilkan dokumen yang sesuai dengan standar XML.

Halaman