27 Agustus 2019

FP-Growth Menghasilkan Frequent Pattern Suatu Itemset Dengan Cepat Dan Efisien

Algoritma FP-Growth merupakan pengembangan dari algoritma Apriori. Algortima tersebut menggunakan sebuah struktur data yang sangat padat untuk memperkecil ukuran basis data transaksi asli. FP-growth menggunakan pendekatan yang berbeda dari paradigma yang digunakan pada algoritma Apriori. FP-growth adalah salah satu alternatif algoritma yang dapat digunakan untuk menentukan frequent itemset, frequent Itemset merupakan himpunan data yang paling sering muncul dalam sebuah kumpulan data. Algoritma FP-Growth menggunakan konsep pembangunan tree, yang biasa disebut dengan FP-Tree untuk mencari frequent itemset bukan menggunakan generate candidate seperti yang dilakukan pada algoritma Apriori. Algoritma Apriori dan FP-growth memiliki fungsi utama sama, yaitu untuk menggali frequent itemset pada suatu basis data. Hal yang membedakan antara kedua-nya terletak pada proses yang dilalui. Jika Apriori menggali frequent itemset dengan menguji sekumpulan kandidat itemset, FP-Growth menggali informasi tersebut dengan cara membuat struktur pohon menggunakan FP-Tree tanpa melakukan pembentukan sekumpulan kandidat itemset terlebih dahulu. Informasi yang digali tersebut dapat dimanfaatkan untuk berbagai tujuan, mulai dari untuk tujuan bisnis guna meningkatkan taraf ekonomi hingga untuk tujuan yang memiliki dampak lebih besar. Perangkat lunak yang digunakan sebagai alat bantu melakukan penggalian data dengan algoritma FP-Growth antara lain Rapid Miner, WEKA dan SAS. Ketiga perangkat lunak tersebut dapat diperoleh dari Internet melalui masing-masing website.

Penggalian association rules adalah suatu prosedur untuk mencari hubungan antar barang dalam suatu dataset. Proses penggalian dimulai dengan mencari frequent itemset, yaitu kombinasi barang yang paling sering terjadi dalam suatu itemset. Penggalian itemset yang sering muncul pada basis data transaksi berukuran besar adalah salah satu permasalahan yang paling menantang dalam data mining. Informasi yang ditemukan melalui proses data mining tersebut diharapkan bisa membantu operasional bisnis sehingga berubah menjadi lebih baik. Secara umum, terdapat dua tahap dalam melakukan Association Rule Mining yaitu Frequent Itemset Candidate Generation dan Rule Generation. Pada tahap penentuan Frequent Itemset Candidate Generation terdapat beberapa kendala yang harus dihadapi untuk memperoleh Frequent Itemset, seperti banyaknya jumlah kandidat yang memenuhi minimum support, dan proses perhitungan minimum support dari Frequent Itemset yang harus melakukan scanning basis data secara berulang-ulang. Dengan menggunakan FP-growth frequent itemset dapat diketahui tanpa harus menentukan candidate generation terlebih dahulu. FP-Growth menggunakan FP-Tree untuk membuat struktur data objek pengamatan. Setelah itu dilakukan pendekatan divide and conquer untuk memperoleh frequent itemset yang menjadi hasil akhir algoritma FP-Growth. Pada algoritma FP-Growth proses scanning basis data hanya dilakukan dua kali, tidak seperti algoritma Apriori yang melakukan proses scanning basis data secara berulang-ulang. Proses tersebut menjadikan Apriori membutuhkan waktu lebih lama daripada FP-Growth. Keunggulan Apriori dibandingkan FP-Growth adalah memiliki tingkat akurasi lebih tinggi daripada FP-Growth.

Algoritma FP-Growth telah banyak dikenal oleh orang dari berbagai latar belakang lingkungan pekerjaan. Contohnya dari lingkungan teknologi informasi, industri dan bisnis. Dengan menggunakan FP-Tree, algoritma FP-Growth dapat mengekstrak itemset yang diperoleh secara cepat dan praktis. Algoritma tersebut pertama kali diusulkan oleh Jiawei Han, Jian Pei dan Yiwen Yin dari universitas Simon Fraser di Kanada pada tahun 2000. Dokumentasi penelitian tersebut berupa makalah penelitian berjudul Mining frequent patterns without candidate generation. Melalui penelitian tersebut dapat diketahui bahwa FP-Growth merupakan metode yang efisien dan fleksibel untuk menemukan long frequent pattern dan short frequent pattern. Selain itu FP-Growth juga lebih cepat dari algoritma Apriori dan berbagai metode frequent pattern mining baru pada saat itu.

Dalam banyak skenario dunia nyata, data tidak di-ekstrak dari sumber data tunggal tetapi dari data yang terdistribusi dan bersifat heterogen. Algoritma FP-Growth pada data mining memiliki tujuan untuk menemukan pola yang sering terjadi dari basis data berukuran besar. Data mining digunakan untuk menggali berbagai data berukuran besar menggunakan pandangan atau perspektif yang berbeda-beda, kemudian meringkas data tersebut menjadi informasi yang lebih bernilai. Saat ini FP-Growth merupakan salah satu algortima data mining yang paling cepat untuk menghasilkan informasi tentang frequent itemset. FP-Growth dapat dimanfaatkan untuk mendapatkan pola akses yang sering muncul dari data pencatatan suatu website. Informasi tersebut bermanfaat untuk mengetahui tentang minat pengunjung website sehingga administrator dapat memberikan tindak lanjut agar website yang dikelola menjadi lebih baik. Contoh lain, jumlah penduduk Indonesia diperkirakan akan mencapai jumlah lebih dari dua ratus tujuh puluh satu juta pada tahun 2020. Sehingga dapat diperoleh kesimpulan bahwa Indonesia merupakan pasar yang potensial untuk perusahaan kosmetik. Berbagai organisasi dunia juga memperkirakan bahwa Indonesia dan Vietnam akan menjadi pasar kosmetik paling cepat tumbuh di kawasan Asia. Melalui informasi tersebut para pengusaha kosmetik dapat membuat berbagai rencana dan strategi untuk meningkatkan laba penjualan.

Dalam metode data mining, association rules adalah salah satu yang paling populer. Assosiation rules mining digunakan untuk mencari hubungan korelasi atau asosiasi antar barang pada sebuah dataset. Analisis asosiasi dikenal sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya. FP-Growth merupakan salah satu algoritma yang termasuk dalam association rule mining. Algoritma FP-Growth merupakan pengembangan dari algoritma Apriori. Association rules merupakan suatu proses pada data mining untuk menentukan semua aturan asosiatif yang memenuhi syarat minimum untuk support dan confidance pada basis data. Contoh aturan asosiatif dari analisis pembelian di swalayan adalah mencari kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Lift ratio digunakan untuk mengukur seberapa penting rule yang telah terbentuk berdasarkan nilai support dan nilai confidence. Lift ratio adalah perbandingan antara nilai confidence dengan nilai benchmark confidence. Benchmark confidence adalah perbandingan antara jumlah semua item consequent terhadap jumlah total transaksi. Apabila nilai lift ratio lebih besar dari satu, maka aturan tersebut dapat disimpulkan memberikan manfaat. Semakin tinggi nilai lift ratio yang tercipta maka semakin besar pula kekuatan asosiasi-nya.

Metode FP-Growth terbagi menjadi tiga tahapan yaitu: tahap pembangkitan conditional pattern base, tahap pembangkitan conditional FP-Tree, dan tahap pencarian frequent itemset. Ketiga tahap tersebut merupakan langkah yang perlu dilakukan untuk mendapat frequent itemset. Ketiganya dapat diterapkan dengan baik menggunakan perangkat lunak Rapid Miner, SAS dan WEKA. Tahap pembangkitan Conditional Pattern Base merupakan bagian basis data yang berisi tentang lintasan prefix dan pola akhiran. Pembangkitan conditional pattern base diperoleh dengan menggunakan algoritma FP-Tree. Tahap pembangkitan Conditional FP-Tree. dilakukan dengan menjumlahkan support count dari setiap barang pada setiap conditional pattern base, kemudian setiap barang yang memiliki jumlah support count lebih besar atau sama dengan minimum support count akan dibangkitkan dengan conditional FP-Tree. Pada tahap pencarian frequent itemset apabila Conditional FP-Tree. merupakan lintasan tunggal, maka frequent itemset diperoleh dengan menggabungkan barang untuk setiap conditional FP-Tree. Jika bukan lintasan tunggal, maka dilakukan pembangkitan FP-growth secara rekursif.