Seiring dengan berkembangnya volume informasi, terjadi pertumbuhan minat untuk menemukan cara yang lebih baik untuk mencari, menapis dan mengelola informasi tersebut. Suatu Klasifikasi teks mengelompokkan dokumen ke dalam satu atau lebih kategori yang sudah ter-definisi sebelumnya ke dalam kelas-kelas dari dokumen-dokumen yang sama. Algoritma Naïve Bayes dibuat berdasarkan Teorema Bayes yang digunakan untuk menghitung probabilitas terjadinya suatu peristiwa berdasarkan pengaruh yang didapat dari hasil pengamatan. Teorema Bayes menerangkan hubungan antara probabilitas terjadinya peristiwa A dengan syarat peristiwa B telah terjadi dan probabilitas terjadinya peristiwa B dengan syarat peristiwa A telah terjadi. Teorema ini didasarkan pada prinsip bahwa tambahan informasi dapat memperbaiki probabilitas. Teorema Bayes ini bermanfaat untuk mengubah atau memperbaharui probabilitas yang dihitung dengan tersedianya data dan informasi tambahan.Teori probabilitas Bayesian merupakan bagian dari cabang teori statistik matematis yang memungkinkan untuk membuat model ketidakpastian dari suatu kejadian yang terjadi dengan menggabungkan pengetahuan umum dengan fakta dari hasil pengamatan. Contohnya bila seseorang mengamati kejadian B dan mempunyai keyakinan bahwa ada kemungkinan B akan muncul, maka probabilitas B disebut probabilitas prior. Setelah ada informasi tambahan bahwa misalnya kejadian A telah muncul, mungkin akan terjadi perubahan terhadap perkiraan semula mengenai kemungkinan B untuk muncul. Probabilitas untuk B berubah menjadi probabilitas bersyarat akibat A, hal tersebut disebut sebagai probabilitas posterior. Teorema Bayes merupakan mekanisme untuk memperbaharui probabilitas prior menjadi probabilitas posterior.
Algoritma Naïve Bayes memiliki banyak keuntungan dan kekurangan yang menjadi pertimbangan untuk menggunakan metode tersebut. Kelebihan yang dimiliki antara lain: Bisa dipakai untuk data kuantitatif maupun kualitatif, tidak memerlukan jumlah data yang banyak, tidak perlu melakukan data training yang banyak, jika ada nilai yang hilang maka bisa diabaikan dalam perhitungan, perhitungannya cepat dan efisien, mudah dipahami, mudah dibuat, proses klasifikasi dokumen bisa dilakukan personalitas dan disesuaikan dengan kebutuhan, jika digunakan dalam bahasa pemrograman, kode program-nya sederhana dan bisa digunakan untuk klasifikasi permasalahan biner dan multi-class. Walaupun memiliki banyak kelebihan, tetapi algoritma tersebut juga memiliki kekurangan yang perlu di pertimbangkan ketika ingin menerapkan algortima tersebut. Kekurangan Naïve Bayes antar lain: apabila probabilitas kondisi bernilai nol maka probabilitas prediksi juga bernilai nol, asumsi bahwa masing-masing variabel independen membuat berkurangnya akurasi, tingkat keakuratan tidak bisa diukur menggunakan satu probabilitas saja, keberhasilan percobaan sangat bergantung pada pengetahuan awal, banyak celah yang bisa mengurangi efektivitas dan yang terakhir dirancang untuk pendeteksian kata-kata saja sehingga tidak bisa melakukan pendeteksian data berupa gambar.
Algoritma Naïve Bayes kurang lebih ditemukan pada pertengahan abad ke-18. Pada saat itu algoritma ini dikenal dengan banyak nama. Naïve Bayes merupakan metode klasifikasi dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris bernama Reverend Thomas Bayes. Naïve Bayes merupakan metode klasifikasi yang berdasarkan pada Teorama Bayes.Teori tersebut digunakan untuk membuat perkiraan peluang di masa depan berdasarkan pengalaman di masa sebelumnya. Selain ilmuwan Thomas Bayes juga seorang pendeta presbyterian. Ketika masih hidup Reverend Thomas Bayes banyak mempelajari tentang hal-hal mengenai klasifikasi, namun setelah beliau meninggal, temannya yang menggantikannya untuk menunjukkan atau melakukan presentasi hasil penelitiannya. Algoritma Naïve Bayes populer dikenal sebagai metode untuk mengelompokkan teks dan membuat kategori kata berdasarkan frekuensi kata-kata. Sesuai namanya, algoritma Naïve Bayes disebut demikian karena cirinya yang “naïve”, yaitu mengasumsikan bahwa setiap variabel bersifat independen, bebas antara satu sama lain dan tidak memiliki hubungan atau korelasi yang bisa memengaruhi hasilnya.
Proses transfer informasi pada zaman modern telah sampai kepada era elektronik, hal tersebut ditandai dengan semakin banyak teknologi komputer dan jaringan Internet yang digunakan sebagai sarana penyampaian informasi. Informasi yang beredar melalui teknologi tersebut semakin banyak seiring dengan semakin banyaknya dokumen yang tersimpan dan dikirimkan melalui komputer dan jaringan Internet. Hal ini menyebabkan kebutuhan untuk melakukan klasifikasi terhadap dokumen-dokumen tersebut. Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek. Klasifikasi merupakan proses awal dari proses mengelompokkan data. Proses klasifikasi dokumen merupakan proses yang sangat penting dalam bidang sistem informasi, khususnya dalam proses data mining. Ada banyak teknik klasifikasi dokumen, di antaranya adalah Naïve Bayes classifier, Decision Trees, dan Support Vector Machines. Metode Naïve Bayes classifier merupakan metode yang paling populer digunakan dalam klasifikasi dokumen. Asumsi yang digunakan dalam melakukan klasifikasi dokumen adalah dokumen dipandang sebagai kumpulan kata-kata yang saling bebas, dan proses klasifikasi dokumen dilakukan dengan pengecekan kata-kata yang menyusun informasi di dalam dokumen tersebut. Penentuan kelas dari dokumen sampel dilakukan dengan cara menghitung besarnya peluang kata-kata pada dokumen suatu kelas yang muncul pada dokumen sampel yang dianalisis.
Walaupun Naïve Bayes dianggap memiliki asumsi yang terlalu sederhana, namun Naïve Bayes dapat bekerja dengan baik untuk menangani masalah-masalah nyata yang rumit. Berbagai hasil analisis penelitian menyatakan bahwa metode tersebut disimpulkan sebagai salah satu metode klasifikasi yang memiliki tingkat akurasi tinggi. Selain itu, Naïve Bayes memberikan performa dan hasil yang lebih baik ketika dibandingkan dengan metode-metode lain seperti random forest dan boosted trees. Metode Naïve Bayes digunakan untuk berbagai tujuan, antara lain klasifikasi dokumen teks seperti teks berita atau teks akademis, sebagai metode machine learning, membuat diagnosis medis secara otomatis dan pendeteksian spam. Teknik Klasifikasi teks juga bisa digunakan untuk memecahkan suatu kasus teks yang mengandung kata homograf. Homograf adalah kata yang memiliki kesamaan ejaan, tetapi berbeda lafal dan maknanya. Dengan adanya klasifikasi teks homograf maka akan memudahkan pengguna mengenali speech homograf dengan mudah dan benar.
Proses analisis dengan Algoritma Naïve Bayes Classifier dilakukan dengan beberapa tahapan proses. Sebagai contoh, untuk pendeteksian email spam dengan algoritma Naïve Bayes Classifier dilakukan melalui lima tahapan. Tahap pertama bernama Identify the prerequisites to train a Naive Bayes classifier. Tahap tersebut dilakukan untuk identifikasi parameter yang diperlukan untuk data training. Tahap kedua bernama Computing the Term-Document Matrix (TDM) for each class. Tahap tersebut bertujuan untuk menghitung nilai TDM pada masing-masing class yang terbentuk. Tahap ketiga bernama Compute frequencies. Setelah TDM untuk setiap kelas dihitung, langkah selanjutnya adalah menghitung frekuensi dan pemunculan setiap istilah pada objek pengamatan. Tahap keempat bernama Recall the Naive Bayes rule. Tahap tersebut menghitung nilai probabilitas posterior yang digunakan sebagai acuan bahwa suatu email dapat disimpulkan sebagai spam. Tahap kelima atau terakhir bernama Compute the probability of an incoming email being Spam or Ham. Tahap tersebut melakukan perhitungan probabilitas spam dan ham pada setiap email yang masuk. Kesimpulan diperoleh dengan membandingkan kedua probabilitas tersebut. Jika nilai probabilitas spam lebih besar maka email yang masuk dianggap spam. Jika nilai probabilitas ham lebih besar maka email tersebut dianggap sebagai ham.
Algoritma Naïve Bayes memiliki banyak keuntungan dan kekurangan yang menjadi pertimbangan untuk menggunakan metode tersebut. Kelebihan yang dimiliki antara lain: Bisa dipakai untuk data kuantitatif maupun kualitatif, tidak memerlukan jumlah data yang banyak, tidak perlu melakukan data training yang banyak, jika ada nilai yang hilang maka bisa diabaikan dalam perhitungan, perhitungannya cepat dan efisien, mudah dipahami, mudah dibuat, proses klasifikasi dokumen bisa dilakukan personalitas dan disesuaikan dengan kebutuhan, jika digunakan dalam bahasa pemrograman, kode program-nya sederhana dan bisa digunakan untuk klasifikasi permasalahan biner dan multi-class. Walaupun memiliki banyak kelebihan, tetapi algoritma tersebut juga memiliki kekurangan yang perlu di pertimbangkan ketika ingin menerapkan algortima tersebut. Kekurangan Naïve Bayes antar lain: apabila probabilitas kondisi bernilai nol maka probabilitas prediksi juga bernilai nol, asumsi bahwa masing-masing variabel independen membuat berkurangnya akurasi, tingkat keakuratan tidak bisa diukur menggunakan satu probabilitas saja, keberhasilan percobaan sangat bergantung pada pengetahuan awal, banyak celah yang bisa mengurangi efektivitas dan yang terakhir dirancang untuk pendeteksian kata-kata saja sehingga tidak bisa melakukan pendeteksian data berupa gambar.
Algoritma Naïve Bayes kurang lebih ditemukan pada pertengahan abad ke-18. Pada saat itu algoritma ini dikenal dengan banyak nama. Naïve Bayes merupakan metode klasifikasi dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris bernama Reverend Thomas Bayes. Naïve Bayes merupakan metode klasifikasi yang berdasarkan pada Teorama Bayes.Teori tersebut digunakan untuk membuat perkiraan peluang di masa depan berdasarkan pengalaman di masa sebelumnya. Selain ilmuwan Thomas Bayes juga seorang pendeta presbyterian. Ketika masih hidup Reverend Thomas Bayes banyak mempelajari tentang hal-hal mengenai klasifikasi, namun setelah beliau meninggal, temannya yang menggantikannya untuk menunjukkan atau melakukan presentasi hasil penelitiannya. Algoritma Naïve Bayes populer dikenal sebagai metode untuk mengelompokkan teks dan membuat kategori kata berdasarkan frekuensi kata-kata. Sesuai namanya, algoritma Naïve Bayes disebut demikian karena cirinya yang “naïve”, yaitu mengasumsikan bahwa setiap variabel bersifat independen, bebas antara satu sama lain dan tidak memiliki hubungan atau korelasi yang bisa memengaruhi hasilnya.
Proses transfer informasi pada zaman modern telah sampai kepada era elektronik, hal tersebut ditandai dengan semakin banyak teknologi komputer dan jaringan Internet yang digunakan sebagai sarana penyampaian informasi. Informasi yang beredar melalui teknologi tersebut semakin banyak seiring dengan semakin banyaknya dokumen yang tersimpan dan dikirimkan melalui komputer dan jaringan Internet. Hal ini menyebabkan kebutuhan untuk melakukan klasifikasi terhadap dokumen-dokumen tersebut. Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek. Klasifikasi merupakan proses awal dari proses mengelompokkan data. Proses klasifikasi dokumen merupakan proses yang sangat penting dalam bidang sistem informasi, khususnya dalam proses data mining. Ada banyak teknik klasifikasi dokumen, di antaranya adalah Naïve Bayes classifier, Decision Trees, dan Support Vector Machines. Metode Naïve Bayes classifier merupakan metode yang paling populer digunakan dalam klasifikasi dokumen. Asumsi yang digunakan dalam melakukan klasifikasi dokumen adalah dokumen dipandang sebagai kumpulan kata-kata yang saling bebas, dan proses klasifikasi dokumen dilakukan dengan pengecekan kata-kata yang menyusun informasi di dalam dokumen tersebut. Penentuan kelas dari dokumen sampel dilakukan dengan cara menghitung besarnya peluang kata-kata pada dokumen suatu kelas yang muncul pada dokumen sampel yang dianalisis.
Walaupun Naïve Bayes dianggap memiliki asumsi yang terlalu sederhana, namun Naïve Bayes dapat bekerja dengan baik untuk menangani masalah-masalah nyata yang rumit. Berbagai hasil analisis penelitian menyatakan bahwa metode tersebut disimpulkan sebagai salah satu metode klasifikasi yang memiliki tingkat akurasi tinggi. Selain itu, Naïve Bayes memberikan performa dan hasil yang lebih baik ketika dibandingkan dengan metode-metode lain seperti random forest dan boosted trees. Metode Naïve Bayes digunakan untuk berbagai tujuan, antara lain klasifikasi dokumen teks seperti teks berita atau teks akademis, sebagai metode machine learning, membuat diagnosis medis secara otomatis dan pendeteksian spam. Teknik Klasifikasi teks juga bisa digunakan untuk memecahkan suatu kasus teks yang mengandung kata homograf. Homograf adalah kata yang memiliki kesamaan ejaan, tetapi berbeda lafal dan maknanya. Dengan adanya klasifikasi teks homograf maka akan memudahkan pengguna mengenali speech homograf dengan mudah dan benar.
Proses analisis dengan Algoritma Naïve Bayes Classifier dilakukan dengan beberapa tahapan proses. Sebagai contoh, untuk pendeteksian email spam dengan algoritma Naïve Bayes Classifier dilakukan melalui lima tahapan. Tahap pertama bernama Identify the prerequisites to train a Naive Bayes classifier. Tahap tersebut dilakukan untuk identifikasi parameter yang diperlukan untuk data training. Tahap kedua bernama Computing the Term-Document Matrix (TDM) for each class. Tahap tersebut bertujuan untuk menghitung nilai TDM pada masing-masing class yang terbentuk. Tahap ketiga bernama Compute frequencies. Setelah TDM untuk setiap kelas dihitung, langkah selanjutnya adalah menghitung frekuensi dan pemunculan setiap istilah pada objek pengamatan. Tahap keempat bernama Recall the Naive Bayes rule. Tahap tersebut menghitung nilai probabilitas posterior yang digunakan sebagai acuan bahwa suatu email dapat disimpulkan sebagai spam. Tahap kelima atau terakhir bernama Compute the probability of an incoming email being Spam or Ham. Tahap tersebut melakukan perhitungan probabilitas spam dan ham pada setiap email yang masuk. Kesimpulan diperoleh dengan membandingkan kedua probabilitas tersebut. Jika nilai probabilitas spam lebih besar maka email yang masuk dianggap spam. Jika nilai probabilitas ham lebih besar maka email tersebut dianggap sebagai ham.