Speech Recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan dengan melakukan konversi sebuah sinyal akustik, yang ditangkap oleh audio device (perangkat input suara). Sistem ini dapat digunakan untuk menggantikan peranan keyboard dan mouse sebagai perangkat masukan komputer. Kata-kata tersebut diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka lalu disesuaikan dengan kode-kode tertentu dan dicocokkan dengan suatu pola yang tersimpan dalam suatu perangkat. Hasil dari identifikasi kata yang diucapkan ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi. Voice Recognition adalah suatu sistem yang dapat mengidentifikasi seseorang melalui suaranya, pada saat saya mencari pengertiaan dari voice recognition terdapat juga pengertian Speech Recognition yang hampir sama secara fungsinya. Tapi terdapat perbedaan antara keduanya, Voice Recognition mengidentifikasi orang yang sedang berbicara, tetapi Speech Recognition mengidentifikasi tentang isi pesan yang diucapkan. Tetapi istilah voice recognition terkadang juga digunakan untuk mendeskripsikan speech recognition. Speech recognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasil proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisis dengan membandingkan dengan template suara pada basis data sistem.
Keuntungan dari sistem ini adalah pada kecepatan dan kemudahan dalam penggunaannya. Sistem berbasis perintah suara umumnya dapat diakses oleh semua orang. Sistem yang menjamin unsur privacy harus dapat memenuhi unsur biometrik atau behaviour dari penggunanya. Memproses pengenalan pengguna berdasarkan unsur biometrik atau behaviour memerlukan perangkat komputerisasi. Hal ini membutuhkan komputer seperti PC, Laptop atau Netbook yang berperan khusus untuk mengolah perintah suara yang diterima melalui mikrofon. Proses pencarian, query dan pengisian formulir bisa lebih cepat selesai dilakukan dengan suara dibandingkan dengan menggunakan keyboard. Banyak aplikasi Electronic Medical Records (EMR) dapat menjadi lebih efektif dan dapat dilakukan lebih mudah bila menggunakan Speech Recognition. Perangkat keras mikrokontroller sering dimanfaatkan sebagai perangkat keras untuk memproses sinyal suara sekaligus menyimpan data suara. Beberapa alasan yang menyebabkan hal tersebut antara lain adalah: mudah diperoleh, lebih praktis, lebih hemat tempat, harganya lebih murah dari komputer.
Metode Hidden Markov Model mulai diperkenalkan dan dipelajari pada akhir tahun 1960, metode yang berupa model statistik dari rantai Markov ini semakin banyak dipakai pada tahun-tahun terakhir terutama dalam bidang speech recognition, seperti dijelaskan oleh Lawrence R. Rabiner dalam laporannya yang berjudul “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”. Parameter yang dibandingkan pada voice rocognition ialah tingkat penekanan suara yang kemudian dicocokkan dengan template basis data yang tersedia. Sebelum dapat mengenali suara pembicara, metode ini membutuhkan beberapa pelatihan di mana sistem tersebut akan mempelajari suara, aksen dan nada pembicara. Hal tersebut umumnya dilakukan dengan merekam serangkaian kata-kata atau perintah tekstual oleh pembicara melalui mikrofon. Tiga contoh sistem Voice Recognition atau Voice Command adalah Jasper, Raspberry Pi Voice Recognition dan Raspberry Pi Voice Control. Perangkat keras untuk menyimpan data pengguna dan mengolah proses voice recognition dapat berupa komputer atau mikrokontroller.
Ada beberapa jenis teknologi biometric antara lain adalah pengenalan melalui suara yang disebut dengan speech recognition. Biometrik merupakan suatu metoda untuk mengenali manusia berdasarkan pada satu atau lebih ciri-ciri fisik atau tingkah laku yang unik. Sistem pengenalan suara berdasarkan orang yang berbicara dinamakan dengan speaker recognition. Voice Recognition dan speech recognition adalah suatu teknik yang memungkinkan sistem komputer untuk menerima input berupa kata yang diucapkan. Voice recognition memiliki dua jenis proses untuk mencocokan suara yang diterima dengan pola suara yang telah tersimpan di basis data. Kedua proses tersebut disebut dengan Model Akustik dan Model Bahasa. Model Akustik terdiri dari fonem yang memiliki nilai tertentu yang diambil dari sinyal akustik dan Model Bahasa berupa metode yang mengestimasikan satu kata diikuti oleh serangkaian kata lainnya. Terdapat 4 langkah utama dalam sistem pengenalan suara, yaitu: Pertama, penerimaan data input. Kedua adalah melakukan ekkstraksi, yaitu penyimpanan data masukan sekaligus pembuatan basis data untuk dijadikan template. Ketiga adalah pencocokan, yaitu tahap pencocokan data baru dengan data suara pada template yang disimpan pada basis data. Keempat adalah validasi identitas pengguna.
Salah satu penerapan speech recognition adalah pada konfrensi PBB dimana speech recognition berfungsi untuk menterjemahkan bahasa pembicara dari suatu Negara kedalam bahasa yang dipahami pendengar dengan penguasaan bahasa yang berbeda. Pada tahun 2010 Microsoft windows vista dan windows 7 fungsi speech recognition telah disertakan dalam system operasinya. Speech recognition tersebut dimanfaatkan untuk menterjemahkan pengucapan kalimat menjadi bentuk teks digital. Peraangkat keras komputer baik digunakan ketika tidak ada tuntutan tentang ukuran perangkat keras yang boleh digunakan. Karena komputer pada umumnya memiliki ukuran yang besar sehingga tidak cocok untuk digunakan pada peralatan yang minimalis. Peralatan tersebut tentunya kurang praktis bila dimanfaatkan untuk mengontrol otomasi perangkat rumahan seperti sistem home automation. Mikrokontroller memiliki ukuran kecil, sehingga cocok untuk digunakan sebagai pengganti komputer untuk memproses suara masukan dan menyimpan data suara pengguna. Mikrokontroller yang banyak digunakan antara lain Arduino Duemilanove, Arduino Uno, Arduino Mega, Raspberry Pi dan Arduino Leonardo. Untuk mengkonfigurasi mikrokontroller tersebut menggunakan perangkat lunak komputer, contohnya EasyVR Commander dan Arduino IDE.
Perangkat keras yang dibutuhkan untuk menerapkan Voice Recognition minimal adalah komputer, soundcard dan mikrofon. Perangkat lunak untuk melengkapi perangkat keras tersebut antara lain: Jasper, Easy VR Shield, Raspberry Pi Voice Recognition dan Raspberry Pi Voice. Sound card merupakan perangkat yang ditambahkan dalam suatu komputer sebagai perangkat input dan output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi digital. Microphone merupakan perangkat input suara yang berfungsi untuk mengubah suara orang menjadi sinyal elektrik. Komputer berfungsi untuk melakukan proses pengolahan suara digital dan menterjemahkan gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan basis data yang berisi berkas suara agar dapat dikenali. Fungsi komputer sebagai perangkat untuk memproses sinyal suara dapat digantikan oleh mikrokontroller yang memiliki ukuran jauh lebih kecil.