Teknologi Speech Recognition
Voice Command Recognition System atau yg sering kali dianggap menggunakan teknologi Speech Recognition (pengenalan kalimat/istilah). Dalam ilmu komputer serta teknik elektronik ialah sebuah sistem yg membarui kalimat suara menjadi kode-kode digital yang berfungsi menjadi perintah buat melakukan sesuatu pada sistem. Menjadi model ialah mengemudikan kendaraan, mematikan/menghidupkan Lampu, maupun tugas-tugas yang lainnya. Beberapa sistem speech recognition umumnya menggunakan speaker-independent speech recognition sementara yang lainnya menggunakan pembinaan. Training ini merupakan pelatihan yang dilakukan oleh user terhadap sistem Speech Recognition. Seseorang user akan membacakan teks-teks tertentu yg kemudian secara otomatis akan dimasukan kedalam sistem Speech Recognition.
Performansi
Kinerja berasal sebuah ystem speech recognition umumnya ditinjau pada hal ketepatan serta kecepatan. Ketepatan biasanya dinilai dengan taraf kesalahan kata (Word Error Rate – WER). Sedangkan kecepatan diukur menggunakan ystem real time. Beberapa hal-hal penting buat mengukur kinerja lainnya ialah Single Word Error Rate (SWER) serta Command Success Rate (CSR). Namun sayangnya sistem speech recognition ialah sebuah sistem yang sangat kompleks. Speech recognition juga wajib bisa melihat pengguna dalam hal pengucapan istilah wajib juga melihat aksen yang digunakan, pengucapan pengguna, sambungan istilah, kekerasan istilah, sifat suara berasal istilah, nada yang terdengar, akbar volume yg terdengar dan kecepatan dari pengucapan sang oleh pengguna. Acapkali kali speech recognition terganggu sang suara latar serta gaung. Terkadang ketepatan dari sistem speech recognition bervariasi diantaranya :
berukuran kosakata dan kosakata yang membingungkan.
kata-kata yg berurutan, Terputus, atau istilah tunggal.
Pembatas istilah dan beban kata.
istilah-istilah impulsif dan kata-kata yg dibaca.
kata-kata yang berlawanan.
Algoritma
ada tiga buah prosedur pemecahan yang digunakan sang speech recognition di masa kini ini yaitu dengan Hidden Markov Models, Dynamic Time Warping, serta Neural Network. Berikut dibawah ini merupakan penerangan mengenai prosedur pemecahan -algoritma tersebut:
Hidden Markov Models
prosedur pemecahan yg dipergunakan di sistem speech recognition merupakan prosedur pemecahan Hidden Markov model. algoritma ini menggunakan permodelan statistic yg membuat keluaran berupa susunan symbol atau jumlah. HMM dipergunakan pada sistem ini disebabkan karena kalimat bisa dilihat sebagai piecewise stationary signal, sebagai akibatnya setiap perkataan dapat dicermati sebagai pendekatan sebuah proses yg tidak berkiprah/tetap.
algoritma ini akan membuat sebuah urutan berasal vector real-valued menggunakan n-dimensi. Vector ini akan mempunyai koefisien cepstral (merupakan akibat dari bentuk Inverse Fourier transform pada logaritma yg mencari spectrum berasal sebuah signal), yang didapat asal sebuah transformasi fourier menggunakan saat yang pendek dari perkataan dan memotong-motong spectrum tersebut menggunakan transformasi Cosine serta merogoh koefisien yang terbesar. prosedur pemecahan ini akan mempunyai setiap bentuk sebuah statistic distribusi yang artinya campuran asal Diagonal Covariance Gaussian, sehingga akan memberikan kemungkinan buat setiap vector yang teramati. Setiap istilah atau kalimat akan membuat distribusi statistic hidden markov model, sebagai akibatnya bisa dipergunakan buat memperkirakan kalimat yg diucapkan sang pengguna.
Dynamic Time Warping
adalah sebuah prosedur pemecahan buat mengukur persamaan antara 2 buah urutan yg dapat tidak selaras didalam saat maupun kecepatan. Menjadi model merupakan seorang berjalan lambat juga cepat maka data tadi dapat pada jadikan representasi linear sebagai akibatnya bisa pada analisa menggunakan DWT. dalam bahasa awam, algoritma ini artinya sebuah metode buat menemukan persamaan yang optimal antara dua urutan dengan restriksi eksklusif.
Neural Network
Algoritma ini dipergunakan buat memperkirakan kemungkinan berasal sebuah istilah-kata. Dengan training yang membedakan antara yang satu dengan yg lainnya sebagai akibatnya sangat efisien penggunaannya. Pada masa sekarang prosedur pemecahan RNN (Recurrent Neural Network) dan TDNN (Time delay Neural Network) sudah dipergunakan buat menentukan kekurangan ad interim yang tersembunyi di pengenalan kata serta menggunakan berita yg tersedia buat membentuk jalan yg paling efisien serta paling efektif pada pengenalan kalimat. Namun hal ini membentuk porto komputasi yang tinggi (besarnya komputasi akan membuat kecepatan komputasi yg rendah) sehingga tidk efektif pada pengenalan kalimat. Di masa kini penelitian masih permanen dilakukan sehingga memastikan bahwa TDNN serta RNN bisa digunakan tetapi dengan menekan nilai komputasi yang rendah.
Source : https://galanghakim.wordpress.com/2016/10/11/teknologi-voice-command-recognition/
