Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Aplikasi Pengenalan Pola Suara Manusia Berdasarkan Gender Me

No description
by

mega putri

on 24 September 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Aplikasi Pengenalan Pola Suara Manusia Berdasarkan Gender Me

Aplikasi Pengenalan Pola Suara Manusia Berdasarkan
Gender
Menggunakan Algoritma MFCC
(Mel-frequency Cepstrum Coefficients)

Manfaat Penelitian
Diharapkan sistem yang menggunakan algoritma MFCC dapat meng-ekstraksi ciri pola suara lebih baik
Sebagai wahana untuk melatih dan mengembangkan kemampuan dalam bidang ini
Memberikan informasi yang berguna bagi pembaca
Framming
Karena signal suara terus mangalami perubahan akibat adanya pergeseran artikulasi dari organ produksi vocal, signal harus diproses secara short segments (short frame).
Parameter - Parameter Yang Digunakan
Pitch
Rumusan Masalah
Berdasarkan latar belakang tersebut maka dipaparkan rumusan masalah sebagai berikut :

Bagaimana cara mendapatkan ekstraksi ciri pola suara dengan algoritma MFCC
Bagaimana mengolah ekstaksi ciri pola suara yang telah didapat untuk dapat membedakan gender dari pemilik suara (manusia) tersebut
Latar Belakang
Proses pengenalan suara manusia tidak mudah dilakukan oleh komputer
Penelitian pembuatan Aplikasi Pengenalan Pola Suara Manusia Berdasarkan Gender ini merupakan suatu misi yang dibuat untuk mencapai sebuah Visi.
Visi : Aplikasi ini akan dikembangkan menjadi sebuah Aplikasi Yang Bisa Mengenali Identitas Manusia Berdasarkan Suaranya
Pemrosessan Suara
Berdasarkan sinyal eksitasi yang dihasilkan pada produksi pita suara, sinyal suara ucapan dapat dibagi menjadi tiga bagian yaitu :

Voiced
(V) terjadi saat vocal cords berada dalam keadaan tegang, sehingga aliran udara akan menyebabkan terjadinya vibrasi pada vocal cords dan menghasilkan bunyi ucapan. Contoh suara voiced ini adalah: ‘a’,’i’.
Unvoiced
(U): terjadi saat vocal cords tidak melakukan vibrasi, sehingga suara yang dihasilkan bersifat random. Sinyal suara ini lebih menyerupai noise atau sinyal pengganggu. Contoh suara unvoiced adalah: ‘s’,’sh’.
Silence
(S): sinyal pada saat tidak terjadi proses produksi suara ucapan.

Mel Filter Bank Processing
Persepsi sistem pendengaran manusia terhadap frekuensi sinyal suara ternyata tidak hanya bersifat linear. Penerimaan sinyal suara untuk frekuensi rendah (<1k Hz) bersifat linear, dan untuk frekuensi tinggi (>1k Hz) bersifat logaritmik. Jadi, untuk setiap nada dengan frekuensi sesungguhnya , sebuah pola diukur dalam sebuah skala yang disebut “mel” (berasal dari Melody).
Sebuah pendekatan untuk simulasi spektrum dalam skala mel adalah dengan menggunakan filter bank yang diletakkan secara seragam dalam skala mel seperti yang ditunjukkan pada Gambar 10 Mel Fiter Bank Processing Spectrum dimana setiap frame yang diperoleh dari tahapan sebelumnya difilter menggunakan M filter segitiga sama tinggi dengan tinggi satu.
Pemrosessan Suara
Sinyal suara dapat direpresentasikan dalam domain frekuensi dan domain waktu
Frekuensi dinyatakan sebagai jumlah periode yang dilalui oleh satu gelombang dalam waktu 1 detik.
Amplitudo adalah kekuatan atau daya gelombang sinyal. Gelombang amplitudo yang lebih tinggi diinterpretasikan sebagai volume yang lebih tinggi.
Perlu diingat bahwa plot sinyal dalam domain frekuensi hanya memperhatikan amplitudo puncak dari suatu sinyal.
Pre-Emphasize
Tahap ini memproses sinyal yang lewat melalui filter yang menekankan frekuesi yang lebih tinggi. Filter ini mempertahankan frekuensi-frekuensi tinggi pada sebuah spektrum, yang umumnya tereliminasi pada saat proses produksi suara. Tujuan dari Pre – emphasize Filtering ini adalah (Manunggal, 2005) mengurangi noise ratio pada signal, sehingga dapat meningkatkan kualitas signal.
Berbagai Macam Kebutuhan Seperti Untuk Memperkuat Sistem Keamanan
Tingkat persentase akurasi metode lain masih terbilang kurang yaitu sekitar 70% maka dari itu dibuatlah Aplikasi Pengenalan Pola Suara Manusia Berdasarkan Gender Menggunakan Algoritma MFCC yang diharapkan mempunyai persentase keakuratan lebih besar.
Bagaimana membangun sebuah aplikasi Pengenalan Pola Suara Manusia Berdasarkan Gender dengan menerapkan algoritma MFCC
Bagaimana cara membedakan gender jika suara yang diujikan dengan suara yang direkam tidak mengatakan suata kata atau kalimat yang sama.
Tujuan Penelitian
Adapun tujuan penelitian dalam tugas akhir ini adalah :
Untuk mendapatkan ekstraksi ciri dari pola data suara manusia berdasarkan gender dengan algoritma MFCC
Untuk mengolah lebih lanjut ekstraksi ciri yang telah didapat
Membangun aplikasi yang dapat mengenali gender manusia berdasarkan suaranya
Batasan Masalah
Adapun batasan masalah dalam penelitian ini adalah :
Input suara yang diambil disesuaikan dengan kondisi lingkungan yang ideal dengan gangguan suara (noise) se-minimal mungkin
Tidak melakukan pengujian dengan membandingkan dengan metode pengenalan suara lain
Aplikasi yang dibangun hanya bisa dijalankan sesuai spesifikasi hardware dan software yang telah ditentukan
Menggunaka microphone untuk pengambilan suara
Hanya digunakan untuk mendeteksi suara manusia (Indonesia) yang berumur 18-40 tahun
Adapun Manfaat Penelitian ini adalah :
Parameter - Parameter Yang Digunakan
Formant
Formant adalah frekuensi resonansi alami yang terjadi di dalam rongga bidang suara, tergantung pada bentuk dan ukuran bidang suara. Vokal umunya mempunyai 3 formant F1, F2, dan F3. Dengan batas F1 = 500 – 2000 Hz , F2 = 2000 – 3000 Hz , dan F3 = 3000 – 4000 Hz.
Tinggi rendah nada dalam bunyi dinamakan pitch (F0).
Pitch atau tinggi nada adalah hasil akustik dari kecepatan pita suara.
Pitch ini dapat digunakan sebagai ciri suara, dimana metode yang digunakan dengan menggunakan analisis cepstrum.
Level habitual pitch berkisar pada F0 = 0 – 500 Hz dimana F0 = 50 - 250 Hz untuk laki-laki dan F0 = 120 - 500 Hz untuk perempuan.
Analisa pitch dapat digunakan untuk melakukan voice recognition terhadap suara seseorang yaitu melalui analisa terhadap nilai minimum pitch, maximum pitch dan mean pitch
Mel-Frequency Cepstrum Coefficients (MFCC)
Mel-frequency cepstrum coefficient merupakan mode yang paling dikenal dan paling banyak digunakan pada bidang ekstraksi fitur suara. MFCC memetakan komponen frekuensi menggunakan skala Mel yang dimodelkan berdasarkan persepsi suara dari kuping manusia.
Diagram Proses MFCC
Contoh Dari Pre-Emphasize Pada Sebuah Frame
Short Term Spectral Analysis (Manunggal, 2005)
Hamming Windowing
Hamming window dipakai sebagai bentuk window dengan mempertimbangkan block dalam rantai proses ekstraksi fitur berikutnya dan menyatukan semua garis frekuensi terdekat
Fast Fourier Transform
Tahap ini dilakukan untuk merubah setiap N contoh frame dari domain waktu ke domain frekuensi.
Hasil keluaran dari Fourier transform ini adalah spectogram.
Langkah terakhir yaitu mengubah spektrum log mel menjadi domain waktu. Hasil ini disebut Mel-frequency cepstrum coefficient (MFCC)
Discrete Cosine Transform
Discrete Cosine Transform (DCT) biasa digunakan untuk mengubah sebuah sinyal menjadi komponen frekuensi dasarnya.
Learning Vector Quantization ( LVQ )
LVQ digunakan untuk pengelompokkan dimana jumlah kelompok sudah ditentukan arsitekturnya (target/kelas sudah ditentukan).
LVQ sendiri merupakan salah satu metode dalam JST untuk melakukan pembelajaran pada lapisan kompetitif yang terawasi
Arsitektur jaringan yang digunakkan dalam pembelajaran jaringan LVQ adalah jaringan dengan lapisan tunggal (single layer net)
Blok Diagram System
Mega Buana Putri Nugrahani
152010054
Full transcript