Conference PaperPDF Available

Satranç Figür Seslendirmelerinin Mel Ölçeği ve Ses Görüntüsü ile Yapay Sinir Ağları Kullanılarak Sınıflandırılması Classification of Chess Figure Vocalizations Using Artificial Neural Networks with Mel Scale and Speech Image

Authors:

Abstract

Blindfold chess is of particular interest in the research of the memory structure and limits of the human brain. In blindfold chess, the player cannot see the board so the player visualizes the situation and make his moves aloud. In this study, the first step of recognition of voice commands for blindfold chess, word-based determination, and classification of chess figure vocalizations have been emphasized. Mel frequency coefficients and mel spectrograms have been used as the feature vector for audio data. The classification of these vectors has been made by using artificial neural networks. As a result of the tests, 99% success has been obtained in noisy environments.
(ICADA’22) 2nd International Conference on Artificial Intelligence and Data Science June 17-June 18, 2022
Izmir Katip Celebi University
Izmir, Turkey
Satranç Figür Seslendirmelerinin Mel Ölçeği ve Ses Görüntüsü ile Yapay Sinir
Ağları Kullanılarak Sınıflandırılması
Classification of Chess Figure Vocalizations Using Artificial Neural Networks
with Mel Scale and Speech Image
Vasif NABİYEV 1*, Eyüp Ensar KALAYCI 2
1 Bilgisayar Mühendisliği Bölümü, Karadeniz Teknik Üniversitesi, Türkiye, vasif@ktu.edu.tr
2 Bilgisayar Mühendisliği Bölümü, Marmara Üniversitesi, Türkiye, eypklyc@gmail.com
Özet Körleme satranç, insan beyninin hafıza yapısının ve nırlarının araştırılmasında özellikle ilgi
çekicidir. Körleme satrançta, oyuncu tahtayı görememekte, böylece durumu hafızasında görselleştirerek
hamlelerini sesli söylemektedir. Bu çalışmada, körleme satranç için sesli komutların tanınmasının ilk adımı,
satranç figürü seslendirmelerinin kelime tabanlı belirlenmesi ve sınıflandırılması üzerinde durulmuştur. Mel
frekans katsayıları MFCC ve Mel spektrogramları, ses verileri için öznitelik vektörü olarak kullanılmıştır. Bu
vektörlerin sınıflandırılması yapay sinir ağları ile yapılmıştır. Yapılan testler sonucunda gürültülü ortamlarda
%99 başarı elde edilmiştir.
Anahtar Sözcükler: Konuşma Tanıma, Körleme satranç, Yapay Sinir Ağları, Mel Frekans Kepstral
Katsayıları, Gürültü Azaltma.
Abstract
Blindfold chess is of particular interest in the research of the memory structure and limits of the
human brain. In blindfold chess, the player cannot see the board so the player visualizes the situation and
make his moves aloud. In this study, the first step of recognition of voice commands for blindfold chess,
word-based determination, and classification of chess figure vocalizations have been emphasized. Mel
frequency coefficients and mel spectrograms have been used as the feature vector for audio data. The
classification of these vectors has been made by using artificial neural networks. As a result of the tests, 99%
success has been obtained in noisy environments.
Keywords: Speech Recognition, Blindfold chess, Artificial Neural Networks, Mel Frequency Cepstral
Coefficients, Noise Reduction.
1. Giriş
Körleme satranç; bir oyuncunun tahtaya bakmadan, notasyonları kullanarak oynandığı satrançtır[1]. Bu
durumda oyuncu satranç tahtasını görmediği için taşları kullanamaz ve hamleleri görmeden, zihninde
canlandırarak sesli şekilde söyler. Konuşma tanıma sistemleri sesli komutun bir hamleye çevrimi için
kullanılabilmektedir. Örnek olarak Wang ve arkadaşları [2]’de körleme satranç için konuşma tanıma tabanlı bir
eğitim sistemi üzerinde çalışmışlardır. Bu nedenle gürültülü ortamlarda notasyona uygun sesli şekilde ifade
edilen hamlelerin tanınması önem taşımaktadır.
Günümüzde başarılı konuşma tanıma sistemleri genellikle fonem tabanlı istatistiksel sistemler veya uçtan-
uca derin ağların kullanımı ile çalışmaktadır. Geleneksel sistemler olan istatistiksel fonem tabanlı sistemlerde
kullanılan akustik modellerin amacı harflere ait fonemleri, kelimelere ait fonem kombinasyonları ile
eşleştirilmeye çalışmaktır. Diğer taraftan dil modelleri ise dile ait kurallarla akustik modelin başarısını artırarak
sesin tanınmasına yardımcı olmaktır. Fonemlerin belirlenmesinde ve hizalanmasında Saklı Markov Modeli
(HMM), sınıflandırılmasında ise genellikle Gauss Karışım Modeli (GMM) kullanılırken günümüzde
sınıflandırma başarısı nedeniyle Derin Sinir Ağları (DNN) tercih edilmektedir. Diğer yandan daha popüler olan
uçtan-uca yöntemler ise temelinde Yinelemeli Derin Ağları veya Transformer tabanlı olarak problemi ele
almaktadır. [3]’da oluşturulan Türkçe konuşma tanıma sisteminde fonem tabanlı HMM-GMM, HMM-DNN
yapıları kullanılarak bunların başarısı kıyaslanmıştır. Bu çalışmada, izole edilmiş satranç seslendirmelerinin
sınıflandırılması için kelime tabanlı bir sistem oluşturulmuştur. İnsan kulağının sesi algılama biçimine yakınlığı
sebebiyle Mel-Frekans Kepstral Katsayıları (MFCC) öznitelikleri kullanılmıştır. Sınıflandırma için ise DNN
tercih edilmiştir. Ahmed [4]’de Çağrı merkezlerine özel olarak konuşma tanıma gerçekleştirmiştir. Çalışmasında
(ICADA’22) 2nd International Conference on Artificial Intelligence and Data Science June 17-June 18, 2022
Izmir Katip Celebi University
Izmir, Turkey
klasik yöntem olan HMM altyapısını kullanmıştır. Kutucu ise [5]’de CNN kullanımı ile Türkçe konuşma tanıma
üzerinde çalışmıştır. Fakhan [6]’de dikkat çekici bir çalışma gerçekleştirerek yenilikçi Transformer modelleri ve
başarılı diğer modelleri kullanarak İngilizce veri setlerinden öğrenilen bilgiyi Türkçe konuşma tanıma için
başarıyı artırıcı yönde uyarlamıştır.
2. Amaç
Çalışmanın amacı körleme satranç için gürültülü ortamlarda sesli komutların tanınmasının ilk adımı olan,
satranç figürlerine ait Türkçe seslendirmelerinin kelime tabanlı olarak geleneksel yöntemler ile belirlenmesi ve
sınıflandırılmasıdır. MFCC ve Mel spektrogramları, ses verileri için öznitelik vektörü olarak kullanılmıştır.
Öznitelik vektörleri yapay sinir ağları yardımıyla sınıflandırılmıştır. Yeni bir yaklaşım olarak satranç figür
seslendirmelerine ait spektrogram görüntülerinin başarıya katkısı incelenmiştir. Öte yandan Türkçe hedeflenerek
gerçekleştirilen bu çalışmanın gelecekte çok dilli girişler ve uçtan-uca modeller ile araştırılması ise sonraki adım
olarak planlanmıştır.
3. Materyal ve Yöntem
3.1. Öznitelik Çıkarma
Öznitelik çıkarımı tüm diğer tanıma sistemlerinde olduğu gibi konuşma tanıma sistemleri için de önemli bir
aşamadır. İyi öznitelikler beraberinde iyi tespitleri getirir. Ses verisi zamanla değişen bir yapıya sahip
olduğundan geleneksel konuşma tanıma sistemleri sinyalin durağan akustik özelliklere sahip olduğu kısa
parçalar üzerinde öznitelik çıkarımına odaklanmışlardır. Literatürde insan algısına benzerlik gösteren yöntemler
göze çarpmaktadır. MFCC, Doğrusal Öngörülü Kodlama (LPC), Algısal Doğrusal Öngörü (PLP) bunlardan
bazılarıdır [7]. Bu yöntemler arasında yaygın kullanılan MFC temelinde, insan kulağının 1kHz’e kadar lineer
1kHz’den sonrasında logaritmik ses algısına sahip olmasını esas almaktadır [8]. MFC katsayılarının elde
edilmesinde aşağıdaki adımlar izlenilir.
1) Ön Vurgulama: Konuşma spektrumunu düzleştirmek için, spektral analiz öncesinde bir ön-vurgu filtresi
kullanılır. Bunun sonucunda, insan ses üretim mekanizması sırasında bastırılan konuşma sinyalinin yüksek
frekanslı kısmı telafi edilmektedir [9]. Ön vurgulama Denklem (1) ile gerçekleştirilir. Burada sinyali, ön
vurgulanmış sinyali, ön vurgulama katsayısını belirtir:
Y[]=[]−[−1] (1)
2) Çerçeveleme: Ses sinyalinin çerçevelere bölünme işlemidir. Sabit genişlikteki çerçeve kaydırma
yapılarak tüm sinyalden çerçeveler elde edilir. Her bir çerçeve bir önceki çerçevenin bir kısmını içermektedir.
Bu örtüşmedeki amaç çerçeveler arasındaki sürekliliği sağlamaktır.
3) Pencereleme: Frekans uzayına geçmeden önce her bir çerçeveye pencereleme işlemi uygulanır.
Pencerelemenin amacı frekans uzayındaki temsilin daha kesin olmasını sağlamaktır. Pencereleme için genellikle
Denklem (2)’deki Hamming penceresi (󰇜 tercih edilmektedir. Sıklıkla değeri 0.46 olarak alınır.
󰇟󰇠󰇛 󰇜  󰇡
󰇢,  (2)
4) FFT Spektrum: Bilginin sinyal oluşturan sinüzoitlerde kodlanması çok yaygındır. Örneğin, konuşma,
insan ses tellerinin titreşiminin bir sonucudur. Burada zaman ve dalga formunun şekli önemli değildir; anahtar
bilgi, bileşen sinüzoitlerinin frekansı, fazı ve amplitüdündedir [10]. Bu aşamada frekans uzayına geçmek için
pencerelere FFT (Fast Fourier Transform) işlemi uygulanır.
5) Mel Spektrum: Mel spektrumunun elde edilmesi için üçgen Mel filtre bankası oluşturulur. Filtre bankası
Mel ölçeğinin sabit aralıkları ile kurulduğundan normal frekans ölçeğinde kaymış şekilde gözlemlenir. Üçgen
geçişli filtreler büyüklük spektrumunun pürüzsüzleştirilmesi ve elde edilecek özniteliklerin azaltılması için
kullanılır [9].
6) Mel Kepstrum: Bu işlem DCT (Discrete Cosine Transform) kullanılarak yapılır. Bu sayede frekans
bölgesinden zaman bölgesine geçilir.
󰇟 󰇛 󰇜
󰇠
  (3)
Burada MFCC sayısını, N üçgen filtre sayısını, logaritmik enerji değerlerini gösterir.
(ICADA’22) 2nd International Conference on Artificial Intelligence and Data Science June 17-June 18, 2022
Izmir Katip Celebi University
Izmir, Turkey
3.2. Sınıflandırma
Ses özniteliklerinin sınıflandırılmasında sıklıkla HMM, VQ ve DNN kullanılmaktadır [7, 11, 12]. Yapay
sinir ağlarında yapı taşı nöronlardır. Nöronlar birleşerek katmanları katmanlar birleşerek ağı oluşturur. Genelde
girişler yapıyı bozmaması istenerek katman olarak isimlendirilir. Gizli katmandan başlamak üzere her bir
katmandaki nöronun giriş sayısı kadar ağırlığı olur. Girişlerden uygulanan değerler bu ağırlıklar ile çarpılarak
toplanır. Nöron çıkışı ise aktivasyon fonksiyonu ile belirlenir.
Eğitim aşamasında, girdilerin yanlış sonuç vermesi durumlarında bir hata miktarı hesaplaması yapılır. Her
hatada ağırlıklar ilgili nöronlar için güncellenir. Genel olarak kullanılan hata fonksiyonu Denklem (4)’deki
gibidir. Denklem 4 ve 5’de beklenen nöron çıkış değerini,  hesaplanan nöron çıkış değerini verir.
󰇛 󰇜 (4)
Çok katmanlı ağların eğitimi için literatürde sıklıkla kullanılan bir yöntem hatanın geri yayılımı
algoritmasıdır. Burada her nöron için bir delta değeri, hesaplanır. Güncellemeler bu değerler ve öğrenme
katsayıları hesaba katılarak gerçekleştirilir. Denklem (5) çıkış katmandaki, Denklem (6) gizli katmandaki bir
nöron için delta değerini gösterir. Denklem 5’de 󰆒󰇛󰇜 ilgili nöron için belirlenen aktivasyon fonksiyonunun
giriş değeri  noktasındaki türev değeridir. Denklem 6’da m delta değeri bulunacak nöronu, n bu nörona bağlı
bulunan bir sonraki katmandaki nöronları ifade eder. n ise sonraki katmadaki nöronların sayısıdır [13].
󰇛 󰇜 󰆒󰇛󰇜 (5)
󰆒󰇛󰇜 
 (6)
Ağırlık güncellemeleri yapılırken öğrenme sabiti ve delta değerleri dikkate alınır. Bir iyileştirme olarak da
türevlerden hesaplanan momentum değerleri değişimlerin izini sürerek sonuca daha hızlı ulaşmak amacıyla
kullanılır.
3.3. Gürültü Azaltma
Gürültü azaltmada en bilindik tekniklerden birisi spektral çıkarmadır. Bu yöntemde gürültüsü azaltılmak
istenen ses %50 oranında içe geçmiş çerçevelere bölünerek FFT sonuçları alınır. Frekans spektrumu
üzerinden gürültülü kısımlar için bir ön istatistik çıkarılır. Bu bilgiler kullanılarak spektrumda gürültüye sebep
olan frekanslar bir medyan filtresi ile bastırılır. Daha sonra ise ters FFT (IFFT) işlemi yapılarak zamansal uzaya
geçilir. Sinyal, örtüşme eklemesi yöntemi ile tekrar inşa edilir. Pencereleme işlemi girişte uygulanıp çıkışta
uygulanmayabilir veya her iki tarafta da uygulanabilir. Tüm bu seçenekler frekans bileşenleri değişmiş sesi
tekrar inşa ederken kopmaların engellenmesini sağlar. Son aşamada ise örtüşmeye sahip olan çerçeveler uygun
şekilde birbirlerinin devamına eklenir. Gürültü azaltma için kullanılacak bu aşamalar Şekil 1’deki gibi
özetlenebilir.
Şekil 1. Gürültü azaltma adımları
4. Bulgular
4.1. Veri Setlerinin Oluşturulması
Eğitim seti, 6 satranç figürüne ait seslendirmelerden oluşturulmuştur. Yaklaşık 30 insandan sessiz ortamlarda
alınan 460 seslendirme 500ms uzunluklarda senkron edilerek kullanılmıştır. Kayıtlara ait detaylar Tablo 1’deki
gibidir. Bu set %60 eğitim, %20 test, %20 doğrulama şeklinde bölünmüştür.
(ICADA’22) 2nd International Conference on Artificial Intelligence and Data Science June 17-June 18, 2022
Izmir Katip Celebi University
Izmir, Turkey
Tablo 1. Veri setlerine ait detaylar.
Veri seti
1
Konuşmacı
30 Erkek ve Kadın
Örnekleme (Hz)
41000
Kayıt
PCM, Wav, 16bit, 1 kanal
Uzunluk
500ms
Veri türleri
Satranç taşlarının isimlerine ait sesler
Eğitim örneği
276 adet
Doğrulama örneği
92 adet
Test örneği
92 adet
Toplam örnek
460 adet
Test setine daha sonradan kalabalık bir ortamdan alınan sesler rastgele eklenerek gürültülü sesler elde
edilmiştir. Bu sesler üzerinde gürültü azaltma algoritması uygulanmıştır.
4.2. Gürültü Azaltma
Veri setindeki test örnekleri üzerine eklenen dış sesler gürültü azaltma algoritması kullanılarak bastırılmıştır.
Örnek olarak Şekil 2a’da spektrogramı verilen “at” seslendirmesine eklenen gürültü ile oluşturulan kaydın, ilk
500ms’si içerisinden alınan gürültü profili ile algoritma sonuçları gösterilmiştir. Gözlenebileceği gibi gürültülü
ortamın gürültü profili alındığında sınıflandırmanın başarısını artırabilecek daha temiz öznitelikler elde etmek
mümkün hale gelmektedir.
(a) (b)
Şekil 2. Ses görüntüsü- Spektrogramlar.
(a) Soldan sağa sırası ile orijinal “at” seslendirmesi, gürültülü ve filtrelenmiş hallerinin spektrogramı, (b) Satırlarda sırası
ile at, fil, kale, piyon, şah, vezir kelimelerinin farklı insanlardan alınan seslendirmelerine ait spektrogram resimleri.
4.3. Özniteliklerin Çıkarılması
Tablo 1’deki veri setlerinden 14 adet MFCC, enerji ve sıfır geçiş özniteliği hesaplanmıştır. Veri seti
oluşturulurken kullanılan MFCC parametreleri Tablo 2’deki gibidir. Kullanılan Mel filtreleri ile oluşturulan
spektrogramlar resim olarak da kaydedilerek piksel tabanlı öznitelik setleri oluşturulmuştur. Bu ses
görüntülerinin bazıları Şekil 2b’de gösterilmiştir.
Tablo 2. MFCC hesabında kullanılan parametreler.
MFCC Parametreleri
Ön-vurgu katsayısı
0,97
Çerçeve uzunluğu
25 (ms)
Çerçeve adım uzunluğu
10 (ms)
Pencere Fonksiyonu
Hamming
Filtre sayısı
40
Toplam Öznitelik
14
(ICADA’22) 2nd International Conference on Artificial Intelligence and Data Science June 17-June 18, 2022
Izmir Katip Celebi University
Izmir, Turkey
Eğitim
Çalışmada eğitim için çok katmanlı perceptron ağı kullanılmıştır. Ağın topolojisi için öncelikle ağın
girdisini belirlemek gerekir. Çerçevelerin uzunluğu ve adım uzunluğu bilindiğinde bir ses örneğinden kaç adet
çerçeve elde edileceği Denklem (7) ile belirlenebilir.
󰇛󰇜
(7)
Denklem (7)’de örnek uzunluğu, çerçeve uzunluğu, çerçeve boşluğu ya da adım uzunluğudur.
Buna göre 500ms uzunluk için elde edilecek çerçeve sayısı 48’dir. Bu sebeple 14 öznitelik için kurulacak olan
ağın girişi 672 boyutunda olmalıdır. Eğitim için giriş katmandaki nöron sayısını sabit turarak ara katman sayısı
ve nöron kombinasyonları ile yapılan testlerde 4 katmanlı bir ağın yeterli geldiğine karar verilerek girişte 672,
ara katmanlarda 10, çıkışta 6 nöron bulunduran 2 ara katmanlı bir perceptron ağı oluşturulmuştur. 40 Mel filtresi
ile oluşturulan 40x48 boyutlarında spektrogram resimleri için giriş sayısı 1920 olan aynı ağ topolojisinde farklı
bir daha inşa edilmiştir. Oluşturulan ağların eğitiminde kullanılan parametreler: Maksimum döngü 1000,
Maksimum hata 0.00001, Öğrenme sabiti 0.01, Momentum katsayısı 0.01 olarak belirlenmiştir. Bu
parametrelerle yapılan eğitime ait hata grafiği Şekil 3’te yer almaktadır.
Şekil 3. MFCC özniteliklerine ait toplam hata ve eğitim grafiği.
Spektrogram resimleri kullanılması ayrık kosinüs dönüşümünde kaybedilen verileri telafi etmek açısından
mantıklı olsa da öznitelik sayısının artması ve verilerin dağınık kalması ayrıca veri setinin yetersiz büyüklükte
oluşu nedeni ile perceptron eğitimini zorlaştırır. Bu etki eğitimlerde net olarak gözlenebilmektedir. itim
grafikleri Şekil 4’de gösterilmiştir.
Şekil 4. Spektrogram özniteliklerine ait toplam hata ve eğitim grafiği.
(ICADA’22) 2nd International Conference on Artificial Intelligence and Data Science June 17-June 18, 2022
Izmir Katip Celebi University
Izmir, Turkey
4.4. Öznitelik Tespiti İçin Yeni Bir Algoritma
Eğitimi tamamlanan ağ, 500 ms uzunluğunda test örneklerini kolayca sınıflandırabilirken bu uzunluğu aşan
kayıtlarda kullanmak için uygun değildir. Bu amaçla çalışmada aşağıdaki şekilde bir yaklaşım kullanılmıştır.
Toplam çerçeve sayısı Ç, bir çerçeveden çıkarılan öznitelik sayısı T, ağın giriş sayısı G ile gösterilsin. Tüm
çerçevelerden çıkarılan öznitelikler D, sonuçlar ise R dizisinde tutulsun. Kayma miktarı S ile gösterilsin. (T’nin
katı olan kayma miktarı amaca göre ayarlanabilir.)
Örnek için çerçeveleri ve öznitelikleri çıkar. D içinde sakla, k ← 0
k < Ç * T iken tekrar et,
D + k’dan D + k + G kadar öznitelik al ve enerjileri topla.
Alınan öznitelikleri ağa verip en büyük nöron tepkisini al.
Enerji toplamını ve nöron sonucunu R içine at.
k ← k + S
R içindeki veriyi enerjiye göre sırala.
Belirli bir eşik üzerindeki enerjilerden en fazla tekrar edeni sonuç olarak ver.
5. Sonuçlar ve Öneriler.
MFCC öznitelikleri kullanılarak yapılan eğitimde Şekil 4’te eğitim grafiği bulunan ağın 92 ses kaydı
üzerindeki doğru sınıflandırma başarısı %100’dür. Gürültü eklenmiş kayıtlar üzerindeki başarı %94, filtrelenmiş
kayıtlardaki başarı ise %98’dir. Diğer yandan mel filtrelerinin oluşturduğu spektrogram öznitelikleri ile eğitilen
ağın ekil 4) başarısı gürültülü setlerde %85’e kadar inmişken filtrelenmiş kayıtlarda %98’e kadar
çıkabilmiştir. Bu iki öznitelik birlikte kullanılarak sistemin başarısı %99 olarak elde edilmiştir. Mel-
Spektrogramlarına ait görüntülerin satranç figür seslendirmelerinin tanınması için kullanılması yeni bir fikirdir.
Bu çalışamada bu özniteliklerle yapılan eğitimde çok katmanlı perceptron ağı kullanılmıştır. Piksel değerleri bir
işleme tabii tutulmadan direkt olarak ağa verilmiştir. Kullanılan CNN olarak değiştirildiğinde piksellerden
alınacak bilgi güçlendirilerek gürültülü ortamlarda sonuçlar daha da iyileştirilebilir.
Referanslar
[1] https://www.chess.com/terms/blindfold-chess (son erişim 27.05.2022)
[2] Shuo, Wang, et al. Speech Recognition Based Blind Chess Education System Chinese Chess as an Example. 2021 11th
International Conference on Information Technology in Medicine and Education (ITME). IEEE, (2021)
[3] Ussen K., Buyuk Osman, Turkish Speech Recognition Based On Deep Neural Networks. Süleyman Demirel Üniversitesi Fen
Bilimleri Enstitüsü Dergisi. vol. 22, pp. 10, (2018).
[4] Ahmed, M. J. "Çağrı merkezleri için derinöğrenme tabanlı interaktif konuşma tanıma." MS Thesis, Selçuk University, Fen
Bilimleri Enstitüsü, Konya, Turkey, 2020.
[5] Kutucu, H., "Derin öğrenme algoritmaları kullanarak bir konuşma tanıma uygulaması." MS Thesis, Sakarya Uygulamalı Bilimler
Üniversitesi, Sakarya, Turkey, 2020.
[6] E. Fakhan, E., "Automatic Speech Recognition System Adaptation For Spoken Lecture Processing." PhD. Thesis, Boğaziçi
University, İstanbul, Turkey, 2021.
[7] Nabiyev, V., Yücesoy, E., VQ Yöntemiyle Konuşmacı Cinsiyetinin Belirlenmesi, Turkish Journal of Computer and Mathematics
Education, vol 1,1 (2009) 35-47
[8] Stevens, S.S., Volkman, J. ve Newman, E.B. A Scale for the Measurement of the Psychological Magnitude Pitch. The Journal of
the Acoustic Society of America, vol. 8, pp. 185-190, (1937)
[9] Meseguer, N.A., Speech Analysis for Automatic Speech Recognition, Norwegian University of Science and Technology
Department of Electronics and Telecommunications, (2009)
[10] Steven W. Smith, The Scientist and Engineer's Guide to Digital Signal Processing, (1997)
[11] Réda, A. , Aoued, B., Artificial Neural Network & Mel-Frequency Cepstrum Coefficients Based Speaker Recognition,
International Conference: Sciences of Electronic, Technologies of Information and Telecommunications, March 27-31, (2005)
[12] Das, T. K., Khalid M. O. Nahar, A Voice Identification System using Hidden Markov Model, Indian Journal of Science and
Technology, Vol 9(4), (2016).
[13] Aggarwal, C. C. Neural networks and deep learning. Springer, 10, 978-3, (2018).
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Background/Objectives: Voice Identification System refers to a system which comprises of hardware, software and it is used to identify voice for several applications. The aim of the research is to develop a small scale system that incorporate both speaker recognition and speech recognition and can show specific visual information to a user. Methods: To this end, we have developed a system based on the technique of Hidden Markov Model. The Hidden Markov Model is a stochastic approach which models the algorithm as a double stochastic process in which the observed data is thought to be the result of having passed a hidden process through second process. Both processes are characterized only through one that is observed. A database of voice information is created. To extract features from voice signals, Mel-Frequency Cepstral Coefficients (MFCC) technique has been applied producing a set of feature vectors. Subsequently, the system uses The Vector Quantization (VQ) for features training and classification. Findings: The designed system has been tested with multiple speakers as reference. Speech recognition based on Hidden Markov Model is achieved successfully for the conversion of speech to text. In this proposed research, speech recognition is achieved with accuracy about 90%. Applications: The system has potential to be used in music industry, crime investigation, personal assistant and in hi-tech devices.
Book
This book covers both classical and modern models in deep learning. The chapters of this book span three categories: The basics of neural networks: Many traditional machine learning models can be understood as special cases of neural networks. An emphasis is placed in the first two chapters on understanding the relationship between traditional machine learning and neural networks. Support vector machines, linear/logistic regression, singular value decomposition, matrix factorization, and recommender systems are shown to be special cases of neural networks. These methods are studied together with recent feature engineering methods like word2vec. Fundamentals of neural networks: A detailed discussion of training and regularization is provided in Chapters 3 and 4. Chapters 5 and 6 present radial-basis function (RBF) networks and restricted Boltzmann machines. Advanced topics in neural networks: Chapters 7 and 8 discuss recurrent neural networks and convolutional neural networks. Several advanced topics like deep reinforcement learning, neural Turing machines, Kohonen self-organizing maps, and generative adversarial networks are introduced in Chapters 9 and 10. The book is written for graduate students, researchers, and practitioners. Numerous exercises are available along with a solution manual to aid in classroom teaching. Where possible, an application-centric view is highlighted in order to provide an understanding of the practical uses of each class of techniques.
Article
A subjective scale for the measurement of pitch was constructed from determinations of the half-value of pitches at various frequencies. This scale differs from both the musical scale and the frequency scale, neither of which is subjective. Five observers fractionated tones of 10 different frequencies and the values were used to construct a numerical scale which is proportional to the perceived magnitude of subjective pitch. The close agreement of this pitch scale with an integration of the DL's for pitch shows that, unlike the DL's for loudness, all DL's for pitch are of uniform subjective magnitude. The agreement further implies that pitch and differential sensitivity to pitch are both rectilinear functions of extent on the basilar membrane, and that in cutting a pitch in half, the observer adjusts the tone until it stimulates a position half-way from the original locus to the apical end of the membrane. Measurement of the subjective size of musical intervals (such as octaves) in terms of the pitch scale shows that the intervals become larger as the frequency of the midpoint of the interval increases (except for very high tones). (PsycINFO Database Record (c) 2012 APA, all rights reserved)
Çağrı merkezleri için derinöğrenme tabanlı interaktif konuşma tanıma
  • M J Ahmed
Ahmed, M. J. "Çağrı merkezleri için derinöğrenme tabanlı interaktif konuşma tanıma." MS Thesis, Selçuk University, Fen Bilimleri Enstitüsü, Konya, Turkey, 2020.
Derin öğrenme algoritmaları kullanarak bir konuşma tanıma uygulaması
  • H Kutucu
Kutucu, H., "Derin öğrenme algoritmaları kullanarak bir konuşma tanıma uygulaması." MS Thesis, Sakarya Uygulamalı Bilimler Üniversitesi, Sakarya, Turkey, 2020.
Automatic Speech Recognition System Adaptation For Spoken Lecture Processing
  • E Fakhan
E. Fakhan, E., "Automatic Speech Recognition System Adaptation For Spoken Lecture Processing." PhD. Thesis, Boğaziçi University, İstanbul, Turkey, 2021.
  • V Nabiyev
  • E Yücesoy
  • Vq Yöntemiyle Konuşmacı Cinsiyetinin
  • Belirlenmesi
Nabiyev, V., Yücesoy, E., VQ Yöntemiyle Konuşmacı Cinsiyetinin Belirlenmesi, Turkish Journal of Computer and Mathematics Education, vol 1,1 (2009) 35-47
The Scientist and Engineer's Guide to
  • Steven W Smith
Steven W. Smith, The Scientist and Engineer's Guide to Digital Signal Processing, (1997)