ArticlePDF Available

Development of articulatory estimation model using deep neural network

Authors:

Abstract and Figures

Speech inversion (acoustic-to-articulatory mapping) is not a trivial problem, despite the importance, due to the highly non-linear and non-unique nature. This study aimed to investigate the performance of Deep Neural Network (DNN) compared to that of traditional Artificial Neural Network (ANN) to address the problem. The Wisconsin X-ray Microbeam Database was employed and the acoustic signal and articulatory pellet information were the input and output in the models. Results showed that the performance of ANN deteriorated as the number of hidden layers increased. In contrast, DNN showed lower and more stable RMS even up to 10 deep hidden layers, suggesting that DNN is capable of learning acoustic-articulatory inversion mapping more efficiently than ANN.
Content may be subject to copyright.
You, Heejo et al. / Phonetics and Speech Sciences Vol.8 No.3 (2016) 31-38 31
1.
말소, 즉 음성(speech) 혀를 비롯 여러 조음 기관
(articulators) 체계이고 물리 움직,
’(articulation)들어. 최근 공학, , 의료
양한 분야구의 성과됨에 따라, 구의
중요정보유용성은 더욱 강조되고 있다.
이와 같은 조음 정보에 대한 연구의 한 축이 음향과 조음
매핑(acoustic-to-articulatory mapping) 내지speech inversion
대한 분야이. Speech inversion말소리의 음향 정보(acoustic
information)를 바탕으로 그 소리를 생성해 낸 조음 형태
(articulatory configuration) 역으재구성하는 기술, 최근
성과 관련된 다양한 연구 분야에서 활용되고 있. 특히 자
음성 인식(automatic speech recognition 이하 ASR) 분야와 음성
합성(speech synthesis)분야에서는 널리 적용되고 있으, 이 외
에도 아직은 미비하지2언어 학습자를 위한 효율적인 발
교육, 의료적 차원으로는 청력이나 뇌 기, 그리고 발음 기관
상의 문제를 겪환자들의 조음 치료에도 유용하게 이용될
있다 [1][2][3][4].
이처speech inversion 다양한 학문에 접목하여 활용할 수
있는 잠재력을 가지지만 [5]연구에서언급하다시speech
inversion 본질적으로 갖고 있는 문제점으로 인해 쉽게 기술
발전을 이루지 못하였고 따라서 그 뛰어난 활용성에도 불구하
오랜 기간 정체되었. 다음논문에서 언급하고자 하
speech inversion가지 문제점이.
첫째, 하나의매개변수 셋은 특정음 형태에만응되
* 논문2015 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구(NRF-2015S1A5A8017748)
** 려대학교, hnam@korea.ac.kr, 신저
Received 30 May 2016; Revised 11 July 2016; Accepted 20 September 2016
ISSN 2005-8063
2016. 9. 30.
Vol.8 No.3
pp. 31-38
말소리와 음성과학
http://dx.doi.org/10.13064/KSSS.2016.8.3.031
신경망을용한예측 모형
Development of articulatory estimation model using deep neural network
양 형 강 재 조 영 황 성 연 정 호 성**
You, Heejo · Yang, Hyungwon · Kang, Jaekoo · Cho, Youngsun · Hwang, Sung Hah · Hong, Yeonjung ·
Cho, Yejin · Kim, Seohyun · Nam, Hosung
Abstract
Speech inversion (acoustic-to-articulatory mapping) is not a trivial problem, despite the importance, due to the highly
non-linear and non-unique nature. This study aimed to investigate the performance of Deep Neural Network (DNN)
compared to that of traditional Artificial Neural Network (ANN) to address the problem. The Wisconsin X-ray Microbeam
Database was employed and the acoustic signal and articulatory pellet information were the input and output in the models.
Results showed that the performance of ANN deteriorated as the number of hidden layers increased. In contrast, DNN
showed lower and more stable RMS even up to 10 deep hidden layers, suggesting that DNN is capable of learning
acoustic-articulatory inversion mapping more efficiently than ANN.
Keywords: the Wisconsin X-ray Microbeam Database, speech inversion, artificial neural network, deep neural network
32 You, Heejo et al. / Phonetics and Speech Sciences Vol.8 No.3 (2016) 31-38
않고, 다양한 조음 형태에 대응될 수 있다(one-to-many
problem). 예를 들어, 인간의 발화 중에는 휴지 구(pause)
재할있는데, 휴지 구간에도 조음기관들은 계속적으로
양한 변이형을 형성할. 이는음이라는 음향 파라미터
셋에 다양한 조음 형태가 대응될 수 있음을 보여주고 있다.
다른 예로, ‘perfect memory’단어를 발화/t/라는 음소,
음향적으로 실현되지는 않지, 실제 조음상에서/t/ 음소
발화하기 위한 혀의 움직임관찰 된다.
둘째, 음향과 조음 사이에는 비선형(non-linear)의 관계가 존
재한. 발화 중에 일어나는 조음동작들은 분절 할 수 없는
속적인 움직임들의 시간적 중첩(temporal overlap)로 구성
. 하지만 음향에서는 조음의 연속성이 선형적으로 드러나
않는. 들어, /s/ 찰음을들어내위해서는 혀의 끝을
치경(alveolar)최대가까이 위치시키약간틈을 남겨
두어한다. 혀는 /s/음하위해 해당위치서서
이동하게 되지만, 그 약간의 틈이 형성되기까지 /s/ 음소발화
되지 않는. 이처/s/속적으로 음성을 형성해 나가지 않
혀와 치경사이가 특정한 틈을 이루는 구간에서 급격하게 실
현된. 이러비선형성(non-linearity)은 음향과 조음의 매핑
더욱 어렵게 만든다. 이러한 비선형상의 관계는 혀의치와
명주파수 사이에서나타난.
셋째, 동시조(coarticulation) 음향과 조음의 복합적인 관
계를 보여준. , 조음은 연속성을 갖고 있기 때문에 조음동
작들 간의 중복이 필연적으로 발생하게 된. 예를 들어, eighth
에서 /t/는 치경을 건드리며 나는 음소임에도 불구하고 뒤따
는 치/ɵ/ 동화되어 치아 부근에서 발화 된다. 이처럼 인간
발화 속에는 무수히 많은 음소들이 인접한 음소들의 영향을
받게 되고, 이러관계 속에동시조음은 필연적으로 발생하
이를 음향상에서 확인하것은 매우 힘들.
이와 같은 문제에 대제시된가지 해결책으로 기계학습
일종인 인공경망(artificial neural network 이하 ANN)이 도
입되었다. 신경망 모형은 데이터를 기반으로 모델수립
하며, 일대 대응(one-to-many mapping), 비고유하고
(non-unique) 비선형적인(non-linear) 변수들 간의 관계를 적절히
포착하는 특징이 있어, speech inversion의 난제 해결의 실마
제공 한다 [6].
[7] speech inversion 기계학습을 이용구현한기의
구로, ANN원시적 모델multi-layer perceptron(MLP)
용하 X-ray Microbeam Database(XRMB)데이터로부
파열6개의 조음 움직임을 예측해냈다. 구체적으CV
된 반복된 녹음 데이터를 사용하여 ANN 모델을 구축하였
, 94~98%의 인식 정확도를 보였다. [8], [9]서는 ANN
용하여 음성으로부터 조음기관 위치를 예측하려는 시도가
루어졌으며, [10]에서는 다양한 타입의 /r/ (bunched retroflex)
을 대상으로 conditional density modes 방식을 사용하여 조음
관을 예측 하려고 하였. [11]서는 deep belief network(이하
DBN)를 사용하여 speech inversion문제를 해결하려고 시도하였
으며 실제 조음 정보가 담긴 ‘mngu0’ 조음 코퍼스를 이용하여
음향 조음관계를 매핑하였다. 결과로 얻은 Root Mean
Square(RMS) 에러는 0.95mm 여타 다른 연구들에 비해 매핑
의 정확도가 상대적으로 높은 편이었. [12]서는 해스킨스
연구소의 조음합성기인 TADA로부터 합성된 인공 조음음향
데이터를 사용하였다. 음합성기의 데이터사용하여 훈련
ANN 모델실제 발화 데이터Aurora-2 코퍼스를 사용한
테스트에서상당인식률을 보였. [13]서는 정밀물리
학적 계산으로 합성해 낸 성도 및 기타 조음기관의 위치 값과
음성 시그널 간의 모델링을 이용speech inversion 모델의
련이 이루어졌. 이를 위해 다양한 기계 학습 방식(trajectory
mixture density networks(TMDNs), feedforward artificial neural
networks(FF-ANN), support vector regression(SVR), autoregressive
artificial neural network(AR-ANN), and distal supervised learning
(DSL))적용되었.
다양한 인공신경망의 적용기존 speech inversion에 존재하
는 여러 제약을 개선할 수 있는 방안을 제공해 주었. 그럼
도 불구하고, 과거 연구들 또한 일정한 한계가 존재했. 이들
연구들은, 성 발화와 동시기록된조음 데이터를 사
하되, 특정 음소들에만 국한speech inversion 모델을 제시하
였다. , 존 연구들보편적인 조음데이터 산출에 내재적
한계점을 갖고 있다.
중요한 점은 이 문제가 인공신경망 자체의 한계에서 기인한
다는 것이. 인공경망의 연능력은 은닉층의 크기를 증
시키거나, 닉층의 개수를 증가시키는 방식으로 개선될 수 있
. 지만, 닉층의 크기증가시킬 경우 과적합(over-fitting)
현상, 은닉층의 개수를 증가시킬 경우보의 손실로 인해 학
정상적으로 이루어지지 않는상이 발생여지가 있다.
라서, 일정 수준 이상연산능력을 갖는제약이 발생하게
[14].
이와 같은 인공신경망의 제약을 해결하고자, [15]에서는
Smolensky 제한된 볼츠기계(restricted Boltzmann machine
이하 RBM) 전학 과정(pre-training) 사용하는 deep
belief network(DBN)를 제안하였. 사이에 존재하는 가중
치들을 무작위 값으로 두고 학습을 시작하는 기존 신경알고
리즘과는 달리, DBN 제한볼츠만 기알고리즘을 통해
중치의 초기값을 얻는. 같은 방식사전학습 과정은
학습이 정상적으로 이뤄질 수 있도록 신경망에 방향성을
여한. 결과적으, DBN 고리즘을 적용함으로, 신경망
은닉층이 다층으로 복잡하게 구성ANN서 자주 발생하
지역소점(local minima)빠지문제극복하개선된
습을행해갈 수도록 한다.
Speech inversion 연구의 점에서 경우에, 같은
DBN 알고리즘의 등장은 중요한 의미를 지닌다. 에서 언급
바와 같이 speech inversion신경망을 적용한 선행연구들의
제한점은 신경망의 연산 능력의 제약에서 기인하였다.
speech inversion DBN 알고리즘 적용가능성을 검증하는
은 과거 많은 선행연구들의 제한점을 개선할 수 있는 한 가지
대안있을 것이.
You, Heejo et al. / Phonetics and Speech Sciences Vol.8 No.3 (2016) 31-38 33
연구는 일반적인 ANNDBN 알고리즘을 적용한 심층
경망 모델(DBN-DNN) 구성하, 각 모델speech
inversion 정보를 학습시킴으로써 모델의 수행능력을 검증하고
자 한. 또한, 이를 통하여 해신경망 모델의 보편적인 조음
데이터 산출 가능여부를 검증해 봄으로, 과거 선행연구들에
포착난제를 극복해 보고자 한.
2. 방법
2.1. 모델성을 위한 데이터
모델 생성에 사용된 데이터는 미Wisconsin대학에서 수집된
XRMB[16]. XRMB 1989에 처음 데이터베이구축
대한 논의이루어졌고, 다년간의 데이터수집 1994년에
료로 공개되었다. 데이터베이스57 화자101 발화
스크 녹음 데이터(음소 + 조음)로 구성되어 있. 발화를 수행
하는 동안, x-ray microbeam 피실험자들의 주요 조음기관들
여섯 군데, 즉 윗입술(upper lip 이하 UL), 아랫입(lower lip
LL), 혓끝(tongue tip T1), (tongue blade 이하 T2),
(tongue dorsum 이하 T3), 혓뿌(tongue root T4)
그림 1. XRMB 6주요 조음기관과 송곳, 어금니의 위치
Figure 1. The locations of the 6 primary articulatory organs, molar,
and incisor.
데의 기준점인 송곳니(mandibular incisior MANI), 어금
(mandibular molar 이하 MANM) 부착된 금속 구슬들의 위치
추적하고 기록하는 동시에 음성 또<1> 같이 녹음
되었. 향에당하는 음데이터21,739 Hz 샘플링
파수(sampling rate), 조음 데이터에 해당하는 여덟 기관들의 x
, y 좌표 정보는 160 Hz플링 주파수로 기록되었.
림의 원점은 레퍼런스 위치가 되는 점으윗쪽 앞니의 중앙끝
이용한다. 라서 수평축에 대해목구멍 안쪽으로 음수의
좌표갖게.
이 데이터베이스가 갖는 의의는 다음과 같다. , 음향
조음 데이터를 동시에 수집하여 음향에서는 발견하기 힘든 조
정보를 확인있도록다는 점이. 음향데이터를 모
면서 이와 동시에 이루어지는 조음 데이터를 모으고 동기화하
작업은 기술적으로어려운분인, 최신 설비와 투
통해 이러한 데이터수집이 가능할 수 있었. 둘째, 샘플
이즈가 크다양한 언어적, 비언어적 태스크가 포함되어 있
통계적 모델링과 기계학습을 위한 데이터로서 규모가 적절하
. 57명의 화자로부터 데이터를 수집하였고, 지문 읽기 등
언어적 태스크뿐만 아니라 순수하게 실험 목적을 위비언
어적 발화 태스크도 포함하고 있다. 모든 태스크의 총 녹음
간은20시간에 달한다. 셋째, 데이터베이스가 무료로 공개되
었다는 점이다. 데이터 수집의 어려움과 비용 문제에도 불구
speech inversion을 포함한 여러 응용 분야의 연구와 발전을
위하여 처음부터 공개 배포를 목적으로 만들어졌다. 여타
코퍼스는 특정 연구 목적으로 소규모로 수집되거나 비공개 데
이터임에 반해, XRMB는 충분한 샘플 사이즈와 샘플다양
지녔을아니라 공개자료이므로연구가장 부합
자료판단되었다.
이번 연구에서는 학습 시간의 감소를 위해XRMB 데이터
무작위로 선정한 명의 화자의 데이터를 이용하였다. 선정
된 데이터는 남성 화자의 데이터였으며 16,202개의 음향
조음 데이쌍을 추출하였. 음향이터는 발화 문장으로부
13 필터뱅(filterbank) 계수(coefficients) 하는
MFCC(Mel-frequency cepstral coefficients)구한, 그 값에서
각각 1(13), 2(13) 미분한 39개의 값을 수집하였다.
, 음향데이터는 DBN-DNN 적용하기 위하, 해당 범주의
최소값을 빼고 0에서 1사이의 값으로 리스케일링 하였. 다시
말해, 입력(input layer)에는 항상 0에서 1 사이값이 들어
수 있도록 조정되었다. 에 대한 수학적 공식은 <1>
같다.
max
mi n
mi n
(1)
조음 데이터는 피험자의 주요 여덟 개의 조음기관들에 부착
금속 구슬들16개의 위치 정보 (x,y) 값으구성되었다.
학습용 데이터 쌍으로는 총 16,202개의 데이터 쌍으로부터 무
작위 추출을 시행하13,000개를 선정하였으, 중복되지 않
나머지 3,202개의데이터 쌍을 테스트용데이터 쌍
사용하였.
2.2. ANN 모델 생성
2.2.1.
ANN 모델의 구
ANN 네트워크는 입력층(input layer), 출력(output layer),
리고 은닉층으로(hidden layer)이루어져 있다. 각의 층은
여러 개의 유닛으로 구성되어 있으, 닛은 개별적인 활
(activation) 값을 갖는다. 또한 한 층의유닛들은 인접
다른 층의 모든닛들과 연결되어, 각의 연결은중치
(weight)갖고 있다. ANN의 학습은 입력값과 목표값(target)
34 You, Heejo et al. / Phonetics and Speech Sciences Vol.8 No.3 (2016) 31-38
쌍으로 준비하, 입력값에 의해출된 출력값과 목표값의
이인 오차를 계산, 이 오차를 점차적으로 줄여나갈 수 있도록
가중치를 갱(update)는 방식으로 진행된. 이러한 학습
오차 역전파(error back propagation) 알고리즘을 사용하여 진행
되며, 목표(target) 출력(output)의 오(error) 비용함
(cost function) 이용하여 계산한다. <수식 2>는 본 연구에서
사용한 비용함수로, 제곱 평균 제곱(root mean square 이하
RMS)하는용함수이다.

(2)
목표값을,
실제델의 출력층에서출된 유닛
성화값을 의미한. RMS의 물리적 크기는 사용된 데이터에
해 결정되며, XRMB 데이터를 사용한 본 연구에서는 mm 단위
물리크기를 갖는다.
본 연구에서ANNDNN의 성능을 비교하고자 하였으므
, 각각 은닉층의 개수를 1, 4, 7, 10, 각 은닉층의 유닛을
50, 100, 150개까지 달리12개의 ANN 모델을 설계했다.
력층(input layer) 출력(output layer)XRMB 이터에 맞
, 39개와 16의 유닛으로 이루어졌다. <그림 2>는 은
층 개수에 따라 모델이 어떻게 구성되었는지를 간략하게 나타
낸다.
2.2.2.
ANN 델의 학습
ANN feedforward computation오차역전(back propagation)
2계로 진행되었다. FNN 과정은 입력층의 활성화 값을 다음
층으전달하여, 출력층의 활성값을 도출해내는정이.
연구에서는 은닉층의 활성화 계산을 위하두 종
의 함수를 사용하였으. 이에 따라 ANN은 활성화 값 계산
식에 의해 ANN-Sigmoid ANN-ReLU로 나누어진다. 미세
단계에서 시그모이드 함수(sigmoid function) DBN-DNN과의
면밀한 비교를 위ANN-Sigmoid 모델에 사용된 sigmoid 활성
함수에0.9멘텀 값이 적용되었으며, ANN-ReLU 모델
ReLU 성화 함수적용된 모델, 연구의 탁월
결과[16] 따라 구에 사용되는 기계학습 네트워크에
적용하였다.
다만모델의 출력층에서는 조음기관의 위치 값이 목표
으로 설정되어 있으므, 선형적(linear) 활성화 함수를 이용
하여값을 도출하였다.
FNN 과정이 끝나고 진행되는 오차역전파 과정은, 출력
목표 값의 차이비용함수를 통해산하였고, 당 학습의
류를 산정하여 층간의 연결된 가중치와 바이어스 값수정
해 나갔다. 본 연구에서는 100 세대(epoch)학습이 진행되
었으, 패턴들의 학습 순서에 의해 발생할 수 있는 편향을
거하기 위해 각대별로 데이터 쌍들순서를 섞어주었다.
한 학습률(learning rate)0.001 설정되었으며 이는 본 학습에
앞서 적절한 학습률을 구하고자 진행한 예비실험에서 가장 안
정적인 학습이 진행되는 학습률 값으로 설정한 것이. 예비
험에서 학습률은 0.1터 시작하였으며, 추후 1/10만큼 차감해
나가면서 훈련결과과정을 비교하였다.
2.3. DBN-DNN 모델
2.3.1.
DBN-DNN 모델의
DBN-DNN 의 경우, ANN과의 차이는 학습 과정에서 나타나므
, 구조상으론 ANN과 동일하다. 따라서 본 연구에서, ANN
구조와 마찬가지로 은닉층의 개수를 1, 4, 7, 10, 은닉층
유닛50, 100, 150까지 달리하여 12의 모델을 구축하
였다. 이처럼 두 모델의 구조를 동일하게 설정함으로써,
수행 차이에 나타날 있는 혼입변인을 배제시키고 오로
모델간성능차이만 비교하고자 한다.
2.3.2.
DNN 모델의 사전학습(pre-training)
ANN , DBN-DNN사전학습(pre-training)과 미세조
(fine-tuning)두 단계에 걸쳐 학습이 진행된다. 서론에서 언
You, Heejo et al. / Phonetics and Speech Sciences Vol.8 No.3 (2016) 31-38 35
와 같 DBN서의 사전학습 한된 츠만
(RBM) 알고리즘을 greedy layer-wise training 식으로 진행
. 이 학습 방식은 하위층부터 최상위층까지 한 번에 학습이
진행되는 것이 아니라, 각 층에서 학습을 반복하여 진행한 ,
학습이 완료되면 다음 층으로 이동하여 층에서 시행한 횟수
동일하게 반복 학습을 진행한. 다음 층의습은
습이 완료된 이층에서의 출력값을 이용하여행된.
구에서 각 DBN 모델은 층별10의 학습 횟수0.1의 학
률을용하진행하였다.
또한 RBM 사전학습에서 사용된 데이터는 추후 미세조정
학습에서 사용될 데이쌍 중 입력 값만을 가지진행되었으
, RBM 알고리즘의 비지도 학습(unsupervised learning) 특성
목표이용하지 않았다.
그림 3. 종료 닉층기와 개수따른 RMS 차이
Figure 3. The RMS results form three algorithms based on the sizes and the numbers of hidden layers.
36 You, Heejo et al. / Phonetics and Speech Sciences Vol.8 No.3 (2016) 31-38
2.3.3.
DBN-DNN 모델의세조(fine-tuning)
DBN-DNN에서 미세조정 알고리즘은 복수존재하지만 본
구에서는, 고리 교를확하게 하여,
ANN-Sigmoid 학습과정에서 사용된 것과일한 오류역전
알고리즘을 사용하였다. 따라ANN과 마찬가지로 총 100
(epoch) 학습0.001학습률(learning rate) 설정되어
행되었으며, 세대별데이쌍들순서를어주었다.
2.4. 훈련테스
각 모델들은 학습하기 전 시점0대를 포함하여 매 10
학습이 진행때마다 테스트를 진행하였다. 이를해 미
구성3,202개의스트용 데이터 셋이 사용되었으, 비용
수를 이용하여 각 데이터 셋에 대한 RMS를 구하였다. 이를
해 각 세대별로 모델들의 수행이 어떻게 변화하는지를 파악하
, 모델들의 최종적인 수행 능력차이를 확인하고자 하
.
3. 논의
3.1. 은닉개수 RMS 변화
<3> 학습이 종료된 , 각 모델들RMS를 나타낸다.
<2> 토대로 최소화된 에러 값을 구하는 것이 인공신경
망의 적인 점을 안했 , 각 수치는 낮을수록 정확
speech inversion가능했음의미한다.
<3>에서 맨 위쪽은 각 은닉층의 크기인 은닉닛이 50
모델들의 은닉개수에 따른 RMS변화량나타낸다.
이한 점은 ReLU 수를 사용ANN 모델Sigmoid 수를
용한 ANN모델보다 전반적으로 높은 RMS여준다는
인데, 이는 기존 연구에서 밝혀진 사실과 달리 speech inversion
문제훈련때는 ReLU 함수제대학습결과보여
그림 4. 세대별 RMS 변화. HN 은닉층수를 의미함.
Figure 4. The change of RMS in different numbers of layers. ‘HN’ means the numbers of hidden layers.
You, Heejo et al. / Phonetics and Speech Sciences Vol.8 No.3 (2016) 31-38 37
못한다는 것이. ANN-Sigmoid 모델은닉층 개수4개인
지점까지 좋은 성능을 유지하였으나 그 이상의 증가에선 급격
하게 하락하였다. 반면 DBN-DNN 모델은 모델의 은닉층 개수
의 변화와 상관없이 RMS 1.5 이하로 유지하였고, 오히려 은
닉층의 개수가 증가함에 따라 성능이 향상되는 결과를 보여주
었다.
<3>중간에는 은닉 유닛이 100개인델들의 RMS
화량을 나타낸다. 은닉 유닛50개인 위쪽조건과 비교
였을 , 은닉층1개인 조건에서 ANN-ReLU 모델의 성능
다른 모델들과 비슷하였으나, 은닉층의 개수가 증가하자 급격
성능하락을 보였다. 반면 ANN-Sigmoid은닉층이 4
건에서 약간의 성능하락이 있었으, 다른건에서는 은닉
닛이 50개인 경우와 큰 차이를 보여주지 않았다. DBN-DNN
델은유닛50100조건간의 차이없었.
<3>아래쪽은 은닉 유닛이 150개인델들의 RMS
화량을 나타낸다. 이전의 두 조건과 비교하였을, 세 모델 모
두 큰 변동이 없었으며, DBN-DNN 모델만이 약간의 성능향상
을 보였다(닉층이 10개이면서 각 은닉 유닛100인 조건
간의RMS 차이는 0.013).
또한 절대적인 수행능력 면을 비교해 보았 ,
ANN-Sigmoid(은닉: 50, 은닉: 4개인델의 RMS:
1.551) ANN-ReLU(유닛: 150, 닉층: 1개인 모델의
RMS: 1.616) 최고 훈련 성능이, DBN-DNN의 최훈련 성능
(은닉 유닛: 150, 은닉: 7개인 모델RMS: 1.370)다 낮
보여주었. 이와 같은 결과 ANN모델들
DBN-DNN 모델이 안정성을 가지고 조음 데이터를 학습한다
있다.
3.2. 세대 RMS
<4>의 맨 위쪽 세 그래프는 ANN-Sigmoid 모델들의각 세
대 별 RMS 나타낸다. 은닉층이 1인 조건에서는 맨 밑의
DBN-DNN 그래프와 유사하게 RMS1.5 부근의 지점에서
트랙상태(안정화)들어감을여주반면, 은닉층
4늘어조건에서많은 세대학습요구되었으,
7조건에서는 정상적으로 학습이뤄지지 않고 있음을
여준.
<4> 중간의 세 그래프는 ANN-ReLU 모델들의 각
대별 RMS를 나타낸. 3.1서 언급한 바와 같이 ANN-ReLU
모델들은 오직 은닉층1개인 조건에서만 어트랙터 상태에
달하였으며, 은닉 유닛50개인 조건경우, 은닉 유닛이 100
개와 150조건보다 RMS높게 나타났다.
반면세대 DBN-DNN 델은 ANN 모델과는 다르게
닉층 개수가 증가하 네트워크 복잡해짐에도 불구하
RMS 점차 낮아지거나 유지되면서 올바학습 진행 양상을
보여준다.
4.
본 연구는 일반적인 인공신경망(ANN) deep belief network(D
BN) 알고리즘을용한 심층신경망 모델(DNN)을 구성하고,
모델speech inversion 정보를 학습시킴으로써 모델의 수행능
력을 검증해 보고자 하였다. 또한, 이를 통하여 각 신경망 모델
보편적인 조데이터 산가능여부를 검증해 봄으로써,
선행연구들에서 나타난 한계점이 현실적으로 극복가능한지
확인해보고하였.
본 연구의 결과는 종래ANN는 다르게 DBN-DNN
층구조의 은닉층을 보유하였음에도 정상적으로 데이터를 훈련
할 수 있음을 보였고, 나아가 전반적으로 더 나은 수행을 보
수 있었다는 점에서 큰 의미를 지닌. 조음 데이터는 데이터
확보에 많은 시간과 노력이 들기 때문에 대규모의 데이터를
축하는데 큰 제한이 따른. 이런 상황 속에서, 소규모 데이터
로도 효율적인 학습을 유도하는 DBN-DNN 알고리즘speech
inversion용할 있다가능성은, 차후 speech inversion
연구 및 다양한 실용 분야에서 적용 것으기대된다.
참고문헌
[1] Ghosh, P. K. & Narayanan, S. (2011). Automatic speech
recognition using articulatory features from subject-independent
acoustic-to-articulatory inversion. The Journal of the Acoustical
Society of America, 130(4), EL251-EL257.
[2] Sondhi, M. M. & Resnick, J. R. (1983). The inverse problem for
the vocal tract: Numerical methods, acoustical experiments, and
speech synthesis. The Journal of the Acoustical Society of
America, 73(3), 985-1002.
[3] Wilson, I., Gick, B., O’Brien, M. G., Shea, C., & Archibald, J.
(2006). Ultrasound technology and second language acquisition
research. Proceedings of the 8th Generative Approaches to Second
Language Acquisition Conference (GASLA 2006) (pp. 148-152).
[4] Wrench, A. A., Gibbon, F., McNeill, A. M., & Wood, S. (2002).
An EPG therapy protocol for remediation and assessment of
articulation disorders. ICSLP.
[5] Dusan, S. (2001). Methods for integrating phonetic and
phonological knowledge in speech inversion. Proceedings of the
International Conference on Speech, Signal and Image
Processing. Malta.
[6] Engwall, O. (2006). Evaluation of speech inversion using an
articulatory classifier. Proceedings of the 7th International
Seminar on Speech Production (pp. 469-476).
[7] Papcun, G., Hochberg, J., Thomas, T. R., Laroche, F., Zacks, J., &
Levy, S. (1992). Inferring articulation and recognizing gestures
from acoustics with a neural network trained on xray microbeam
data. The Journal of the Acoustical Society of America, 92(2),
688-700.
38 You, Heejo et al. / Phonetics and Speech Sciences Vol.8 No.3 (2016) 31-38
[8] Zacks, J. & Thomas, T. R. (1994). A new neural network for
articulatory speech recognition and its application to vowel
identification. Computer Speech
&
Language, 8(3), 189-209.
[9] Richmond, K. (2001). Mixture density networks, human
articulatory data and acoustic-to-articulatory inversion of
continuous speech. Proceedings of Workshop on Innovation in
Speech Processing (WISP 2001) (pp. 259-276).
[10] Qin, C. & Carreira-Perpinán, M. A. (2010). Articulatory
inversion of american english /r/ by conditional density modes.
Proceedings of 11th Annual Conference of the International
Speech Communication Association (Interspeech 2010) (pp.
1998-2001)
[11] Richmond, K., Hoole, P., & King, S. (2011). Announcing the
Electromagnetic Articulography (Day 1) Subset of the mngu0
Articulatory Corpus. Proceedings of 12th Annual Conference of the
International Speech Communication Association (Interspeech
2011) (pp. 1505-1508).
[12] Mitra, V., Nam, H., Espy-Wilson, C., Saltzman, E., & Goldstein,
L. (2011). Articulatory information for noise robust speech
recognition. Audio, Speech, and Language Processing, IEEE
Transaction on Audio, Speech, and Language Processing, 19(7),
1913-1924.
[13] Najnin, S. & Banerjee, B. (2015). Improved speech inversion
using general regression neural network. The Journal of the
Acoustical Society of America,138(3), EL229-EL235.
[14] Tu, J. V. (1996). Advantages and disadvantages of using
artificial neural networks versus logistic regression for predicting
medical outcomes. Journal of clinical epidemiology, 49(11),
1225-1231.
[15] Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). A fast learning
algorithm for deep belief nets. Neural computation, 18(7),
1527-1554.
[16] Simpson, A. J. (2015). Taming the ReLU with Parallel Dither
in a Deep Neural Network (arXiv preprint). Retrieved from
http://arxiv.org/abs/1509.05173 on September 17, 2015
유희(You, Heejo)
고려대학교 심리학과
서울성북구 암로 145
Email: codejin@korea.ac.kr
관심분야: 언어심리, 어모델
양형(Yang, Hyungwon)
고려대학교 영어영문학
서울성북구 암로 145
Email: hyung8758@korea.ac.kr
관심분야: 음성, 언어공학
강재(Kang, Jaekoo)
고려대학교 영어영문학
서울성북구 암로 145
Email: zzandore@korea.ac.kr
관심분야: 음성, 언어공학
조영(Cho, Youngsun)
고려대학교 영어영문학
서울성북구 암로 145
Email: youngsunhere@korea.ac.kr
관심분야: 음성, 언어공학
황성(Hwang, Sung Hah)
고려대학교 영어영문학
서울성북구 암로 145
Email: hshsun@korea.ac.kr
관심분야: 음성, 언어공학
홍연(Hong, Yeonjung)
고려대학교 영어영문학
서울성북구 암로 145
Email: yvonne_yj_hong@korea.ac.kr
관심분야: 음성, 언어공학
조예(Cho, Yejin)
고려대학교 영어영문학
서울성북구 암로 145
Email: scarletcho@korea.ac.kr
관심분야: 음성, 언어공학
김서(Kim, Seohyun)
고려대학교 영어영문학
서울성북구 암로 145
Email: sh77@korea.ac.kr
관심분야: 음성, 언어공학
남호(Nam, Hosung) 신저자
고려대학교 영어영문학
서울성북구 암로 145
Tel: 02-3290-1991
Email: hnam@korea.ac.kr
관심분야: 음성, 언어공학
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Prior research has shown that articulatory information, if extracted properly from the speech signal, can improve the performance of automatic speech recognition systems. However, such information is not readily available in the signal. The challenge posed by the estimation of articulatory information from speech acoustics has led to a new line of research known as “acoustic-to-articulatory inversion” or “speech-inversion.” While most of the research in this area has focused on estimating articulatory information more accurately, few have explored ways to apply this information in speech recognition tasks. In this paper, we first estimated articulatory information in the form of vocal tract constriction variables (abbreviated as TVs) from the Aurora-2 speech corpus using a neural network based speech-inversion model. Word recognition tasks were then performed for both noisy and clean speech using articulatory information in conjunction with traditional acoustic features. Our results indicate that incorporating TVs can significantly improve word recognition rates when used in conjunction with traditional acoustic features.
Conference Paper
Full-text available
This paper serves as an initial announcement of the availability of a corpus of articulatory data called mngu0. This corpus will ultimately consist of a collection of multiple sources of articulatory data acquired from a single speaker: electromagnetic articulography (EMA), audio, video, volumetric MRI scans, and 3D scans of dental impressions. This data will be provided free for research use. In this first stage of the release, we are making available one subset of EMA data, consisting of more than 1,300 phonetically diverse utterances recorded with a Carstens AG500 electromagnetic articulograph. Distribution of mngu0 will be managed by a dedicated “forum-style ” web site. This paper both outlines the general goals motivating the distribution of the data and the creation of the mngu0 web forum, and also provides a description of the EMA data contained in this initial release.
Article
The problem of nonlinear acoustic to articulatory inversion mapping is investigated in the feature space using two models, the deep belief network (DBN) which is the state-of-the-art, and the general regression neural network (GRNN). The task is to estimate a set of articulatory features for improved speech recognition. Experiments with MOCHA-TIMIT and MNGU0 databases reveal that, for speech inversion, GRNN yields a lower root-mean-square error and a higher correlation than DBN. It is also shown that conjunction of acoustic and GRNN-estimated articulatory features yields state-of-the-art accuracy in broad class phonetic classification and phoneme recognition using less computational power.
Article
Rectified Linear Units (ReLU) seem to have displaced traditional 'smooth' nonlinearities as activation-function-du-jour in many - but not all - deep neural network (DNN) applications. However, nobody seems to know why. In this article, we argue that ReLU are useful because they are ideal demodulators - this helps them perform fast abstract learning. However, this fast learning comes at the expense of serious nonlinear distortion products - decoy features. We show that Parallel Dither acts to suppress the decoy features, preventing overfitting and leaving the true features cleanly demodulated for rapid, reliable learning.
Article
A system for automatic speech recognition (ASR) based on a new neural network design and a theory of articulatory phonology is presented. This system operates in two stages. In the first, speech acoustics are mapped by a neural network onto the movements of the tongue and lips that produced those acoustics (the neural networks are trained on X-ray microbeam recordings of actual articulatory movements); in the second stage, gestures are recovered from those movements. The neural network is built around a new objective function, Correlational + Scaling Error (COSE). When compared to a traditional neural network system, the COSE system trains faster, produces output which better represents the shape of the articulatory movements, and yields higher recognition rates for vowel gestures. After training on two speakers, recognition rates up to 96% for tokens from the training set and 87% for tokens spoken by a novel speaker were achieved.
Conference Paper
Although many algorithms have been proposed for articulatory inversion, they are often tested on synthetic models, or on real data that shows very small proportions of nonuniqueness. We focus on data from the Wisconsin X-ray microbeam database for the American English /r(turned)/ displaying multiple, very different articulations (retroflex and bunched). We propose a method based on recovering the set of all possible vocal tract shapes as the modes of a conditional density of articulators given acoustics, and then selecting feasible trajectories from this set. This method accurately recovers the correct /r(turned)/ shape, while a neural network has errors twice as large.
Article
Artificial neural networks are algorithms that can be used to perform nonlinear statistical modeling and provide a new alternative to logistic regression, the most commonly used method for developing predictive models for dichotomous outcomes in medicine. Neural networks offer a number of advantages, including requiring less formal statistical training, ability to implicitly detect complex nonlinear relationships between dependent and independent variables, ability to detect all possible interactions between predictor variables, and the availability of multiple training algorithms. Disadvantages include its "black box" nature, greater computational burden, proneness to overfitting, and the empirical nature of model development. An overview of the features of neural networks and logistic regression is presented, and the advantages and disadvantages of using this modeling technique are discussed.
Article
We show how to use "complementary priors" to eliminate the explaining-away effects that make inference difficult in densely connected belief nets that have many hidden layers. Using complementary priors, we derive a fast, greedy algorithm that can learn deep, directed belief networks one layer at a time, provided the top two layers form an undirected associative memory. The fast, greedy algorithm is used to initialize a slower learning procedure that fine-tunes the weights using a contrastive version of the wake-sleep algorithm. After fine-tuning, a network with three hidden layers forms a very good generative model of the joint distribution of handwritten digit images and their labels. This generative model gives better digit classification than the best discriminative learning algorithms. The low-dimensional manifolds on which the digits lie are modeled by long ravines in the free-energy landscape of the top-level associative memory, and it is easy to explore these ravines by using the directed connections to display what the associative memory has in mind.
  • Heejo You
You, Heejo et al. / Phonetics and Speech Sciences Vol.8 No.3 (2016) 31-38
Mixture density networks, human articulatory data and acoustic-to-articulatory inversion of continuous speech
  • K Richmond
Richmond, K. (2001). Mixture density networks, human articulatory data and acoustic-to-articulatory inversion of continuous speech. Proceedings of Workshop on Innovation in Speech Processing (WISP 2001) (pp. 259-276).