ArticlePDF Available

Speech detection from broadcast contents using multi-scale time-dilated convolutional neural networks*

Authors:
Byeong-Yong Jang · Oh-Wook Kwon / Phonetics and Speech Sciences Vol.11 No.4 (2019) 109-116
89
1.
방송 데이 음성, , 효과, 배경 잡음 등과 같은
다양 오디오 신호 포함하 있다. 특히 방송 데이터에
서의 음성 신호 다양한 환경 화자, 그리 발화 스타
포함하고 있기문에 음성 기술상시는데
많은을 줄 있다
.
이러 이유 방송 데이에서 음성
분할
(speech segmentation)
또는 음성 구간 검출
(speech detection)
이전흥미로운 연구 주제로 다뤄지 있다. 한 심
학습(deep learning) 기술이 발달함에 따라 많은 데이
필요 되었, 방송 데이터 방대한 데이 양이란
때문 더욱 주목받게 되었다. 방송 데이터
서의 음성은 다양 오디 신호합되 때문
음성 구간 검출는데 어려움이 있고, 이러
분이
구간 검출 연구에서 해결해 하는 중요 과제
.
IberSPEECH
에서 오디오 분할 경진
(audio segmentation
challenge) 2010 2014하였, 여기에는
데이터에서의 음성 검출 과제가 포함되있다(Butko et
* This research project was supported by Ministry of Culture, Sports and Tourism (MCST) and from Korea Copyright Commission in 2019 [2018-micro-9500,
Intelligent Micro-Identification Technology for Music and Video Monitoring].
** owkwon@cbnu.ac.kr, Corresponding author
Received 10 September 2019; Revised 4 November 2019; Accepted 8 November 2019
Copyright 2019 Korean Society of Speech Sciences. This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-
Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any
medium, provided the original work is properly cited.
pISSN 2005-8063
eISSN 2586-5854
2019. 12. 31.
Vol.11 No.4
pp. 89-96
말소과학
https://doi.org/10.13064/KSSS.2019.11.4.089
Speech detection from broadcast contents using multi-scale
time-dilated convolutional neural networks*
Byeong-Yong Jang · Oh-Wook Kwon**
School of Electronics Engineering, Chungbuk National University, Cheongju, Korea
Abstract
In this paper, we propose a deep learning architecture that can effectively detect speech segmentation in broadcast
contents. We also propose a multi-scale time-dilated layer for learning the temporal changes of feature vectors. We
implement several comparison models to verify the performance of proposed model and calculated the frame-by-frame
F-score, precision, and recall. Both the proposed model and the comparison model are trained with the same training data,
and we train the model using 32 hours of Korean broadcast data which is composed of various genres (drama, news,
documentary, and so on). Our proposed model shows the best performance with F-score 91.7% in Korean broadcast data.
The British and Spanish broadcast data also show the highest performance with F-score 87.9% and 92.6%. As a result, our
proposed model can contribute to the improvement of performance of speech detection by learning the temporal changes of
the feature vectors.
Keywords: speech detection, multi-scale time-dilated convolution, deep learning, broadcast data
90
Byeong-Yong Jang · Oh-Wook Kwon / Phonetics and Speech Sciences Vol.11 No.4 (2019) 109-116
al., 2011; Castan et al., 2015). 경진대회 카탈루아어
(Catalan) 방송 뉴스터를 사용하였 때문에 장르의
다양 다소 부족지만, 접근법과 알고리소개
되었. 2014 경진대회에서 가장 좋은 성능 나타낸
근법 2개의 시스템을 결합하여 구현되. 번째 시스
템은 은닉 마르코프 모델(hidden Markov model, HMM)
용하버랩(overlap)래스 분류
, 두 번스템 시스템의 결과와 가우시
혼합 모델(Gaussian mixture model, GMM) 다층트론
(multilayer perceptron, MLP) 이용 세부 클래스를
분류
.
시스 멜스케 켑스트럼 계수
(Mel-
frequency cepstral coefficient; MFCC) i-vector(Dehak et al.,
2010) 사용하.
2015
년과
2018
년에
MIREX
에서 방송 데이터 음성
/
음악
과제
(MIREX, 2015; MIREX,
2018).
경진대회에서는 영국
,
스페
,
독일
,
프랑스에서 수집
다양한
TV
프로그 방송 데이터 사용하였다
. Doukhan
et al.(2018) MIREX 2018 경진대에서 음성 구간 검출
과제 가장 높은 성능을 보여주, 4개의 합성
(convolutional layer) 4 완전 연결 (fully-connected
layer)용한 신경(convolutional neural network,
CNN) 구조를 사용하고, 입력 특징 멜스케일 스펙트로
그램(Mel-scaled spectrogram)을 사용하.
Tsipas et al.(2017) 거리기반 방법 모델기 방법
용하 멀티미디어이터에서 음악 검출하 알고
리즘개하였다. 이들은 유사 행렬(self-similarity
matrix)
이용하 음성과 음악의 부분을
,
서포트
벡터 머신(support vector machine, SVM) 이용하음성
음악 분류하였다. 이들은 경계 검출분류 위하여 zero
crossing rate, flux, spectral roll-off, root mean square energy,
MFCC, spectral flatness 특징으 추출하 사용하였.
알고리즘계구 검출 음성 음악
분류는 순서 진행되 때문에 오버 구간을 처리
수 없는 한계점이 있다.
분할(segmentation) 문제는 분야에 많이 연구
있는 과제이. 영상 분야에서 특정 영역을 분할하기 위
접근법 확장 합성곱 (dilated convolutional layer)
많이 사용되고 있는데 이는 합성곱의 시야가 넓어지면
보다 넓은 범위에 특징 간의 변화 정보를 같이 학습
있기 때문이. Yu et al.(2015) 확장 합성곱을 제안
여 이미지의 특정 영역 분할 성능 향상시켰으며, Zhang et
al.(2017)
피라미드 확장 합성곱 단
(pyramid dilated convolution
unit)을 제안하여 이미지 분할 성능을 향상시켰다.
논문에서 방송데이터의 음성 구간을 검출하위하
합성 신경 기반의 심층 학습 모델제안.
하는 심층 학습 모델은 시간 축에 대하여 넓은 시야
가지 학습하 위하여 시간 확장 합성(time-dilated
convolutional layer) 정의하 사용한. 또한, 벡터의
시간 변화보를출하 위한 다중일 시
확장 합성 (multi-scale time-dilated convolutional layer)
제안 사용. 이렇 구성된 심층 학습 모델 특징
벡터 정보 손실을 줄이, 시간 변화 정보를 학습함으
로써 구간 검출을 위델 학에 유할 것
예상. 라서 논문다음 2장에제안 알고리
설명, 3장에실험 결과 제시하여 제안 알고
의 성능을 검증할 것이며, 4장에서 결론을 도출할 것이다.
2. 리즘
방송 데이터의 오디오함되 크게
, , 음으분류 있다. 여기서 음성은 다른
호에 비하 시간적 변화 다양하다는 특성. 음성
발음하는 음소에서양한 시간 변화 존재
, 하나 음소 매우 시간 발화되기 때문에
음성 시간에 대하여 동적 변화가 많을 수밖 없고,
데이 음성스템 고려 구현 필요
가 있다.
논문 제안하는 음성출의 전체도와
입출 그림 1 같다. 제안 시스템은 방송 데이터의
디오 신호입력 받아 특징 추출하, 심층 학습 모델
이용여 프레임 단위로 음성/음성으로 구분한. 이후
사후 처리 통하여 최종적인 음성 구간 검출하, 최종
출력 음성 구간의 시작 시간과 끝 시간으 나타난.
2.1. 특징
방송 데이터 또는 음성 데이 다루 심층 학습 모델
에서펙트그램스케펙트그램, 그리고
멜스켑스트럼 계수(MFCC)가 입력으로 사용된(Butko,
2011; Castan, 2015; Doukhan, 2018; Tsipas, 2017).
스케 인간 청각 반영 필터파수 영역
에서 압축할을. 음성 경우성과
많은 연관성문에 멜스케 음성 정보
Byeong-Yong Jang · Oh-Wook Kwon / Phonetics and Speech Sciences Vol.11 No.4 (2019) 109-116
91
손실 최소화 특징 추출할 있도록 도와준다.
렇게 정보의 손실을 최소화하 입력 차원을 감소시키
멜스 스펙트로그 음성 데이터를 다루 심층 학습
모델좋은 성능을 나타내 있다(Doukhan, 2018).
논문에서 이러 점을 고려하여 멜스 스펙트
그램 심층 학습 모델의 입력 특징으 사용하였으며,
는 스트로그램서 주수 영에 필를 적용함로써
추출. 지만 특징시간 영역에서특징 변화 정
보는 고려되있지 않기 때문에 논문에서 시간 영역
에서 특징 간의 관계학습 있도록 고안된 시간
확장 합성곱을 정의하여 사용.
2.2. 시간 성곱
확장성곱 Yu & Koltun(2015) 의하안되었으
, 이는 기존 합성곱 층에 확장 비율(dilation rate) 파라미
도입한 방법이. 비율 커널(kernel) 사이 간격
정의하
,
이는 커널이 넓은 시야를 갖도록 해주는
한다. 러한 성질 때문에 확장 합성비전 분야에
서 영역 분할을 위한 접근법으로 주로 사용되고 있다.
시간 확장 합성곱입력으로 스펙트로그 사용할
정의 있다. 스펙트로그 2 이미라고 가정할
, 가로축은 시간 의미하고, 세로 주파수
미한. 여기서 확장 비율 가로에만 적용 하면 시간
에 대한 확장 합성, 시간 확장 합성곱 된다.
그림 2. 성곱 시간 확장 합성
Figure 2. Dilated convolution and time-dilated convolution
그림 2 부분은 확장 합성곱이, 아래 부분 시간
확장 합성곱이. 합성곱 층의 커널 사이3×3 가정
, 확장 비율 값이 1, 2, 3변화따라 커널의
변화 그림 2와 같으며, 확장 합성곱 시간 확장
성곱 차이 쉽게 있다. 확장 합성곱은 확장 비율
변화함에 따라널이 주파 (로축)(
로축) 확장되는 반해, 시간 확장 합성곱은 커널이
축으로만됨을 있다. 주파수 영역에
기존 커널같은 범위로 필터를 적용하지, 시간 영역
에서 기존 커널보 넓은 시야 필터를 적용하
과를 보여준. 그러스펙트로그램 적용한 시간 확장
합성 커널 시간 넓은 가짐으로
학습 모델이 시에 따징 벡의 변를 학
있도준다. , 시간에 대하 동적
데이 또는 특징학습함에 있어 시간 확장 합성곱
기존 합성곱보 유리한 특성 갖는다.
2.3. 제안학습
논문에 제안하는 십층 학습 모델 그림 3 같다.
2.1언급한 것과 같이 제안하 심층 학습 모델은
스케 스펙트로그을 추출하여 특징으 사용한. ,
멜스일의 (bin) 개수64설정하였,
보를하기 위하여 분류하고 하는임의 50
개의 프레임을 함께 심층 모델의 입력으로 사용한다.
심층 학습 모델에 입력되는 멜스케 스펙트로그램의
원은 64(bin)×101(frame)이다. 첫 번째 합곱 층 하나의
확장 비율로 구성되 기존 확장 합성층과 다르
다른 확장 비율갖는 시간 확장 합성곱 (time-dilated
convolution unit) 3개를 병렬로 구성 결합합성
이며, 3A 해당한다. , 케일 스펙트로램을
입력 하는 시간 확장 합성 3개를 각각 구성한
합성 결과 이어 붙여 다음 합성 층의 입력으로 사용
한다. 그림 3 A 번째() 확장 비율이 1,
필터 개수2 시간 확장 합성곱 층이고, 번째(노란)
확장 비율 2이고, 필터 개수 2 시간 확장 합성공
층이. 마찬가지(파란) 확장 비율이 3이고,
필터 개수 2 시간 확장 합성 층이며, 3개의 합성
출력을 이어 붙여 다중 스케일 시간 확장 합성곱 층을
구성였다. 이러한 구조 정보가 압축되어 있지 않은
수한 입력 멜스케일 스펙로그램을 다양한 스케일의
야를 갖는 커널측함로써이의 시간
변화 정보를 학습할 있도도와준다. 3 A
확장 합성은 공적으 5×5 커널 크기 1
stirde 기로 필터 적용하으며, 때 필터 개수는 2개이
, 퍼볼탄젠(hyperbolic tangent) 함수
성하. 그림 3A분 이후 3의 시간 확장 합성
2개의 완전 결합 층을 연결하였, 각각 그림 3
B C 해당한다. 3개의 시간 확장 합성 층은 각각
1, 2, 4
확장 비율 가지
, 16, 32, 64
개의 필터 개수를
, 통적으로 3×3 커널 크기 활성 함수 Rectified
linear unit(ReLU) 구성된다. 합성 층 사이에 stride
size 2 average pooling을 적용하였고, 마지막 층 이후
softmax 적용 음성/성에 대한 확률 출력하
구성였다. 제안 모에서정한 확장율 파미터
실험 통하여 가장 적절한 파라미터로 선정 것이다.
92
Byeong-Yong Jang · Oh-Wook Kwon / Phonetics and Speech Sciences Vol.11 No.4 (2019) 109-116
2.4. 사후
심층 학습 모델 출력인 음/(speech/non-speech)
확률 0.5를 기으로 음성/비음으로 분류된다. 하지만
이는 프레 단위로 계되기 때문 평활(smoothing)
필요. 본 시스템서는레임 단위 결과 평활화
하기 위하중간 필터(median filter)를 사용하였다.
필터 설정도우 값들 중간 값으로 치환
고주특성갖는 noise 분들 제거 주는 역할을
한다. 중간 필터 윈도우 크기 101 프레(1.01)
설정 최소 음성 1 넘도화를
였다.
그림 4.
Figure 4. Result of post-processing
그림 4 심층 학습 모델 출력원본 결과와 중간값
터를하여 사후처 수행 값을주고
. 파란 점선은 원본 결과이, 빨간 실선처리
결과. 원본 결과와 달리 사후 처리 결과 매우
음성간은 제거하, 음성 사이 짧은
구간 병합하 결과를 평활하고 있음을 알 있다.
3.
3.1. 데이베이
연구에서음성 구간 검출 위한 심층 학습 모델
학습기 위하여송 데터를 수집였다. 수집한
데이 다큐멘터, , 드라마, 어린이 장르 포함
44 분량, 수동으성 구 모두시하였다.
본 연구에서는 학습위하 32시간(train set), 위하
12시간(test set1) 데이터를 분할하였, 학습 데이터
검증 데이터 프로그램명 겹치지 않으며, 검증 데이
터는양한 장르 포함도록 구성였다. 이 데이터
별개 선정라미정을 위하 드라 데이
3시간(development set) 수집하여 사용하였.
연구에서 제안 시스템의 객관적 검증 심화하기
위하 다른 나라 방송데터를 수집 검증에 사용
였다. 외국 방송 데이 다양한 장르 포함 영국
영어 방송 데이터 8(test set2) 스페인어 방송 데이
12(test set3) 구성되으며, 국어 데이터와 동일
수동으 음성 구간을 표시하여 사용하였, 모든 오디
데이터는 16,000 Hz 주파수와 16 bit, (mono)
로 구성되었다.
1연구에서 사용한 데이터 분량 음성 구간
비율 보여준. 방송 데이터는 종류따라 음성 구간
의 비율이 최소 30.3%, 64.8%로 나타났.
그림 3. 안하 심층 학습 모델 구조
Figure 3. Proposed deep learning model
Byeong-Yong Jang · Oh-Wook Kwon / Phonetics and Speech Sciences Vol.11 No.4 (2019) 109-116
93
이름
시간
음성
구간
비율(%)
Train
Korean_broadcast_32h
32
21
64.8
Develop
Korean_drama_3h
3
0.9
30.3
Test
Korean_broadcast_12h
12
7.6
59.4
British_broadcast_8h
8
4.3
53.9
Spanish_broadcast_12h
12
7.7
64.2
1. 데이터베
Table 1. Database
3.2. 비교
연구서는델의교를비교
선정 및 구현하여 성능 실험을 수행였다
.
성능 비교를 위한
델은 범용으로 사용하는
LeNet-5(LeCun et al., 1998)
에 기반하여 구성한 합성곱 신경망 구조의 모델
(CNN)
LeNet-5
와의 차이은 합성곱
pooling
층이
3
개이
,
완전
결합
2
개로 구성었으
, pooling
층은
average pooling
법을 사용였다
.
모델은 특징 터의 시간변화를
려할 수 있 순환 신경
(recurrent neural network, RNN)(Sak et
al., 2014)
구조성하으며
,
이는
2
개의 양방이트
유닛
(bidirectional gated recurrent unit, bi-GRU)(Lu & Duan, 2017)
층으성하
.
델은신경
망을 결합한 합성곱 순환 신경망
(convolutional recurrent neural
network, CRNN)
구조
3
개의 합성
pooling
이후
간 축순환하는방향신경
2
개를결하
성하
(Zuo et al., 2015).
마지으로성곱구조에서
강인다고 알려져 있
ResNet(He et al., 2016)
모델 학습
성능증을행하
.
모델영상관련
에서 널리 사용고 있으며
,
본 연구에
TensorFlow library
1
용하 실험수행하였고
,
델은
50
개의 레이
수를 가진
.
마지으로 논문제안시간
확장 합성성곱치는 영향
확인기 위하여각을 따로용하여 성 실험을 수하였
.
실험비교으로용되
CNN
모델
3
조에확장 비율기존성곱 층을
B+C
성된
.
여기시간 합성
(
그림
3
A
부분
)
을 추가 모델을
CNN+A
라 하고
, CNN
모델 합성곱
층에비율
(
그림
3
B
부분
)
추가
CNN+B
모델
의한
.
마지으로 그림
3
A
B
부분
델은
CNN+A+B
이다
.
3.3. 모델 선정
연구 제안 모델과 비교 모델의 객관적 비교를 위하
같은 파라미특징 추출 학습을 진행하.
트로램을 추출하 위하여 10 ms마다 25 ms의 윈도우
기로 STFT(short-time Fourier transform) 512 크기로
log power coefficient 계산하였고, 스케 스펙트로그
램은 스펙로그램에 64개의 빈으 구성된 멜스케 필터
적용하 추출하였다
.
심층 학습 모델 학습
leaning rate
0.001, epoch 42, minibatch 300, dropout probability 0.4
행되. 제안 모델 비교 모델들 모델마 수렴 또는
과적(overfitting)구간 다를 있으므로 epoch 횟수
를 크게 설정하였다.
연구 학습 모델 학습면서 과적
성능 저하 배제하 위해 일정 반복 횟수(1,000 iteration)
마다델을장하고
, develop
데이
(Korean_ drama_3h)
대한 성능 확인하. 그리 가장 높은 성능
모델을 선정하여 사용하였. 비교 모델과 제안 모델은
10,000 iteration( 15 epoch) 방에 가장 높은 성능을
여주.
3.4. 성능 평가
연구서는 제안한 모델 비교 모델 성능 평가
위하
sed_eval
구를 사용
(Mesaros et al., 2016).
도구 프레 단위의 F-score, precision, recall 성능 지표
보여, 지표는 True Positive(TP), False Positive(FP),
False Negative(FN) 계산되, 식은 다음과 같다.
Pr




(1)





(2)

×
(3)
3.4. 실험
연구서는 앞서 언급였던 것과 같이 한국
3데이터를 이용하여 모델 선정 하였다. 2 가장
좋은 성능으 선정 모델들의 평가 결과이다
.
제안 모델을
제외 비교 모델 CNN 모델의 성능 88.8% F-score
가장 높게 나타났다. 제안 모델인 CNN+A+B 89.3%
F-score 가장 높은 성능 보여주었으, 다중 스케일
확장 합성 층만 추가 CNN+A 성능은 CNN 모델
성능높은 89.0%F-score보여주었. 시간
합성가한 CNN+B 모델 성능은 CNN 모델
성능낮은 87.10% F-score로 나타났. 연구에
이렇별된 모델들을하여터의
가를 수행하였.
1 https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/slim/python/slim/nets/resnet_v2.py
94
Byeong-Yong Jang · Oh-Wook Kwon / Phonetics and Speech Sciences Vol.11 No.4 (2019) 109-116
Structure
F-score
Precision
Recall
CNN (LeCun et al.)
88.8
90.2
87.6
bi-GRU (Lu & Duan)
88.2
88.2
88.3
CRNN (Zuo et al.)
87.1
87.2
87.0
ResNet (He et al.)
88.1
89.4
86.9
CNN+A
89.0
89.0
89.1
CNN+B
87.1
90.8
83.7
CNN+A+B
89.3
89.6
89.1
2. Korean drama 3h 데이(dev) 평가 결과
Table 2. Evaluation result of Korean drama 3h
3한국 방송 데이12간에 대한 평가 결과를
여준
.
한국 드라마 데이터
3
시간 결과와 다르게 제안 모델
제외 ResNet 모델 성능 91.5% F-score
가장 높게 나타났. 지만 데이터서도 CNN+A+B
모델 91.7 F-score 가장 높게 나타으며, CNN+A
델의 성능 또한 ResNet높은 91.6% F-score 보여
있다. 드라데이터의 양상과 마찬가 CNN+B
능은 CNN의 성능보 낮은 87.1 % F-score 나타났.
Structure
F-score
Precision
Recall
CNN (LeCun et al.)
90.1
94.8
85.9
bi-GRU (Lu & Duan)
90.1
94.0
86.5
CRNN (Zuo et al.)
91.0
92.6
89.5
ResNet (He et al.)
91.5
93.2
89.9
CNN+A
91.6
94.2
89.4
CNN+B
89.6
94.9
84.9
CNN+A+B
91.7
94.2
89.2
3. Korean broadcast 12h 데이터의 평가 결과
Table 3. Evaluation result of Korean broadcast 12h
4 5 영국과 스페 데이터에 대한 평가
과이. 연구에 사용 학습 데이터에 영국 영어와
스페어가 없음에도 전반적으 85% 이상 좋은 성능을
보여고 있. 그리 영국 영어 스페어 데터에
모두 CNN+A+B 델이 87.9% 92.6% F-score 비교
델보 좋은 성능을 보여주었. 다만 한국어 데이터의
능과 다르게 영국 영어 데이와 스페인어 데이터에서
CNN+A+B 모델보 CNN+A 델의 성능이 89.3% 93.1%
F-score 높게 나타났으며, 모델 성능가장 높은
성능 보여주. 또한 영국 영어 데이터 제안 모델
제외 모델 CRNN 모델이 87.7% F-score
성능여주었으, 스페인어터에서는 ResNet 모델
92.5% F-score좋은 성능을 보여주.
Structure
F-score
Precision
Recall
CNN (LeCun et al.)
86.5
91.7
81.8
bi-GRU (Lu & Duan)
85.1
89.4
81.3
CRNN (Zuo et al.)
87.7
88.7
86.7
ResNet (He et al.)
87.3
88.8
85.8
CNN+A
89.3
92.4
86.4
CNN+B
85.1
91.6
79.5
CNN+A+B
87.9
91.4
84.7
4. British broadcast 8h 이터
Table 4. Evaluation result of British broadcast 8h
Structure
F-score
Precision
Recall
CNN (LeCun et al.)
92.4
93.9
90.9
bi-GRU (Lu & Duan)
90.9
92.8
89.2
CRNN (Zuo et al.)
92.1
91.8
92.4
ResNet (He et al.)
92.5
92.5
92.5
CNN+A
93.1
93.5
92.8
CNN+B
90.9
92.8
89.2
CNN+A+B
92.6
93.2
92.1
5. Spanish broadcast 12h 데이터의 평가 결과
Table 5. Evaluation result of Spanish broadcast 12h
마지으로 6 CNN+A+B 모델에 사후 적용
성능과 적용하지 않은 성능 보여준. 프레 단위의
결과활화 위하 적용 필터 확실
모델능을주고음을 볼 수 있다. 다만잡한
알고즘이단한 필터용이 성능
폭이 작다는 한계점이 존재한.
Data
Post-proc.
F-score
Precision
Recall
Korean drama 3h
적용
89.3
89.6
89.1
미적용
88.5
88.3
88.8
Korean broadcast
12h
적용
91.7
94.2
89.2
미적용
90.8
93.6
88.2
British broadcast
8h
적용
87.9
91.4
84.7
미적용
87.1
90.3
84.1
Spanish broadcast
12h
적용
92.6
93.2
92.1
미적용
92.1
92.7
91.6
6. CNN+A+B
Table 6. Comparison of post-processing for CNN+A+B model
4.
논문에서 방송데이터에 다른 오디 신호 혼합
되어 있는 음성 구간검출하기 위하여 새로운 심층 학습
모델 제안하였. 제안한델은 음성 시간에서
동적 변화가 많은 특성을 고려하 위하다중 스케
확장 합성곱 층과 시간 확장 합성곱 층을 제안하
용하. 논문에서 제안 모델의 성능은 다른 심층 학습
모델 높은 성능 보여주. 제안 모델 한국어
라마 데이 3간과 한국송 데12시간을 사
실험89.3 91.7 가장 높은 F-score 나타냈다.
영국 영어와 스페인어 방송 데이터 대해서 87.9 92.6
Byeong-Yong Jang · Oh-Wook Kwon / Phonetics and Speech Sciences Vol.11 No.4 (2019) 109-116
95
F-score 가장 높은 성능보여었다. 리고 영국 영
어와인어 데이터서는 다중케일 시간 확장 합성
층만 사용한 모델(CNN+A)89.3% 93.1%F-score
시간장 합곱 층 사용한(CNN+A+B)보다
성능 보여주. 이렇 모델 방송 데이터에
류와없이 높은 보여였으, 이는
논문서 제한 시 확장성곱 특징 간의
시간 변화 정보 관찰하고, 음성 구간 검출 성능
상에하고다고 판단 수 있, 특히 영어
데이와 스페어 데이에서는 다중 스케일 시간 확장
합성 층이 향상에 더 많은여를 것으
보여.
결론으로 본 논문서는 음성의 특성을 고려 심층
학습 모델 구조 제안하였고, 결과 통하여 제안 모
델이 음성 구간 검출에 적합 모델임 검증하. 추후
에는 최신의 심층 신경망 모델에 다중 스케 시간 합성
층을 적용하는 연구를 할 계획이다.
References
Butko, T., & Nadeu, C. (2011). Audio segmentation of broadcast
news in the Albayzin-2010 evaluation: overview, results, and
discussion. EURASIP Journal on Audio, Speech, and Music
Processing, 2011(1), 1-10.
Castan, D., Tavarez, D., Lopez-Otero, P., Franco-Pedroso, J.,
Delgado, H., Navas, E., Docio-Fernandez, L., ... Lleida, E. (2015).
Albayzin-2014 evaluation: audio segmentation and classification
in broadcast news domains. EURASIP Journal on Audio, Speech,
and Music Processing, 2015(33), 1-9.
Doukhan, D., Lechapt, E., Evrard, M., & Carrive, J. (2018). Ina’s
MIREX 2018 music and speech detection system. Music
Information Retrieval Evaluation eXchange (MIREX).
Dehak, N., Kenny, P. J., Dehak, R., Dumouchel, P., & Ouellet, P.
(2010). Front-end factor analysis for speaker verification. IEEE
Transactions on Audio, Speech, and Language Processing, 19(4),
788-798.
He, K., Zhang, X., Ren, S., & Sun, J. (2016, June). Deep residual
learning for image recognition. Proceedings of the IEEE Con-
ference on Computer Vision and Pattern Recognition (pp. 770-778).
LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-
based learning applied to document recognition. Proceedings of
the IEEE, 86(11), 2278-2324.
Lu, R., & Duan, Z. (2017). Bidirectional GRU for sound event
detection. Detection and Classification of Acoustic Scenes and
Events.
Mesaros, A., Heittola, T., & Virtanen, T. (2016). Metrics for
polyphonic sound event detection. Applied Sciences, 6(6), 162.
Mirex (2015). Music/speech classification and detection. Retrieved fro
m
http://www.music-ir.org/mirex/wiki/2015:Music/Speech_Classi
fi-cation_and_Detection
Mirex (2018). Music and/or speech detection. Retrieved from http://
www.music-ir.org/mirex/wiki/2018:Music_and/or_Speech_Dete
ction
Sak, H., Senior, A., & Beaufays, F. (2014). Long short-term memory
recurrent neural network architectures for large scale acoustic
modeling. In 15th Annual Conference of the International Speech
Communication Association (Interspeech-2014) (pp. 338-342).
Singapore.
Tsipas, N., Vrysis, L., Dimoulas, C., & Papanikolaou, G. (2017).
Efficient audio-driven multimedia indexing through similarity-
based speech/music discrimination. Multimedia Tools and Appli-
cations, 76(24), 25603-25621.
Yu, F., & Koltun, V. (2015). Multi-scale context aggregation by dilated
convolutions. Retrieved from https://arxiv.org/abs/1511.07122.
Zhang, Q., Cui, Z., Niu, X., Geng, S., & Qiao, Y. (2017). Image
segmentation with pyramid dilated convolution based on ResNet
and U-Net. In International Conference on Neural Information
Processing (pp. 364-372).
Zuo, Z., Shuai, B., Wang, G., Liu, X., Wang, X., Wang, B., & Chen,
Y. (2015, June). Convolutional recurrent neural networks: Learning
spatial dependencies for image representation. Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition
Workshops (pp. 18-26).
장병 (Byeong-Yong Jang)
충북학교 전자학부 사과
충북 주시 원구 대로 1
Tel: 043-261-3374
E-mail: byjang@cbnu.ac.kr
관심: 인식, , 디오
권오 (Oh-Wook Kwon) 신저
충북학교 전자학부
충북 주시 원구 대로 1
Tel: 043-261-3374
E-mail: owkwon@cbnu.ac.kr
관심: 인식, , 디오
96
Byeong-Yong Jang · Oh-Wook Kwon / Phonetics and Speech Sciences Vol.11 No.4 (2019) 109-116
* 연구화체육관국저작권위원2019 년도 저작권기술개사업연구결과 수행되[2018-micro-9500, 영상
니터링을 위한 지능 마이크로 식별 기술개발].
국문
케일 확장 합성 신경망을 이용 방송
서의 음성
장병 · 권오
충북학교 전자공
국문초록
문에콘텐츠에서 음성 구간 출을 효과으로 있는 심층 학습 조를 제안
.
또한
터의 시간화를 학습스케안한
.
문에안한 모델
성능증하하여비교구현
,
프레위의
F-score, precision, recall
계산보여
준다
.
제안모델데이습되었으
,
모든양한
(
드라
,
뉴스
,
큐멘
)
구성있는방송이터
32
시간용하모델습되었다
.
제안델은송데
이터
F-score 91.7%
로 가 좋은능을여주었다
.
또한국과페인송 데이터서도
F-score 87.9%
92.6%
높은 능을 보여었다
.
결과으로 문의 제안 델은 특징 벡터 시간변화를 학습하여
검출 상에 여할 있었다
.
핵심: 성 구 검출, 다 스케 시간합성, 심층 학모델, 방 데이
ResearchGate has not been able to resolve any citations for this publication.
Conference Paper
Full-text available
A convolutional neural network (CNN) based architecture is proposed for MIREX 2018 music and speech detection challenge. The system uses log-mel filterbank features. It has 4 convolutional and 4 dense layers. It is part of the inaSpeechSegmenter open-source framework, which was designed for conducting gender equality studies.
Conference Paper
Full-text available
Various deep convolutional neural networks (CNNs) have been applied in the task of medical image segmentation. A lot of CNNs have been proved to get better performance than the traditional algorithms. Deep residual network (ResNet) has drastically improved the performance by a trainable deep structure. In this paper, we proposed a new end-to-end network based on ResNet and U-Net. Our CNN effectively combine the features from shallow and deep layers through multi-path information confusion. In order to exploit global context features and enlarge receptive field in deep layer without losing resolution, We designed a new structure called pyramid dilated convolution. Different from traditional networks of CNNs, our network replaces the pooling layer with convolutional layer which can reduce information loss to some extent. We also introduce the LeakyReLU instead of ReLU along the downsampling path to increase the expressiveness of our model. Experiment shows that our proposed method can successfully extract features for medical image segmentation.
Article
Full-text available
In this paper, an audio-driven algorithm for the detection of speech and music events in multimedia content is introduced. The proposed approach is based on the hypothesis that short-time frame-level discrimination performance can be enhanced by identifying transition points between longer, semantically homogeneous segments of audio. In this context, a two-step segmentation approach is employed in order to initially identify transition points between the homogeneous regions and subsequently classify the derived segments using a supervised binary classifier. The transition point detection mechanism is based on the analysis and composition of multiple self-similarity matrices, generated using different audio feature sets. The implemented technique aims at discriminating events focusing on transition point detection with high temporal resolution, a target that is also reflected in the adopted assessment methodology. Thereafter, multimedia indexing can be efficiently deployed (for both audio and video sequences), incorporating the processes of high resolution temporal segmentation and semantic annotation extraction. The system is evaluated against three publicly available datasets and experimental results are presented in comparison with existing implementations. The proposed algorithm is provided as an open source software package in order to support reproducible research and encourage collaboration in the field.
Article
Full-text available
This paper presents and discusses various metrics proposed for evaluation of polyphonic sound event detection systems used in realistic situations where there are typically multiple sound sources active simultaneously. The system output in this case contains overlapping events, marked as multiple sounds detected as being active at the same time. The polyphonic system output requires a suitable procedure for evaluation against a reference. Metrics from neighboring fields such as speech recognition and speaker diarization can be used, but they need to be partially redefined to deal with the overlapping events. We present a review of the most common metrics in the field and the way they are adapted and interpreted in the polyphonic case. We discuss segment-based and event-based definitions of each metric and explain the consequences of instance-based and class-based averaging using a case study. In parallel, we provide a toolbox containing implementations of presented metrics.
Conference Paper
Full-text available
State-of-the-art models for semantic segmentation are based on adaptations of convolutional networks that had originally been designed for image classification. However, dense prediction problems such as semantic segmentation are structurally different from image classification. In this work, we develop a new convolutional network module that is specifically designed for dense prediction. The presented module uses dilated convolutions to systematically aggregate multi-scale contextual information without losing resolution. The architecture is based on the fact that dilated convolutions support exponential expansion of the receptive field without loss of resolution or coverage. We show that the presented context module increases the accuracy of state-of-the-art semantic segmentation systems. In addition, we examine the adaptation of image classification networks to dense prediction and show that simplifying the adapted network can increase accuracy.
Article
Full-text available
Audio segmentation is important as a pre-processing task to improve the performance of many speech technology tasks and, therefore, it has an undoubted research interest. This paper describes the database, the metric, the systems and the results for the Albayzín-2014 audio segmentation campaign. In contrast to previous evaluations where the task was the segmentation of non-overlapping classes, Albayzín-2014 evaluation proposes the delimitation of the presence of speech, music and/or noise that can be found simultaneously. The database used in the evaluation was created by fusing different media and noises in order to increase the difficulty of the task. Seven segmentation systems from four different research groups were evaluated and combined. Their experimental results were analyzed and compared with the aim of providing a benchmark and showing up the promising directions in this field.