- ๐ Abstract
- ๐ Introduction
- ๐ Deep speaker embedding
- ๐ High-order pooling with attention
- ๐ Experimental settings
Koji Okabe, Takafumi Koshinaka, Koichi Shinoda
๐ Abstract
-
Text-independent(๋ฌธ์ฅ ๋ ๋ฆฝ : ๋ฐํ ๋ด์ฉ์ด ๋์ผํ์ง ํ์ง ์์)ํ Speaker Verification(ํ์ ๊ฒ์ฆ : ๋ฑ๋ก๋ ํ์์ธ์ง ์๋์ง ํ๋จ, SV)์์ Deep speaker embedding์ ์ํ attentive statistics pooling ์ ์
-
๊ธฐ์กด์ speaker embedding์์๋ ๋จ์ผ ๋ฐํ์ ๋ชจ๋ frame์์ frame-level์ ํน์ง์ ๋ชจ๋ ํ๊ท ๋ด์ด utterance-level์ ํน์ง์ ํ์ฑ
-
์ ์ํ๋ ๋ฐฉ๋ฒ์ attention mechanism์ ์ฌ์ฉํ์ฌ ๊ฐ frame๋ง๋ค ๋ค๋ฅธ weight(๊ฐ์ค์น)๋ฅผ ๋ถ์ฌํ๊ณ , weighted mean(๊ฐ์ค ํ๊ท )๊ณผ weighted standard deviations(๊ฐ์ค ํ์ค ํธ์ฐจ)๋ฅผ ์์ฑ
โ NISE SRE 2012 ๋ฐ VoxCeleb data set์์ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋นํด EER์ด ๊ฐ๊ฐ 7.5%, 8.1% ๊ฐ์
๐ Introduction
-
ํ์ ์ธ์์ ์ง๋ 10๋ ๋์ i-vector paradigm๊ณผ ์งํํ์๊ณ , i-vector๋ ๊ณ ์ ๋ ์ ์ฐจ์์ ํน์ง ๋ฒกํฐ ํํ๋ก ์์ฑ ๋ฐํ ํน์ ํ์๋ฅผ ํํ
-
๋ค์ํ ๊ธฐ๊ณํ์ต์ ํตํด Deep learning์ด ์ฑ๋ฅ ํฅ์์ ํฌ๊ฒ ๊ธฐ์ฌํ๋ฉฐ, ํ์ ์ธ์์ ์ํ ํน์ง ์ถ์ถ์ Deep learning์ ๋์ ์ด ์ฆ๊ฐ
-
์ด๊ธฐ ์ฐ๊ตฌ์์๋ ASR(Automatic Speech Recognition)์ ์ํฅ ๋ชจ๋ธ์์ ๋์ถ๋ DNN์ UBM์ผ๋ก ์ฌ์ฉํ์ฌ ๊ธฐ์กด์ GMM๊ธฐ๋ฐ UBM๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ง๋ง ์ธ์ด ์์กด์ฑ ๋จ์ ๊ณผ ํ๋ จ์ ์ํด ์์ transcription์ด ํ์
-
์ต๊ทผ DNN์ ์ด๋ฌํ i-vector framework์ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ ๋ง๋ค ๊ณ ์ ํ ํน์ง ๋ฒกํฐ๋ฅผ ์ถ์ถํ๋๋ฐ ์ ์ฉํ๋ค๊ณ ๋ฐํ์ง (ํนํ, ์งง์ ๋ฐํ ์กฐ๊ฑด์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์)
-
Text-dependent(๋ฌธ์ฅ ์ข ์ : ๋ฐํ ๋ด์ฉ์ด ๋์ผํจ) SV์์ LSTM(๋ง์ง๋ง frame์์ ํ๋์ ์ถ๋ ฅ์ ๊ฐ๋ ๊ตฌ์กฐ)์ ์ฌ์ฉํ์ฌ utterance-level์ ํน์ง์ ์ป๋ End-to-End Neural Network๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ์ด ์ ์๋์์ผ๋ฉฐ, ๊ธฐ์กด์ i-vector๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์
-
Text-independent SV๋ ์ ๋ ฅ์ผ๋ก ๋ค์ํ ๊ธธ์ด์ ๋ฐํ๋ฅผ ๊ฐ์ผ๋ฏ๋ก average pooling layer๊ฐ ๋์ ๋์ด frame-level์ ํ์ ํน์ง ๋ฒกํฐ๋ฅผ ์ผ์ ํ์ฐจ์์ ๊ฐ๋ speaker embedding ๋ฒกํฐ๋ฅผ ์ป์
-
๋๋ถ๋ถ ์ต๊ทผ ์ฐ๊ตฌ์์ DNN์ด i-vector๋ณด๋ค ๋ ๋์ ์ ํ๋๋ฅผ ๊ฐ๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋ฉฐ Snyder ์ธ๋ average pooling๋ฅผ ํ์ฅํ statistics pooling (ํ๊ท ๋ฐ ํ์ค ํธ์ฐจ ๊ณ์ฐ)์ ์ฑํ
-
๊ทธ๋ฌ๋ ์์ง ์ ํ๋ ํฅ์์ ๋ํ ํ์ค ํธ์ฐจ pooling์ ํจ์จ์ฑ์ ๋ณด๊ณ ํ์ง ์์
-
์ต๊ทผ ๋ค๋ฅธ ์ฐ๊ตฌ์์๋ ์ด์ ์ ๊ธฐ๊ณ ๋ฒ์ญ์์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์จ attention mechanism๊ณผ ํตํฉ
-
ํ์ ์ธ์์์๋ ์ค์๋ ๊ณ์ฐ ์, speaker embedding ์ถ์ถํ๋ network์ ์ผ๋ถ๋ก ์๋ํ๋ ์์ attention network ์ฌ์ฉ
-
๊ณ์ฐ๋ ์ค์๋๋ frame-level์ ํน์ง ๋ฒกํฐ์ weighted mean ๊ณ์ฐํ ๋ ์ฌ์ฉํ์ฌ speaker embedding์ด ์ค์ํ frame์ ์ด์ ์ ๋ง์ถค
-
๊ทธ๋ฌ๋ ์ด์ ์ฐ๊ตฌ์์๋ ๊ณ ์ ๊ธธ์ด์ text-independent ํน์ text-dependent ํ์ ์ธ์๊ณผ ๊ฐ์ ์ ํ๋ ์์ ์์๋ง ์ํ
- ๋ณธ ๋ ผ๋ฌธ์์ attention mechanism์ผ๋ก ๊ณ์ฐ๋ ์ค์๋๋ก importance-weighted standard deviation๊ณผ weighted mean์ฌ์ฉํ ์๋ก์ด pooling๋ฐฉ๋ฒ์ธ attentive statistics pooling๋ฅผ ์ ์
- ๊ฐ๋ณ ๊ธธ์ด์ text-independentํ ํ๊ฒฝ์์ attentive statisitics pooling์ ์ฌ์ฉํ๋ ์ฒซ ๋ฒ์งธ ์๋ ์ด๋ฉฐ, ๋ค์ํ pooling layer ๋น๊ต๋ฅผ ํตํด ํ์ค ํธ์ฐจ๊ฐ ํ์ ํน์ฑ์ ๋ฏธ์น๋ ํจ๊ณผ๋ฅผ ์คํ์ ์ผ๋ก ๋ณด์ฌ์ค
๐ Deep speaker embedding
- ๊ธฐ์กด์ DNN์ ์ฌ์ฉํ speaker embedding ์ถ์ถ ๋ฐฉ๋ฒ
input : acoustic feature (MFCC, filter-bank ๋ฑ)
frame-level์ ํน์ง ์ถ์ถ์ ์ํด TDNN, CNN, LSTM ๋ฑ์ Neural Network
๊ฐ๋ณ ๊ธธ์ด์ frame-level ํน์ง์ ๊ณ ์ ์ฐจ์์ ๋ฒกํฐ๋ก ๋ณํํ๊ธฐ ์ํ pooling layer
utterance-level์ ํน์ง์ ์ถ์ถํ๊ธฐ ์ํ fully-connected layer(hidden layer ์ค ํ๋์ node ์๋ฅผ ์๊ฒ ํ์ฌ bottleneck feature๋ก ์ฌ์ฉ)
๐ High-order pooling with attention
< Statistics pooling - ๊ธฐ์กด์ ์ฌ์ฉํ๋ pooling ๋ฐฉ๋ฒ >
- frame-level ํน์ง์ ๋ํด ํ๊ท (mean)๊ณผ ํ์ค ํธ์ฐจ(standard deviation) ๊ณ์ฐ (โ : Hadamard ๊ณฑ)ํ์ฌ concatenation
< Attention mechanism >
- ๊ธฐ๊ณ ๋ฒ์ญ์์ ๊ธด ๋ฌธ์ฅ์ ์ฑ๋ฅ ์ ํ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ชจ๋ธ์ด ์ถ๋ ฅ ๋จ์ด๋ฅผ ์์ธกํ ๋ ํน์ ๋จ์ด๋ฅผ ์ง์คํด์ ๋ณด๋ ๋ฐฉ๋ฒ์ ๋์
- decoder์ ์๊ฐ i(ํ์ฌ)์์ hidden state ๋ฒกํฐ๋ ์๊ฐ i-1(์ด์ )์ hidden state ๋ฒกํฐ์ ์๊ฐ i-1(์ด์ )์์ decoder์ output, ๊ทธ๋ฆฌ๊ณ ์๊ฐ i(ํ์ฌ)์์์ context ๋ฒกํฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ๊ณ์ฐ
- context ๋ฒกํฐ๋ ์๊ฐ i์์ ์ ๋ ฅ x์ ๋ํ ๊ธธ์ด T ์ ์ฒด์ ๋ํ encoder hidden state ๋ฒกํฐ์ ๊ฐ์คํฉ์ผ๋ก ๊ณ์ฐ
- ์๊ฐ i์์ j๋ฒ์งธ ๋จ์ด์ energy๋ ์๊ฐ i-1(์ด์ )์์ decoder hidden state์ย j๋ฒ์งธ encoder hidden state๊ฐ ์ ๋ ฅ์ธ aligment model(a) ๊ฒฐ๊ณผ๊ฐ (alignment model์ tanh, ReLU ๋ฑ activation function)
< Attentive statistics pooling >
attention mechanism์ ์ฌ์ฉํ์ฌ ๊ณ์ฐํ ๊ฐ์ค์น๋ฅผ ํตํด mean๊ณผ standard deviation์ ๊ฐฑ์
๐ Experimental settings
i-vector
input : 60์ฐจ์ MFCC
UBM : 2048 mixture
TV matrix, i-vector : 400์ฐจ์
Similarity score : PLDA
Deep speaker embedding
input : 20์ฐจ์(SRE 12), 40์ฐจ์(VoxCeleb) MFCC
hidden layer : 5-layer TDNN(activation function : ReLU, node : 512)
pooling dimension : 1500์ฐจ์
acoustic feature vector(MFCC) 15๊ฐ frame์ผ๋ก frame-level ํน์ง ์์ฑ
2 fully-connected layer (1st : bottleneck feature - 512, activation function : ReLU, batch normalization)