- ๐ Abstract
- โ . Introduction
- โ ก. Database and Baseline Systems
- โ ข. Proposed End-to-End DNN Architecture
- โ ฃ. Results and Discussion
- โ ค. Conclusion
Johan Rohdin, Anna Silnova , Mireia Diez, Oldrich Plchot , Pavel Matejka , Lukas Burget
๐ Abstract
- ์ต๊ทผ text-dependent๋ฟ๋ง ์๋๋ผ ์งง์ ๋ฐํ์์์ text-independent task์์๋ DNN ๊ธฐ๋ฐ End-to-End ์์คํ ์ ๊ฒฝ์๋ ฅ์ ์ ์ฆ
- ๊ทธ๋ฌ๋ ๊ธด ๋ฐํ text-independent์ ๊ฒฝ์ฐ ์์ง i-vector + PLDA ๊ธฐ๋ฐ ์์คํ ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์
- i-vector + PLDA baseline์ ๋ชจ๋ฐฉํ speaker verification system์ ์ ์ (End-to-End ๋ฐฉ์์ผ๋ก ํ๋ จ๋์ง๋ง baseline system์ ๋ฉ๋ฆฌ ๋ฒ์ด๋์ง ์๋๋ก ์ ๊ทํ)
- ์ด๋ฌํ ๋ฐฉ์์ผ๋ก overfitting์ผ๋ก ๋ฐ์ํ๋ ์ฑ๋ฅ ์ ํ๋ฅผ ํด๊ฒฐํ์์ผ๋ฉฐ, ๊ธด ๋ฐํ์ ์งง์ ๋ฐํ์์ ๋ชจ๋ i-vector + PLDA baseline system๋ณด๋ค ์ฑ๋ฅ์ด ํฅ์๋ ๊ฒ์ ํ์ธ
โ . Introduction
[ ์ด์ ์ ์๊ฐ๋ DNN ๊ธฐ๋ฐ์ speaker recognition system ํน์ง ]
- i-vector + PLDA system์ ๊ตฌ์ฑ์์(feature extraction, calculation of sufficient statistics, i-vector extraction or PLDA) ์ค ํ๋๋ฅผ NN(Neural Network)๋ก ๋์ฒดํ๊ฑฐ๋ ๊ฐ์
- MFCC feature ๋์ bottleneck feature ์ฌ์ฉ
- sufficient statistics ๊ณ์ฐ ์ GMM-UBM ๋์ NN acoustic model ์ฌ์ฉ
- PLDA๋ฅผ ๋ณด์ํ๊ฑฐ๋ ๋์ฒดํ๋ NN ์ฌ์ฉ
- Speaker ID๋ฅผ ๋ถ๋ฅํ์ฌ ํ๋ จํ NN์ ํตํด speaker embedding ์ถ์ถ - ๋ํ์ ์ธ ํน์ง : d-vector, x-vector์ ๊ฐ์ embedding
- acoustic feature๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์ speaker label๊ณผ loss๋ฅผ ๊ณ์ฐํ ๋ค, NN ๋ชจ๋ธ์ ์ผ๋ถ(hidden layer, TDNN + fully-connected DNN ์ค DNN)์ utterance-level์ feature๋ก ์ฌ์ฉ
- text-dependent, ์งง์ ๋ฐํ text-independent์์ ํจ๊ณผ์
- ๋น๊ต์ ๊ธด ๋ฐํ text-independent์์๋ i-vector + PLDA๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ์
Proposed Method : i-vector + PLDA baseline์ ๋ชจ๋ฐฉํ End-to-End speaker verification ์์คํ
1. f2s (sufficient statistics ์ถ์ถ์ ์ํ NN ๋ชจ๋)
2. s2i (i-vector ์ถ์ถ์ ์ํ NN ๋ชจ๋)
3. DPLDA (์ ์ ๊ณ์ฐ์ ์ํ Discriminative PLDA ๋ชจ๋)
-
์ธ ๊ฐ์ ๋ชจ๋์ด ๊ฐ๋ณ์ ์ผ๋ก baseline์ ๋ชจ๋ฐฉํ๊ณ , ํ๋ จ๋๋ฉฐ ์ดํ ๊ฒฐํฉํ ๋ค ์งง์ ๋ฐํ์ ๊ธด ๋ฐํ ๋ชจ๋์ ๋ํด End-to-End ๋ฐฉ์์ผ๋ก ์ถ๊ฐ ํ๋ จ์ ์งํํจ
-
์ด๋, ์ถ๊ฐ ํ๋ จ ์ ๊ฐ๋ณ์ ์ผ๋ก ํ๋ จํ์ฌ ์ป์ ํ๋ผ๋ฏธํฐ๊ฐ ๋๋ฌด ๋ง์ด ์์ ๋์ง ์๋๋ก ์ ๊ทํ๋ฅผ ์ค์ (baseline๊ณผ ๋๋ฌด ๋ฌ๋ผ์ง๋ ๊ฒ์ ๋ฐฉ์งํ๊ณ overfitting์ ์ํ์ ์ค์ด๋ ์ฅ์ ์ด ์กด์ฌ)
-
NIST SRE์์ ํ์๋ 3๊ฐ์ ๋ค๋ฅธ ๋ฐ์ดํฐ ์ ์ ๋ํด ์์คํ ์ ํ๊ฐ (๋ค์ํ ์ธ์ด์ ์์ฑ์ ํฌํจํ๊ณ , 2๋ถ ๋ฏธ๋ง์ ๊ธด ๋ฐํ์ 40์ด ๋ฏธ๋ง์ ์งง์ ๋ฐํ ๋ชจ๋์ ๋ํด ์ฑ๋ฅ์ ํ ์คํธ)
โ ก. Database and Baseline Systems
- ํ๋ จ ๋ฐ ํ ์คํธ๋ PRISM dataset ๊ธฐ๋ฐ, 3๊ฐ์ง ํ๊ฐ ์ (1) NIST SRE 2005~2010๋ ๋ฐ์ดํฐ ์๋ณธ(๊ธด) ์ ํ ๋ฐํ ์ค ์ฌ์ฑ (2) (1) ์์์ ์ฌ๋ฌ ์งง์ ๋ฐํ๋ก ์์ฑ(๋ฑ๋ก : 20~50์ด, ํ ์คํธ 30~40์ด) (3) NIST SRE 2016 ํ๊ฐ ์ธํธ (๋จ/์ฌ ๋ชจ๋, ๋จ์ผ ๋ฑ๋ก)
- Generative(PLDA) and Discriminative(DPLDA) Baseline
- ํน์ง : 60dimension-MFCC (20์ฐจ์, โ, โโ)
- ํ๋ จ ๋ฐ์ดํฐ ์ค ์ ํ ๋ฐ์ดํฐ๋ง ์ฌ์ฉ (์งง์ ๋ฐํ ์๊ฐ์ 10~60์ด ์ฌ์ด ๊ท ์ผ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ฉฐ ์ด 85,858๊ฐ ์ค ์งง์ ๋ฐํ๋ 22,766๊ฐ)
- PLDA/DPLDA : 2048๊ฐ component๋ฅผ ๊ฐ๋ UBM, 400์ฐจ์ i-vector
PLDA
- i-vector์ ํ๊ท (๋ชจ๋ ํ๋ จ ๋ฐ์ดํฐ์ i-vector ํ๊ท ) ๊ณผ ๊ธธ์ด๋ฅผ ์ ๊ทํ
- ์ถ๊ฐ์ ์ธ domain ์ ์์ด๋ score normalization์ ์ํํ์ง ์์
- ๊ฐ ํ์๊ฐ 6๊ฐ์ ๋ฐํ๋ฅผ ๊ฐ๋๋ก ํ๋ จ ๋ฐ์ดํฐ๋ฅผ 68,994๊ฐ๋ก ์ค์ฌ์ ์ฌ์ฉ
DPLDA
- LBFGS optimizer๋ก binary cross-entropy๋ฅผ ์ต์ ํ (๋ชจ๋ธ ํ๋ จ ์, ์ด๊ธฐํ๋ก PLDA๋ฅผ ์ฌ์ฉ)
- i-vector์ ํ๊ท ๊ณผ ๊ธธ์ด๋ฅผ ์ ๊ทํ
- LDA๋ฅผ ์ํํ์ฌ i-vector์ ์ฐจ์์ 250์ฐจ์์ผ๋ก ์ถ์
โ ข. Proposed End-to-End DNN Architecture
1. Feature to Sufficient statistics : f2s [ํน์ง ๋ฒกํฐ โ ์ถฉ๋ถ ํต๊ณ๋]
- ์
๋ ฅ ๋ฐํ์ ๊ฐ frame์ ๋ํด GMM responsibilities (posteriors, ์ฌํ ํ๋ฅ )์ ์์ธก
- 60์ฐจ์์ MFCC๋ฅผ ์ ์ฒ๋ฆฌ(preprocessing) ํ์ฌ input์ผ๋ก ์ฌ์ฉ
- ํ์ฌ frame์ ๊ธฐ์ค์ผ๋ก ยฑ15 frame์ ๊ณ ๋ ค (์ด 31๊ฐ frame) โ 6๊ฐ ์ฌ์ฉ
- 6 * 60 โ 360์ฐจ์
- Hidden layer : 4๊ฐ (activation function : sigmoid, node : 1500๊ฐ)
- Output : 2048๊ฐ (GMM-UBM baseline์ component ์) - softmax
- Optimizer : SGD(stochastic gradient descent)
- Loss : categorical cross-entropy (label : GMM-UBM์ ์ฌํ ํ๋ฅ )
- frame์ ์ถฉ๋ถ ํต๊ณ๋์ผ๋ก pooling (์ ์ฒด frame์ ๊ฑธ์ณ softmax layer์์ ๋์จ ์ฌํ ํ๋ฅ , ์ ์ฒ๋ฆฌํ์ง ์์ MFCC)
2. Sufficient statistics to i-vectors : s2i [์ถฉ๋ถ ํต๊ณ๋ โ i-vector]
- f2s์์ ๋์จ ์ถฉ๋ถ ํต๊ณ๋์ input์ผ๋ก ์ฌ์ฉ (2048x60์ฐจ์)
- MAP ์ ์๋ supervector๋ก ๋ณํ (112880 ์ฐจ์) - ์ฐจ์ ์๋ฅผ ์ค์ด๊ธฐ ์ํด PCA๋ฅผ ์ฌ์ฉํ์ฌ 4000์ฐจ์์ผ๋ก ์ถ์
- Hidden layer : 3๊ฐ (activation function : tanh, 1-2 layer node : 600๊ฐ, 3 layer node : 250๊ฐ) - ๋ง์ง๋ง layer์์ i-vector ๊ธธ์ด ์ ๊ทํ
- NN์ output๊ณผ LDA๋ฅผ ์ฌ์ฉํ์ฌ 250์ฐจ์์ผ๋ก ์ค์ด๊ณ ๊ธธ์ด๋ฅผ ์ ๊ทํํ reference i-vector์ average cosine distance
- Optimizer : SGD, L1-regularization
3. i-vector to scores (DPLDA)
- ๋ i-vector(ฯ ํ๊ธฐ)๊ฐ ์ฃผ์ด์ก์ ๋, PLDA ๋ชจ๋ธ์ Log-Likelihood Ratio(LLR)
- DPLDA๋ ์์ ์์์ ํ๋ผ๋ฏธํฐ (ฮ, ฮ, c, k)๋ฅผ ํ๋ จํ์ฌ ๊ตฌํ๋ ๊ฒ
- ๋ i-vector๊ฐ ๊ฐ์ ํ์ ์ธ์ง ํ๋จ (Binary cross-entropy ํน์ SVM ์ต์ ํ๋ฅผ ํตํด ์ป์ด์ง)
- ๋ชจ๋ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ ๊ณ์ฐ (์ ์ฒด batch๋ฅผ ์ฌ์ฉ) ํ๋, End-to-End ์์คํ ํ๋ จ ์์๋ ๋๋ฌด ๋ง์ ๋ฉ๋ชจ๋ฆฌ์ ์๊ฐ์ด ํ์ํ์ฌ ํ๋ จ ๋ฐ์ดํฐ ์ค ๋ฌด์์๋ก subset์ ์ ํํ Minibatch ๊ธฐ๋ฐ
< Minibatch ์ ํ rule >
- ๊ฐ ํ์์ ๋ํด ๋๋คํ๊ฒ ๋ฐํ๋ฅผ ์์ผ๋ก ๋ง๋ ๋ค
- ๋ง์ฝ ์ด๋ค ํ์์ ๋ฐํ๊ฐ ํ๋๋ผ๋ฉด ๋์ผํ ๋ฐํ๋ฅผ ์์ผ๋ก ๋ง๋ค์ด์ ์ฌ์ฉ
- ๋ง์ฝ ์ด๋ค ํ์์ ๋ฐํ๊ฐ ๊ท ๋ฑํ ๊ฐ์๊ฐ ์๋๋ผ๋ฉด ๋ฐํ์ ์ ์ค ํ๋๋ ์ธ ๊ฐ์ ๋ฐํ๋ฅผ ๊ฐ์ง
- ๊ฐ Minibatch์ ๋ํด ์์๋ก N ๊ฐ์ ๋ฐํ๋ฅผ ์ ํํ์ฌ ์ ํ๋ ๋ฐํ๋ก ํ์ฑ๋ ์ ์๋ ๋ชจ๋ ์คํ์ ์ฌ์ฉ(๋ง์ง๋ง ์์ ์ ํํ ๊ฒฝ์ฐ ๋ค์ 1๋ก ๋์๊ฐ)
4. End-to-End System
-
์์ ๊ฐ๋ณ์ ์ผ๋ก ํ๋ จํ ๋ค ๊ฒฐํฉํ์ฌ End-to-End๋ก ์ถ๊ฐ ํ๋ จ
-
๋ฉ๋ชจ๋ฆฌ๊ฐ ๊ต์ฅํ ๋ง์ด ํ์ํ๋ ๋ฌธ์ ์ ์ด ์กด์ฌ
- PCA : f2s์ s2i๋ฅผ ์ฐ๊ฒฐํ๊ธฐ ์ํด network์ ์ผ๋ถ๊ฐ ๋์ด์ผ ํ๋๋ฐ, 122800x4000๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์
-
์ ์ฒด End-to-End ํ๋ จ ์ ์, s2i NN๊ณผ DPLDA ๋ชจ๋ธ๋ง ๊ณต๋์ผ๋ก ํ๋ จ
-
s2i์ ๊ฐ๋ณ ํ๋ จ ์, f2s๊ฐ ์ ๋ฐ์ดํธ๋์ง ์๋ ์ด์ ์ ๋ ฅ์ด ๊ณ ์ ์ด๋ฏ๋ก PCA๋ฅผ ๊ฑฐ์น ํน์ง์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ ์ ์์
-
- f2s : DPLDA ๋ชจ๋์ ํ๋ จํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ง ๋ค์ํ ๋ฐํ์ ๋ชจ๋ frame์ ํ ๋ฒ์ ์ฒ๋ฆฌํด์ผ ํจ
- ์ค๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ฉ๋ชจ๋ฆฌ์ ๋ ์ ์งํ๋๋ก ํ๋ จ๊ณผ์ ์ ์์
- ํ๋์ ๋ฐํ์ ๋ํด ์ถฉ๋ถ ํต๊ณ๋์ ๊ณ์ฐํ๊ณ block A์ ๋ชจ๋ layer์ ์ถ๋ ฅ์ ์์ฐ
- block A์ ํ๋ผ๋ฏธํฐ๋ ์ ์ฒด frame(nf) x (1500+1500+1500+1500+2048) ๊ฐ ๋ณ์๊ฐ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅ
- ์ถฉ๋ถ ํต๊ณ๋ F, N์ผ๋ก pooling ํ ๋ค ํ๋ผ๋ฏธํฐ : 2048x60
- Optimizer : ADAM
- Training rate๋ฅผ epoch์์ $C^{prm}_{min}$์ด ๊ฐ์ ๋์ง ์์ ๋ ๋ง๋ค ์ ๋ฐ์ผ๋ก ์ค์
- ํ๋ จ ๋ฐ์ดํฐ๋ DPLDA์ ๊ฐ์
โ ฃ. Results and Discussion
- Baseline์ ์ผ๋ถ๋ง NN์ผ๋ก ๋์ฒด๋ ์์คํ , End-to-End ๊ฒฐ๊ณผ ํ
- 3๊ฐ์ ๋ชจ๋์ด ๊ณต๋์ผ๋ก ํ๋ จ๋ ๋์ ์ฑ๋ฅ(8ํ)๊ณผ 2๊ฐ์ ๋ชจ๋์ด ๊ณต๋์ผ๋ก ํ๋ จ๋์์ ๋ ์ฑ๋ฅ(7ํ)์ด ํฐ ์ฐจ์ด๊ฐ ์์์
< 3๊ฐ์ง ๊ฐ๋ฅ์ฑ >
- Minibatch๊ฐ ์์ ์ ์ธ ํ๋ จ์ ํ๊ธฐ์ ๋๋ฌด ์์ ์ ์๋ค. (3๊ฐ์ ๋ชจ๋์ ๊ณต๋์ผ๋ก ํ๋ จ ์, N=75 ์ต๋)
- ๋ชจ๋ธ์ด local minimum์ผ๋ก ๊ณ ์ ๋ ์ ์๋ค. (f2s์ ์ถ๋ ฅ์ ๋ฐ๋ผ ํ์ ๋ชจ๋ธ๋ค๋ ํ๋ จ์ด ๋๊ธฐ ๋๋ฌธ)
- f2s์ ์ค๊ณ๊ฐ ์๋นํ ์ ์ฝ์ ์ด๋ค. (์ฌํ ํ๋ฅ ๋ง ์ถ์ ํ ๋ฟ ํต๊ณ ๊ณ์ฐ์ ์ฌ์ฉ๋๋ ํน์ง์ ์์ ํ ์ ์๊ธฐ ๋๋ฌธ)
โ ค. Conclusion
- ๋ค์ํ ์ธ์ด์ ๊ธด ๋ฐํ, ์งง์ ๋ฐํ๋ฅผ ๋ชจ๋ ํฌํจํ๋ ์ธ ๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ๋ํ i-vector + PLDA baseline์ ๋ฅ๊ฐํ๋ End-to-End ํ์ ๊ฒ์ฆ ์์คํ ๊ฐ๋ฐ
- i-vector + PLDA ์์คํ ๊ณผ ๋น์ทํ๊ฒ ๋์ํ๋๋ก ์ ํํจ์ผ๋ก์จ End-to-End ์์คํ ์ ์ฑ๋ฅ์ ์ ํ์ํค๋ overfitting์ ์ํ
- ์์คํ
3๊ฐ์ ์๋ธ ๋ชจ๋ ์ค 3๊ฐ์ ๋ชจ๋์ ๊ณต๋ ํ๋ จ์ ์ฑ๋ฅ์ด ์ข์์ง๋ง, ๋ชจ๋ ๊ณต๋ ํ๋ จํ์์ ๋ ํจ๊ณผ์ ์ด์ง ์์์
- ์ธ๊ฐ์ง ๋ชจ๋์ ๊ณต๋์ผ๋ก ํ๋ จํ์์ ๋ ๋ ๋์ ์ฑ๋ฅ์ด ๋์ค๋๋ก ๊ฐ๋ฐํ ๊ฒ
- ๋จ์ผ ๋ฑ๋ก์ ์ฌ์ฉํ๋๋ก ์ค๊ณ, ์ฌ๋ฌ ๋ฑ๋ก์ ์ฒ๋ฆฌํ๋๋ก ํ์ฅํ ๊ฒ