- ๐ Abstract
- โ . Introduction
- โ ก. Domain Adaption with GANs
- โ ข. Generative Adversarial Speaker Embedding Networks
- โ ฃ. Experiments and Results
- โ ค. Conclusion
Gautam Bhattacharya, Joao Monteiro, Jahangir Alam, Patrick Kenny
๐ Abstract
-
GANs๋ฅผ ์ด์ฉํ domain invariant speaker embedding์ ์ํ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์ ์ ์ - source data์ target data๋ก generator๊ฐ embedding์ ์์ฑ - ์์ฑ๋ embedding์ด source์ธ์ง target์ธ์ง discriminator๊ฐ ์๋ณ
-
์ด๋ฌํ framework๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ๊ฐ์ง GAN ๋ณํ์ ํ๋ จํ๊ณ ํ์ ๊ฒ์ฆ์ ์ ์ฉ
-
Angular Margin loss๋ฅผ ์ฌ์ฉํ์ฌ End-to-End model ์ต์ ํ
โ . Introduction
- ํ์ embedding : ๊ฐ์ธ์ identity์ ๊ด๋ จ๋ ์ ๋ณด๋ฅผ ํฌํจํ๋ ์ ์ฐจ์ ๋ฒกํฐ ํํ
โ Neural Network๊ธฐ๋ฐ ํ์ embedding
- ์์ฑ ์ธ์, ํฉ์ฑ ๋ฐ source ๋ถ๋ฆฌ, ํ์ ๊ฒ์ฆ ์ ์ฉ ๋ฑ ๋ค์ํ๊ฒ ์ ์ฉ
โ End-to-End system speaker verification
- ๋ ๊ฐ์ ์์ฑ ํ์ผ์์ embedding์ ์ถ์ถํ ๋ค embedding ์ฌ์ด์ cosine distance ๋ฑ์ ์ฌ์ฉํ์ฌ score ๊ณ์ฐ
- ๋ชจ๋ธ์ด ๊ฒฌ๊ณ ํ๊ธฐ ์ํด์ ์ผ๋ฐ์ ์ผ๋ก ๊ฑฐ๋ฆฌ ์ธก์ ๊ธฐ์ค์ ์ง์ ์ต์ ํํด์ผ ํจ (End-to-End)
- ๊ทธ๋ฌ๋, ํ์ ๊ฒ์ฆ์์ ํ๋ จํ๊ธฐ ์ด๋ ค์ด ๊ฒ์ผ๋ก ํ๋จ
โ I-vector system๊ณผ ๋์ผํ๊ฒ ์ฌ์ฉ
- ์ฐจ์ ๊ฐ์์๋ LDA(Linear Discriminant Analysis) ์ฌ์ฉ
- ๊ฒ์ฆ ์ PLDA(Probabilistic Linear Discriminant Analysis) ์ฌ์ฉ
โ NIST SRE 2016 dataset ์ฌ์ฉ
- ํ๋ จ ๋ฐ์ดํฐ(์์ด)์ ํ ์คํธ ๋ฐ์ดํฐ(๊ด๋ฅ์ด ๋ฐ ํ๊ฐ๋ก๊ทธ์ด) ์ฌ์ด์ mismatch๋ฅผ ๋์ (Domain or Covariate shift)
- domain ๋ณด์์ ์ํ ์ ์ ์์ label์ด ์๋ target ๋ฐ์ดํฐ ์ ๊ณต
โ ๋ณธ ๋ ผ๋ฌธ ์ ์์ ์ต๊ทผ ์ฐ๊ตฌ์์, End-to-End์ cosine score๋ฅผ ์ฌ์ฉํ๋ domain adversarial ํ๋ จ์ ์ด์ฉํ domain ๋ถ๋ณ ํ์ embedding ํ๋ จ ์ ์ (Domain Adversarial Neural Speaker Embeddings, DANSE)
- Gradient reversal์ ์ฌ์ฉํ์ฌ domain ๋ถ๋ณ์ฑ ๋ฐ adversarial grame์ ์ต์ํ ๋ชฉํ๋ฅผ ๋ฌ์ฑ
โ ๋ณธ ๋ ผ๋ฌธ์์๋ GANs๋ฅผ ์ฌ์ฉํ์ฌ unsupervised domain adaptation/invariant๋ก ์ด์ ์ฐ๊ตฌ ํ์ฅ
< ์ฅ์ >
- gradient reversal๋ณด๋ค ๋ถ๋ณ์ฑ mapping์ ํ์ตํ๋๋ฐ ๋ ๋์ gradients ์ ๊ณต
- GAN framework๋ gradient reversal๋ณด๋ค ๋ ์ผ๋ฐ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅ
โ ๋ค์ํ GAN ๋ณํ
- ํน์ง ๊ณต๊ฐ์ ๋ค๋ฅธ ๋ณํ์ ์์ฑ
- ์ด๋ฌํ ํน์ง ๊ณต๊ฐ์ ๊ฒฐํฉ์ด ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ด
- Auxiliary Classifier GAN(AuxGAN)์ ์์ ์ ์ ์
- GAN ๋ชจ๋ธ์ด DNASE ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ฅ๊ฐ
- ๋ค์ํ GAN ๋ชจ๋ธ์ score๋ฅผ ํ๊ท ํจ์ผ๋ก์จ x-vector์ ์ฑ๋ฅ๋ณด๋ค ํฅ์๋จ
โ ก. Domain Adaption with GANs
โ GAN
- Generator : target data๋ฅผ source data์ domain์ผ๋ก mapping
- Discriminator : source data์ target data์ domain์ ๊ตฌ๋ณ
- ์ฌ๋ฌ GAN ๋ณํ์ ํด๋นํ๋ ๋ค๋ฅธ discriminator์ ๊ตฌ์ฑ์ด ํน์ง ๊ณต๊ฐ์ ๋ค๋ฅธ ๋ณํ์ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌ
- vanilla GAN์์ discriminator๋ binary cross-entropy(BCE) loss๋ฅผ ์ต์ ํํ์ฌ ํ๋ จ
โ GAN game (๊ธฐ์กด GAN loss)
E, D : Embedding(generator), Discriminator ํจ์
โ Gradients reversal model
โ ข. Generative Adversarial Speaker Embedding Networks
โ ๋ณธ ๋ ผ๋ฌธ์ ๋ชฉํ
- ํ์ embedding model์ด ํน์ง ์ถ์ถ๊ธฐ(generator)์ domain ์๋ณ์(discriminator) ์ฌ์ด์ GAN game์ ํตํด domain ๋ถ๋ณ์ ํน์ง์ ํ์ต
- GAN์ด domain ๋ถ๋ณ์ฑ์ ๊ฐ์ผ๋ฉฐ, embedding์ด ํ์๋ฅผ ๊ตฌ๋ถํ ์ ์์ด์ผ ํจ
โ Loss function (AM-softmax/GAN loss)
- class๊ฐ cosine similarity๋ฅผ ์ง์ ์ต์ ํ
C, E : Classifier, Embedding(generator) ํจ์
s, m : scale factor, margin
- BCE loss๋ฅผ ์ฌ์ฉํ์ฌ domain discriminator๋ฅผ ํ๋ จ
- ๋ง์ง๋ง์ผ๋ก, ์๋์ loss๋ฅผ ์ฌ์ฉํ์ฌ discriminator๋ฅผ ์์ด๊ธฐ ์ํด generator(embedding) ํ๋ จ
- embedding ํจ์๋ task loss์ ํจ๊ป ๊ทธ ๋ค์ adversarial loss ์ด 2๋ฒ ํ์ต
3.1. Auxiliary Classifier GAN
โ AuxGAN(ACGAN)
-
์กฐ๊ฑด(conditional) ์ด๋ฏธ์ง ์์ฑ์ ์ํด ๋ณด์กฐ(Auxiliary) loss๋ฅผ ์ฌ์ฉํ์ฌ GAN์ ๋ณด์
-
side ์ ๋ณด(class label ๋ฑ)์ ์์ธกํ๋ ๊ฒ์ด ๋ชฉํ
-
D (discriminator) : 2๊ฐ์ classifier - ๋ฐ์ดํฐ๊ฐ ์ง์ง(real) ์ธ์ง ๊ฐ์ง(fake) ์ธ์ง ํ๋ณ - ํด๋น ๋ฐ์ดํฐ์ ๋ฒ์ฃผ(category)๋ฅผ ๋ถ๋ฅ
-
G (generator) : label์ ๋ณด์ z(noise)๋ก ๊ฐ์ง ๋ฐ์ดํฐ ์์ฑ
โ ์๋ ACGAN์ object fuction
- source์ log-likelihood $L_s$, class์ log-likelihood $L_c$
$L_s$ : ๊ธฐ์กด GAN์ ๋ชฉ์ ํจ์์ ๊ฐ์ (real/fake ํ๋ณ)
$L_c$ : ํด๋น ๋ฐ์ดํฐ์ class๋ฅผ ํ๋จ (conditional-GAN, CGAN๊ณผ ์ ์ฌ)
- D(discriminator)๋ $L_s + L_c$๋ฅผ ์ต๋ํ
- G(generator)๋ $L_c - L_s$๋ฅผ ์ต๋ํ
โ ๋ ผ๋ฌธ์์ ์ฌ์ฉํ ACGAN์ object function
3.2. GAN Variants
๐น ๋ค์ํ GAN์ ๋ณํ ์ฌ์ฉ
- ํ์ค GAN
- Least-Squares GAN
- Relativistic GAN
๐น ๊ฐ ๋ณํ์ด ํน์ง ๊ณต๊ฐ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋ณํ
- ๋ชจ๋ ๋ชจ๋ธ์ ๊ฑฐ์ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์
๐น ๋ชจ๋ GAN ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฒฐํฉ
- ํ๊ท ์ ์(cosine distance score)๋ฅผ ๊ฒฐํฉํ ๊ฒ์ด ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์
โ ฃ. Experiments and Results
โ Training data(source)
- ์ ์ํ DANSE ๋ชจ๋ธ๊ณผ x vector, i vector ์ baseline ์ ํ๋ จํ๊ธฐ ์ํด NIST SRE 2004 2010 ๋ฐ Switchboard Cellular audio ์ฌ์ฉ
- ์ก์ ๋ฐ ์ํฅ์ผ๋ก ๋ฐ์ดํฐ ์ฆ๊ฐ (128K์ noisy data์ถ๊ฐํ์ฌ, 220K๊ฐ ์ฌ์ฉ)
- Adversarial ๋ชจ๋ธ์ ํ๋ จ์ํค๊ธฐ ์ํด , 5 ๊ฐ ์ดํ์ ๋ฐํ์ธ ํ์๋ ๊ฑธ๋ฌ๋ด๊ณ ์ฝ 6000 ๋ช ์ ํ์๋ฅผ ์ฌ์ฉ
- x-vector, i-vector ๋ Kaldi toolkit ์ฌ์ฉ
- ๋๋ถ๋ถ์ด ์์ด ์ฌ์ฉ์ ์ด๋ฉฐ , ์ ํ๋ฅผ ํตํด ๋ น์
โ Model
- Embedding(generator) ํจ์๋ 3X 2 3 input ์ Convolutional layer, 4 ๊ฐ์ residual block, attentive statistics layer, 2 ๊ฐ์ fully connected layer (512, 512) ๋ก ๊ตฌ์ฑ
- Classifier๋ fully connected layer (64) ์ AM softmax output layer ๋ก ๊ตฌ์ฑ (fully connected layer ๊ฐ ์ต์ข domain ๋ถํธ ํ์ embedding)
- Discriminator๋ 2 ๊ฐ์ fully connected layer (256, 256) ์ binary cross entropy output layer ๋ก ๊ตฌ์ฑ
- ELU(Exponential Linear Units)๋ฅผ ๋ชจ๋ ๊ณ์ธต์ ์ฌ์ฉ
- Batch normalization์ attentive statistics layer ๋ฅผ ์ฌ์ฉํ ๊ณ์ธต์ ์ฌ์ฉ
- AMsoftmax loss ์ s ์ m parameter ๋ ๊ฐ๊ฐ 30 ๊ณผ 0.6 ์ผ๋ก ์ค์
โ Optimization
- cross entropy ํ๋ จ์ ์ฌ์ฉํ์ฌ embedding ํน์ง์ ์ฌ์ ํ๋ จ
- ์ธ ๊ฐ์ง ๋คํธ์ํฌ (embedding ํน์ง , Classifier, ๋ฅผ ์๋ก ๋ค๋ฅธ optimizer ์ฌ์ฉ
- Discriminator๋ lr = 0.003 ์ RMSprop , Classifier ์ embedding ์lr 0.001 ์ SGD ์ฌ์ฉ
โ Data sampling
- ํ๋ จ ์ค ํ๋ จ set ์ ๊ฐ ๋ น์์์ ๋ฌด์์๋ก audio chunk sampling
- ๊ฐ ์์ฑ์ 10 ๋ฒ sampling (epoch)
- Source data์ mini batch ์ ๋ํด GAN ํ๋ จ์ ์ํ label ์ด ์๋ adaption data ๋ ๋์ผํ๊ฒ ๋ฌด์์๋ก mini batch ๋ฅผ sampling
โ Speaker Verification
- Test์ embedding ์ถ์ถ์ ํ์ํ์ง ์์ domain discriminator ๋ฅผ ์์ฐ
- 64์ฐจ์์ ๋ง์ง๋ง hidden layer ๊ฐ ์ต์ข ํ์ embedding
- Verification์คํ์ cosine distance ๋ฅผ ์ฌ์ฉํ์ฌ score ๊ณ์ฐ
- ์ฑ๋ฅ์ ์งํ๋ EER ์ฌ์ฉ
โ Model block
โ ์ ์ํ adversarial ํ์ embedding๊ณผ baseline system ์ฑ๋ฅ ๋น๊ต
- Baseline์์คํ ์ค์์๋ DNN ๊ธฐ๋ฐ์ x vector ์์คํ ์ด LDA ์ฐจ์ ๊ฐ์ ์ถ๊ฐํ๋ ๊ฒ ๋ง์ผ๋ก๋ i-vector ์ ์ฑ๋ฅ๋ณด๋ค ํฅ์
- ๋ชจ๋ GAN ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ด DANSE ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์
- AuxGAN(ACGAN), LSGAN, RelGAN embedding ์ score ๋ฅผ ํ๊ท ํ ๊ฒ์ด ๊ฐ์ฅ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํจ
โ ค. Conclusion
- GANs๋ฅผ ์ด์ฉํ domain ๋ถ๋ณ ํ์ embedding ํ์ต์ ์ํ ์๋ก์ด framework ์ ์
- ์ฌ๋ฌ ๊ฐ์ง GAN ์ ๋ณํ์ ํ์ตํ์ฌ score ๋ฅผ ๊ฒฐํฉํจ์ผ๋ก์จ ํฌ๊ฒ ํฅ์๋ ์ฑ๋ฅ์ ์ป์
- End-to-End model ์ ์ต์ ํ๋์ด ์์ผ๋ฉฐ ๊ฐ๋จํ cosine distance ๋ฅผ ์ฌ์ฉํ์ฌ score ๋ฅผ ๊ณ์ฐ
- ํฅํ ํน์ง ๊ณต๊ฐ๊ณผ ๋ฐ์ดํฐ ๊ณต๊ฐ GAN ์ ๊ฒฐํฉ ๋ฐ GAN ๊ธฐ๋ฐ ํน์ง ๊ณต๊ฐ ์ฆ๊ฐ ๋ฐฉ๋ฒ๊ณผ ๊ฐ์ด ๋ค๋ฅธ adversarial ์ ๋ต์ ๊ณ ๋ คํ ๊ฒ