- ๐ Abstract
- โ . Introduction ๐ฑ
- โ ก. Related Work ๐ฟ
- โ ข. Proposed Approach ๐ณ
- โ ฃ. Experiments and Results ๐บ
- โ ค. Conclusion ๐
Kai Liu, Huan Zhou
๐ Abstract
๋ฌธ์ ์ : Text-independent speaker verification์ ์งง์ ๋ฐํ ์กฐ๊ฑด์์ ์ฌ๊ฐํ ์ฑ๋ฅ ์ ํ๋ฅผ ๊ฒช์ ํด๊ฒฐ๋ฐฉ๋ฒ: short embedding์ enhanced embedding์ ์ง์ ๋งคํํ์ฌ ํ๋ณ๋ ฅ(discriminability)์ ๋์ด๋๋ก adversarialํ๊ฒ ํ๋ จ๋ embedding model ์ ์
- ํนํ, loss criteria(๊ธฐ์ค)์ด ๋ง์ Wasserstein GAN ์ฌ์ฉ
- ์ฌ๋ฌ loss function์ ๋๋ ทํ๊ฒ ์ต์ ํํ๋ ค๋ ๋ชฉํ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ ๊ทธ ์ค ์ผ๋ถ๋ ํ์ ๊ฒ์ฆ ์ฐ๊ตฌ์ ๋์์ด ๋์ง ์์
- ๋๋ถ๋ถ์ ์ด์ ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ ์ด ์ฐ๊ตฌ์ ์ฃผ์ ๋ชฉํ ๋ ์๋ง์ ablation ์ฐ๊ตฌ ๋ก ๋ถํฐ loss criteria์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆ ใโ ์์์ ๋งํ๋ SV์์ ๋์์ด ๋์ง ์๋ loss๋ค์ ์ ๊ฑฐํ๋ฉด์ loss์ ๋ฐ๋ฅธ ์ํฅ์ ์กฐ์ฌ
- VoxCeleb dataset์ ๋ํ ์คํ์์ ์ผ๋ถ criteria๋ SV ์ฑ๋ฅ์ ์ด๋ก์ด ๋ฐ๋ฉด ์ผ๋ถ criteria๋ ์ฌ์ํ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค
- ๋ง์ง๋ง์ผ๋ก, finetuning์์ด ์ฌ์ฉํ Wasserstein GAN์ baseline์ ๋์ด ์๋ฏธ ์๋ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ฉฐ, EER์์๋ 4%์ ์๋์ ๊ฐ์ ๊ณผ 2์ด๊ฐ์ ์งง์ ๋ฐํ์ challengeํ ์๋๋ฆฌ์ค์์๋ 7%์ minDCF๋ฅผ ๋ฌ์ฑ
โ . Introduction ๐ฑ
- TI-SV: ๋ฑ๋ก๋ ํ์์ ํ ์คํธ ์์ฑ(๋ด์ฉ ์ ์ฝ X)์ ํตํด ํ์์ ์ ์์ ๊ฒ์ฆ
- ์ค์ํ ๋จ๊ณ: ์์์ ์ง์์๊ฐ์ ๊ฐ๋ ์์ฑ์ ๊ณ ์ ์ฐจ์์ speaker representation์ผ๋ก ๋งคํํ๋ ๊ฒ (acoustic feature โ speaker feature)
- Baseline System: GhostVLAD-aggregated embedding(G-vector); ๊ธด ๋ฐํ, ์งง์ ๋ฐํ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์ก์ ํ๊ฒฝ์์ x-vector๋ณด๋ค ์ด์ ์ด ์์ด SV ์์คํ ์ ๋ ์ ๋ฆฌ
- NIST-SRE 2010 test set์์ full-duration์ด 5์ด๋ก ๋จ์ถ๋์์ ๋ i-vector/PLDA system ์ฑ๋ฅ์ด 2.48%์์ 24.78% ๋ก ๊ฐ์, ์ต๊ทผ ๋ฅ๋ฌ๋ ๊ธฐ์ ์ฌ์ฉํ์ฌ ์ด๋ฅผ ๋ณด์ํ๋ ์ฐ๊ตฌ๊ฐ ๋ง์ด ์งํ ์ค
- ๋ณธ ๋ ผ๋ฌธ์์๋ Wasserstein GAN์ adversarial ํ์ต์ ์ด์ฉํ์ฌ ํฅ์๋ ์ฐจ๋ณ์ฑ์ ๊ฐ์ง ์๋ก์ด embedding์ ์ ์ (๊ฐ์ ํ์์ ์งง์ ๋ฐํ์ ๊ธด ๋ฐํ์์ ์ถ์ถํ G-vector๋ฅผ ํ์ฉํ์ฌ)
โ ก. Related Work ๐ฟ
โ GAN ์ด๋: ์์ฑ์(Generator)์ ์๋ณ์(Discriminator)๊ฐ ์ธ์ฐ๋ฉด์ ํ์ตํ๋ ๋ชจ๋ธ
- Generator : Discriminator๋ฅผ ์์ด๋๋ก ํ์ต
- Discriminator : real sample ๐ฆ์ noise ๐๋ก๋ถํฐ ์์ฑ๋ fake sample ๐์ ์ฐจ์ด๋ฅผ ํ์ต
</br>
โ Adversarial Learning
- minmax loss function์ด ๊ต๋๋ก ์ต์ ํ ๊ณผ์ ์ ์ํ (๋ ๋ชจ๋ธ์ loss๊ฐ ๊ฐ์์ง๋ ์ํ๊ฐ ๋ ๋๊น์ง)
- Gradients diminishing, exploding ๋ฌธ์ ๋ก ํ๋ จํ๊ธฐ ์ด๋ ค์ด๋ฐ ์ด๋ฅผ Wasserstein GAN(WGAN)์์ ์ํ์ ์ผ๋ก ๋ค๋ฃจ์์
- Discriminator๋ ์ข์ $๐_๐ค$๋ฅผ ์ฐพ๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ์๋ก์ด loss function์ Wasserstein ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋๋ก ๊ตฌ์ฑ
โ ข. Proposed Approach ๐ณ
- ์ ์ํ๋ ์ ๊ธ ๋ฐฉ์์ ์๋์ ๊ตฌ์กฐ์ ๊ฐ์
$๐ฅ, ๐ฆ$ : ๊ฐ์ speaker์ ๊ฐ๊ฐ ์งง๊ณ ๊ธด ๋ฐํ์ ํด๋นํ๋ D์ฐจ์์ G-vector
$๐ง$ : speaker ID label
$๐บ_๐$ : embedding generator
$๐บ_๐$ : speaker label predictor
$๐บ_๐$ : Distance calculator
$๐ท_๐ค$ : Wasserstein discriminator
- ์ ์๋ ๋ฐฉ๋ฒ์ ํต์ฌ์ ์ธ task๋ discriminability์ด ํฅ์๋ embedding์ ํ์ตํ๋ ๊ฒ
โ loss functions
- WGAN loss
-
Conditional WGAN loss: GAN์ Wasserstein ๊ฑฐ๋ฆฌ๋ฅผ ์ด์ฉํ ์๋ก์ด loss function ์ ์
- $๐ฅ$ (์งง์ ๋ฐํ embedding)์ด ์ฃผ์ด์ก์ ๋, $๐ท_๐ค$์ $๐บ_๐$ ๋ถํฌ์ ์ฐจ์ด ($๐ฅ$์ real sample, fake sample์ ์ฐ๊ฒฐํ์ฌ ํ์ต)
โก๏ธ WGAGN loss / Conditional WGAN loss ์ค ํ๋๋ง ์ฌ์ฉํ๊ณ , ๊ทธ ์ฐจ์ด๋ฅผ ์ฑ๋ฅ ํ๊ฐ ์ค์
</br>
-
FID loss: Frรฉchet Inception Distance
- Real sample๊ณผ fake sample์ ๋ฒกํฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ ๊ณ์ฐ์ ์ํ metric
-
class loss: Multi-class cross-entropy loss
- Speaker์ ๋ฐ๋ฅธ embedding ์ฐจ์ด๋ฅผ ์ํ loss ์ ์
$๐$ : Batch size
$๐$ : Class ์
$๐_๐$ : i๋ฒ์งธ ์์ฑ๋ embedding
$๐ง_๐$ : ํด๋น label index
$๐โโ^(๐ทโ๐), ๐โโ^๐$ : weight matrix, bias
-
Triplet loss
- Class ๋ถ๋ฅ ์ error์ ๋ํ ํจ๋ํฐ
$\Gamma$ : training set์์ ๊ฐ๋ฅํ ๋ชจ๋ embedding์ triplet $\gamma=(๐_๐, ๐_๐, ๐_๐)$์ set
$๐_๐$ : anchor input
$๐_๐$ : positive input
$๐_๐$ : negative input
$\Psiโโ^+$ : positive์ negative ์ฌ์ด์ safety margin
-
Center loss
- Class ๋ด variation ์ต์ํ
$๐_(๐ฆ_๐)$ : deep feature์ ๐ฆ_๐๋ฒ์งธ class center
$๐ฅ_๐$ : $๐ฆ_๐$๋ฒ์งธ class์ ์ํ๋ ๐๋ฒ์งธ deep feature
$๐$ : mini-batch size
-
Cosine distance loss
- Generator model๋ก ์ป์ ํฅ์๋ embedding๊ณผ real sample(target) ์ฌ์ด์ ์ ์ฌ๋๋ฅผ ๊ณ ๋ ค
$\bar ๐$: normalized embedding
:star: โ Generator์ Discriminator์ ์ต์ข Loss
- $G_f$
- $D_w$
-
WGAN ํ๋ จ ํ generative model $๐บ_๐$ ์ ์ง
- Test ๋จ๊ณ์์ ์งง์ ๋ฐํ embedding $๐ฅ$๋ฅผ $๐บ_๐$์ ๋ฃ์ด enhanced embedding($g$)๋ฅผ ์ป์
โ ฃ. Experiments and Results ๐บ
โ Experimental setup
- Train: VoxCeleb2์ subset (1,057๋ช ํ์์ 164,716๊ฐ ๋ฐํ)
- Test: VoxCeleb1์ subset (40๋ช ํ์์ 13,265๊ฐ ๋ฐํ)
- ์งง์ ๋ฐํ๋ฅผ ์ํด randomํ๊ฒ 2์ด ์๋ผ์ ์ฌ์ฉ
โ Baseline system
- G-vector (VGG-Restnet34s)
โ Hyper Parameter
- Learning rate 0.0001
- Adam Optimizer
- Weight clipping -0.01 ~ 0.01 threshold ($๐ท_๐ค$)
- Batch size 128
โ ๋ค์ํ loss function์ ์ํฅ ์ฐ๊ตฌ
- ์ถ๊ฐ์ ์ธ training function(softmax, cosine, triplet)์ด ๋ชจ๋ ํ๋ จ์ ๊ธ์ ์ ์ธ ์ํฅ์ ๋ฏธ์นจ
- SV์์คํ ์ FID, conditional WGAN์ ๋งค์ฐ ์ ์ฉ, ์ถ๊ฐ ์กฐ์ฌ ๊ฐ์น๊ฐ ์์
โ Baseline system๊ณผ ๋น๊ต
- ์คํ ์ค ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ v3 system๊ณผ G-vector baseline system ๋น๊ต
- EER๊ณผ minDCF
- Baseline๋ณด๋ค ์งง์ duration์ ๋ํด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์
- ์๋์ ์ผ๋ก EER์ 4.2% ๊ฐ์ ํ์์ผ๋ฉฐ, minDCF๋ 7.2% ๊ฐ์ โ 1์ด task์์๋ ์๋์ EER 3.8% ํฅ์
- ์๊ฐ ์ ์ฝ์ผ๋ก FID loss๋ ์ต์ข
system์ ์ถ๊ฐํ์ง ์์์ผ๋ฉฐ hyper-parameter, loss weight($\alpha, \beta, \gamma, \lambda, \epsilon$)์ triplet margin $\Psi$์ ๋ํ ๋ฏธ์ธ์กฐ์ ์ด ์์์
- ์ ์ํ system์ ๊ฐ์ ๋ ์ฌ์ง๊ฐ ๋ง์ด ๋จ์์์
โ ค. Conclusion ๐
- ๋ณธ ๋ ผ๋ฌธ์์๋ WGAN์ ์ ์ฉ ํ์ฌ ๋ฐํ๊ฐ ์งง์ speaker verification application์ ํฅ์๋ embedding์ ์ฑ๊ณต์ ์ผ๋ก ํ์ต
- ์ ์๋ WGAN ๊ธฐ๋ฐ ์ปค๋ ์์คํ ๊ทธ๋ฆฌ๊ณ ๊ทธ ์์, GAN ํ๋ จ์์ ๋ง์ loss criteria์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆ
- ์ต์ข ์ ์ ์์คํ ์ ๋์ ์ ์ธ ์งง์ ์คํผ์ปค ๊ฒ์ฆ ์๋๋ฆฌ์ค์์ baseline system์ ๋ฅ๊ฐ
- ์ ๋ฐ์ ์ผ๋ก, ์๋นํ ์ง๋ณด์ ์ฐ๊ตฌ๊ฐ ์ง์ ๋๋ ์ ์ฌ์ ๋ฐฉํฅ์ ๋ณด์ฌ์ค