- ๐ Abstract
- โ . Introduction
- โ ก. Baseline Architecture
- โ ข. Attention-based Model
- โ ฃ. Experiments
- โ ค. Conclusion
F A Rezaur Rahman Chowdhury, Quan Wang, Ignacio Lopez Moreno, Li Wan
๐ Abstract
- Attention ๊ธฐ๋ฐ ๋ชจ๋ธ : ์ ๋ ฅ sequence์ ์ ์ฒด ๊ธธ์ด๋ฅผ ์์ฝํ ์ ์๋ ๋ฅ๋ ฅ
- ์์ฑ ์ธ์, ๊ธฐ๊ณ ๋ฒ์ญ, ์ด๋ฏธ์ง ์บก์ ๊ณผ ๊ฐ์ ๋ค์ํ ๊ณณ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์
- End-to-End Text-dependent ํ์ ์ธ์ ์์คํ ์์ attention mechanism ์ฌ์ฉ์ ๋ถ์
- ๋ค์ํ attention layer์ ๋ณํ์ ์ฐ๊ตฌํ๊ณ attention weight์ ๋ํ ๋ค์ํ pooling๋ฐฉ๋ฒ์ ๋น๊ต
- Attention mechanism์ ์ฌ์ฉํ์ง ์์ LSTM๊ณผ ์ฑ๋ฅ ๋น๊ต
โ . Introduction
โ Global Password Text-dependent Speaker Verification(SV) ์์คํ
- ๋ฑ๋ก ๋ฐ ํ ์คํธ ๋ฐํ๊ฐ ํน์ ๋จ์ด๋ก ์ ํ (Text-dependent)
- โOk-Googleโ๊ณผ โHey Googleโ ์ฌ์ฉ ( Global password)
โ ํ์ฌ ๊ฐ์ฅ ๋ง์ด ์ ๊ทผํ๊ณ ์๋ ํ๋ จ ๋ฐฉ๋ฒ
- ๋ฑ๋ก ๋ฐ ํ ์คํธํ๋ ๋จ๊ณ๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๋ End-to-End ๊ตฌ์กฐ
- [6]๋ ผ๋ฌธ โi-vector+PLDA ์์คํ ์ ๊ทธ๋๋ก ๋ชจ๋ฐฉํ ๊ตฌ์กฐโ์ ๊ฒฝ์ฐ, ๋ ๋์ ์ฑ๋ฅ์ ์ํด ๋ชจ๋ธ์ ๊ท์ ํ์์ผ๋ ์ด๊ธฐํ๋ฅผ ์ํด ๊ธฐ์กด์ i-vector์ PLDA ๋ชจ๋ธ์ด ํ์
- [7] ๋ ผ๋ฌธ, TD-SV task์์ LSTM ๋คํธ์ํฌ๊ฐ ๊ธฐ์กด End-to-End DNN๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค
โ์ด์ ๋ ผ๋ฌธ์์์ ๋ฌธ์ ์
- ๋ฌต์๊ณผ ๋ฐฐ๊ฒฝ ์ก์์ด ๋ง์ด ์์
- ๋ณธ ๋ ผ๋ฌธ์์๋ keyword ๊ฒ์ถ์ ์ํด ๋ถํ ๋ 800ms์ ์งง์ frame์ด์ง๋ง, ๋ฌต์๊ณผ ์ก์์ด ์์
โ์ด์์ ์ธ Embedding ์์ฑ
- ์์์ ํด๋นํ๋ frame์ ์ฌ์ฉํ์ฌ ์ ์
- ์ ๋ ฅ sequence ์ค ๊ด๋ จ์ฑ์ด ๋์ ์์๋ฅผ ๊ฐ์กฐํ๊ธฐ ์ํด attention layer ์ฌ์ฉ
โ ก. Baseline Architecture
TE2E model
โ baseline end-to-end training architecture
- ํ๋ จ ๋จ๊ณ์์, ํ๋์ ํ๊ฐ์ฉ ๋ฐํ ๐๐~์ N๊ฐ์ ๋ฑ๋ก ๋ฐํ ๐๐๐ (๐๐๐ ๐=1, โฆ, ๐) tuple์ด LSTM network์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ
${x_{j\tilde{}}, (x_{k_1}, โฆ, x_{k_N})}$ ; input
$x$ : ๊ณ ์ ๊ธธ์ด์ log-mel fiterbank feature
$j, k$ : ๋ฐํํ ํ์ ($j$์ $k$๋ ๊ฐ์ ์ ์์)
๋ง์ฝ $x_{j\tilde{}}$์ $M$ ๊ฐ์ ๋ฑ๋ก ๋ฐํ๊ฐ ๊ฐ์ ํ์๋ผ๋ฉด tuple positive $(j=k)$, ๋ค๋ฅด๋ฉด negative
- โ๐ก : t๋ฒ์งธ frame์์ LSTM์ ๋ง์ง๋ง layer์ ์ถ๋ ฅ ( ๊ณ ์ ์ฐจ์์ vector )
- ๋ง์ง๋ง frame์ output์ d-vector ๐ (โ๐) ๋ก ์ ์
${\omega(j\tilde{}), (\omega(k_1), โฆ, \omega(k_N))}$ ; output
Tuple $(\omega(k_1), โฆ, \omega(k_N))$์ ํ๊ท ๋ด์ด centroid ๊ณ์ฐ
โ Cosine Similarity Function ์ ์
โ Loss Function ์ ์
โ ข. Attention-based Model
3.1 Basic attention layer
โ Baseline system๊ณผ ์ฐจ์ด์
- ๋ง์ง๋ง frame์ ์ถ๋ ฅ์ d-vector(๐)๋ก ์ง์ ์ฌ์ฉ
- Attention layer๋ ๊ฐ t frame ์์์ LSTM ์ถ๋ ฅ โ๐ก์ ๋ํ ์ค์นผ๋ผ ์ ์ ๐๐ก ๋ฅผ ํ๋ จํ์ฌ weighted sumํ ๊ฒฐ๊ณผ๋ก d-vector(๐) ์ ์
- Normalized weight ๐ผ๐ก์ weighted sumํ ๊ฒฐ๊ณผ d-vector๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์
- aritecture๋ก ๋ณด๋ ์ฐจ์ด์
3.2 Scoring functions
- Bias-only attention ์ฌ๊ธฐ์ b๐ก๋ scalar. LSTM ์ถ๋ ฅ h๐ก์ ์์กดํ์ง ์์.
- Linear attention ์ฌ๊ธฐ์ w๐ก๋ m์ฐจ์ vector, b๐ก๋ scalar. frame๋ง๋ค ๋ค๋ฅธ parameter๊ฐ ์ฌ์ฉ
- Shared-parameter linear attention ๋ชจ๋ frame์ ๋ํด m์ฐจ์ vector w์ scalar b๊ฐ ๋์ผํ๊ฒ ์ฌ์ฉ
- Non-linear attention ์ฌ๊ธฐ์ ๐พ๐๋ mโ X m matrix, ๐๐ก์ ๐ฏ๐ก๋ mโ์ฐจ์์ vector(์ฐจ์ mโ์ ํ๋ จ ๋ฐ์ดํฐ ์ ์์ ์กฐ์ )
- Shared-parameter non-linear attention ๋ชจ๋ ํ๋ ์์ ๋ํด ๋์ผํ parameter ๐, ๐, ๐ฏ ๋ฅผ ๊ณต์
3.3 Attention layer variants
- ๊ธฐ๋ณธ์ ์ธ attention layer์ ๋ฌ๋ฆฌ ๋๊ฐ์ง์ ๋ณํ๋ ๊ธฐ๋ฒ Cross-layer attention์ Divided-layer attention ์๊ฐ
โ Cross-layer attention
- ๊ธฐ์กด์ ๋ฐฉ๋ฒ : ๋ง์ง๋ง LSTM์ layer์ ์ถ๋ ฅ h๐ก (1โค๐กโค๐)๋ฅผ ์ฌ์ฉํ์ฌ score e๐ก์ weight ฮฑ๐ก๋ฅผ ๊ณ์ฐ
- ๋ณํ๋ ๋ฐฉ๋ฒ : ์ค๊ฐ LSTM layer์ ์ถ๋ ฅ hโ๐ก(1โค๐กโค๐)์ผ๋ก ๊ณ์ฐ (๊ทธ๋ฆผ 3.(a) output์์ ๋ง์ง๋ง 2๋ฒ์งธ layer๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ)
- d-vector ๐๋ ์ฌ์ ํ ๋ง์ง๋ง layer ์ถ๋ ฅ h๐ก์ weighted sum์ผ๋ก ๊ณ์ฐ
โ Divided-layer attention
- ๋ง์ง๋ง LSTM layer์ ์ถ๋ ฅ h๐ก์ ์ฐจ์์ 2๋ฐฐ๋ก ๋๋ฆฌ๊ณ ๊ทธ ์ฐจ์์ part a์ part b ๋ ๋ถ๋ถ์ผ๋ก ๊ท ๋ฑํ๊ฒ ๋๋
- part b๋ฅผ ์ฌ์ฉํ์ฌ weight๋ฅผ ๊ณ์ฐํ๊ณ , ๋๋จธ์ง part a์ weighted sumํ์ฌ d-vector ์์ฑ
3.4 Weights pooling
โ Basic attention layer์ ๋ ๋ค๋ฅธ ๋ณํ
- LSTM์ output โ๋ฅผ averageํ๊ธฐ ์ํด normalized weight ๐ผ๐ก ๋ฅผ ์ง์ ์ฌ์ฉํ์ง ์๊ณ , maxpooling์ผ๋ก ์ ํ์ ์ผ๋ก ์ฌ์ฉ
โ ๋ ๊ฐ์ง maxpooling ๋ฐฉ๋ฒ ์ฌ์ฉ
- Sliding Window maxpooling : Sliding window์์ weight ์ค ํฐ ๊ฐ๋ง ๋๊ณ , ๋๋จธ์ง๋ 0์ผ๋ก ๋ง๋ฆ
- Global top-K maxpooling : ๊ฐ์ฅ ํฐ K๊ฐ์ ๊ฐ๋ง ๋๊ณ , ๋๋จธ์ง๋ 0์ผ๋ก ๋ง๋ฆ
t๋ฒ์งธ pixel : ๊ฐ์ค์น $\alpha_t$
๋ฐ์ ์๋ก ๊ฐ์ค์น๊ฐ ํฐ ๊ฐ์ ์๋ฏธ
โ ฃ. Experiments
4.1 Datasets and basic setup
โ ์ฌ์ฉํ Dataset
- โOk Googleโ๊ณผ โHey Googleโ์ด ํผํฉ๋ ๋ฐํ ๋ฐ์ดํฐ
- ์ฝ 630K ํ์๊ฐ 150M ๋ฐํ (ํ ์คํธ ๋ฐ์ดํฐ : 665๋ช ํ์)
- ํ๊ท ์ ์ผ๋ก enrollment๋ 4.5๊ฐ, evaluation์ 10๊ฐ์ ๋ฐํ๋ก ๊ตฌ์ฑ
โ Basic setup
- ๊ธฐ๋ณธ baseline์ 3๊ฐ์ layer๋ก ์ด๋ฃจ์ด์ง LSTM
- ๊ฐ layer๋ 128์ฐจ์์ด๋ฉฐ, 64์ฐจ์์ผ๋ก projectionํ๋ linear layer๋ฅผ ๊ฐ์ง๊ณ ์์
- Global password๋ง ํฌํจํ๋ ๊ธธ์ด T=80 frame(800ms)์ ์ธ๊ทธ๋จผํธ๋ก ๋ถ๋ฆฌํ๋ keyword detection ํ 40์ฐจ์์ log-mel-filterbank feature ์์ฑ
- MultiReader๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ๋ ๊ฐ์ keyword๋ฅผ ํผํฉํ์ฌ ์ฌ์ฉ
4.2 Basic attention layer
- ๋ค์ํ ์ ์ ๊ณ์ฐ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ Basic attention layer๊ณผ ๋น๊ต
- Bias-only์ linear attention์ EER์ด ๊ฑฐ์ ๊ฐ์ ๋์ง ์์
- Non-linear ์ค ํนํ, shared-parameter์ ๊ฒฝ์ฐ ์ฑ๋ฅ ํฅ์์ด ์์
4.3 Variants
- Basic attention layer์ ๋ ๊ฐ์ง ๋ณํ(cross-layer, divided-layer) ๋น๊ต
- ์ด์ ์คํ์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ธ shared-parameter non-linear scoring function์ ์ฌ์ฉ
- cross-layer๋ ๋ง์ง๋ง์์ 2๋ฒ์งธ layer์์ score๋ฅผ ํ๋ จ
- divided-layer attention์ด ๋ง์ง๋ง LSTM layer์ ์ฐจ์์ด 2๋ฐฐ์ด์ง๋ง, Basic attention๊ณผ cross-layer attention๋ณด๋ค ์ฝ๊ฐ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์
4.4 Weights pooling
- Attention weight๋ฅผ ๋ค์ํ pooling๋ฐฉ๋ฒ์ผ๋ก ์ฌ์ฉํ ๊ฒ๊ณผ ๋น๊ต
- Shared-parameter non-linear scoring function๊ณผ divided-layer attention ์ฌ์ฉ
- Sliding window maxpooling : 10 frame window size์ 5 frame step size
- Global top-K maxpooling : K = 5
- Sliding window maxpooling์ด EER์ด ์ฝ๊ฐ ๋ ๋ฎ์ ๊ฒ์ ํ์ธ
โ ๊ฐ ๋ฐฉ๋ฒ์์ attention weight๋ฅผ visualization
- Pooling์ด ์์ ๋, 4์์(O-kay-Goo-gle) ๋๋ 3์์(Hey-Goo-gle) ํจํด์ ํ์ธ
- Pooling์ ์ฌ์ฉํจ์ผ๋ก์จ ์์๋ถ๋ถ ๋ณด๋ค๋ ๋๋ถ๋ถ์ ๋ฐํ๊ฐ ๋ ํฐ attention weight๋ฅผ ๊ฐ์ง
- LSTM์ ์ด์ ์ํ ๊ฐ์ ๋์ ํ์ฌ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ๋ง์ง๋ง์ผ๋ก ๊ฐ์๋ก ๋ ๋ง์ ์ ๋ณด๋ฅผ ๊ฐ์ง์ผ๋ก์จ ๋์ค๊ฒ ๋๋ ํ์์ผ๋ก ํ๋จ
โ ค. Conclusion
-
๋ณธ ๋ ผ๋ฌธ์์๋ keyword ๊ธฐ๋ฐ์ Text-dependent ํ์ ๊ฒ์ฆ ์์คํ ์ ์ํ ๋ค์ํ Attention mechanism์ ์คํ
- ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ
- shared-parameter non-linear scoring function ์ฌ์ฉ
- LSTM์ ๋ง์ง๋ง layer์ divided-layer attention ์ฌ์ฉ
- Sliding window maxpooling์ attention weight์ ์ ์ฉ
-
์์ 3๊ฐ์ง๋ฅผ ๊ฒฐํฉํ์์ ๋ ๊ธฐ๋ณธ LSTM๋ชจ๋ธ EER 1.72%์์ 14%์ ์๋์ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ด
- ๋์ผํ attention mechanism(ํนํ, shared-parameter scoring function)์ Text-independentํ ํ์ ๊ฒ์ฆ ๋ฐ ํ์ ์๋ณ์ ๊ฐ์ ํ๊ธฐ ์ํด ์ฌ์ฉ๋ ์ ์์