논문 링크: https://arxiv.org/abs/2006.04558
FastSpeech 2: Fast and High-Quality End-to-End Text to Speech
Non-autoregressive text to speech (TTS) models such as FastSpeech can synthesize speech significantly faster than previous autoregressive models with comparable quality. The training of FastSpeech model relies on an autoregressive teacher model for duratio
arxiv.org
1. 서론
1.1 논문 선정 이유
FastSpeech 2는 기존 FastSpeech의 한계를 극복하고, 더욱 높은 음질과 자연스러운 Prosody(억양)를 제공하기 위해 개발된 TTS(Text-to-Speech) 모델이다. 본 논문 리뷰에서는 FastSpeech 2의 핵심 아이디어와 방법론을 분석하고, 실험 결과 및 연구의 장단점을 살펴보고자 한다.
2. 논문 요약
2.1 논문 제목 및 저자 정보
- 제목: FastSpeech 2: Fast and High-Quality End-to-End Text to Speech
- 저자: Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu
- 출처: ICLR 2021
2.2 연구 배경 및 목적
FastSpeech 1은 Non-Autoregressive 방식을 도입하여 속도를 개선했지만, Prosody(억양 및 강세) 조절이 제한적이고, Tacotron 2의 Attention 정보를 사용한 길이 예측 방식이 최적이 아니라는 문제가 있었다. 뿐만 아니라 FastSpeech 1은 세부적인 표현 능력이 비교적 부족하였고, 품질 최적화가 쉽지 않았다.
FastSpeech 2는 이를 해결하기 위해 Pitch(기본 주파수), Energy(음성 에너지) 예측 모듈을 추가하고, 데이터 기반 Duration 모델링을 도입하여 더욱 자연스러운 음성을 합성하는 것을 목표로 한다.
3. 핵심 내용 분석
3.1 방법론
FastSpeech 2는 FastSpeech의 한계를 극복하기 위해 다음과 같은 주요 개선점을 도입하였다.
- Pitch(기본 주파수) 및 Energy 예측 모듈 추가
- 음성의 억양과 강세를 보다 세밀하게 조절하기 위해 Pitch(F0)와 Energy를 예측하는 모듈을 추가하였다.
- 이를 통해 감정 표현 및 자연스러운 Prosody가 가능해졌다.
- Pitch는 예측이 어려운 중요한 요소로, Continuous Wavelet Transform을 활용하여 이를 정확하게 예측할 수 있도록 개선하였다.
- 데이터 기반 Duration 모델링
- FastSpeech 1은 Tacotron 2의 Attention 정보를 사용하여 길이를 예측했지만, FastSpeech 2는 음성 데이터에서 직접 Duration 정보를 추출하여 더욱 정교한 길이 예측을 수행한다.
- 이를 통해 Autoregressive 모델 대비 자연스러운 음성 길이를 유지할 수 있다.
- End-to-End 학습 가능
- FastSpeech 2는 Mel-Spectrogram을 생성하는 것뿐만 아니라, 음성을 직접 출력하는 Vocoder를 통합하여 End-to-End 학습이 가능하다.
- 이를 통해 TTS 시스템의 구현이 더욱 간결해지고 효율성이 향상되었다.
- Teacher-Student Distillation
- Teacher-Student Distillation에서는 데이터 단순화로 인한 정보 손실을 방지하기 위해, teacher의 출력 대신 ground-truth target으로 FastSpeech 2를 직접 학습시켜 더 정확한 학습이 가능하고, 정보 손실을 최소화할 수 있다.
- FastSpeech 2s 제시
- 음성 합성을 단순화하기 위해, mel-spectrogram을 중간 출력으로 사용하지 않고, text에서 직접 음성을 생성하는 FastSpeech 2s 모델을 제시하였다.
- 이 모델은 멜 스펙트로그램을 중간 출력 없이 바로 음성을 생성함으로써 음성 합성의 복잡성을 줄이고 효율성을 높였다.
FastSpeech 2의 모델 구조를 구성하는 주요 모듈은 다음과 같다.
The overall architecture for FastSpeech 2 and 2s. LR in subfigure (b) denotes the length regulator proposed in FastSpeech. LN in subfigure (c) denotes layer normalization.
(a) FastSpeech 2
FastSpeech 2는 FastSpeech 1의 한계를 개선한 비자동회귀(Non-Autoregressive) 음성 합성 모델이다.
- FastSpeech 1과 동일한 Feed-Forward Transformer (FFT) 기반 구조를 사용하지만, 추가적인 Prosody 정보를 학습하여 더욱 자연스러운 음성을 생성한다.
- Variance Adaptor를 도입하여 Pitch, Energy, Duration을 조정할 수 있도록 개선하였다.
- Attention 기반 길이 예측 방식 대신 데이터 기반 Duration 모델링을 사용하여 발화 길이를 더 정확하게 예측한다.
(b) Variance Adaptor
Variance Adaptor는 발화의 Prosody(억양, 강세 등)를 조절하는 모듈이다.
- Pitch Predictor: 기본 주파수(F0)를 예측하여 억양(intonation)을 조절한다. 예) 어린아이 목소리, 어른 목소리 등
- Energy Predictor: 음성 에너지를 조절하여 발화 강도를 조정한다. 예) 소리의 강약(볼륨)
- Duration Predictor: 음소의 지속 시간을 예측하여 발화 속도를 조절한다. 예) 말의 속도
참고로 여기서 Pitch Predictor와 Energy Predictor는 FastSpeech 1에 없었던 새로 추가된 모듈이다. 이 세 모듈을 통해 FastSpeech 2는 더 자연스럽고 다양한 스타일의 음성을 합성할 수 있다.
(c) Duration/Pitch/Energy Predictor
FastSpeech 2는 각각의 Prosody 요소를 별도로 예측하는 3개의 예측기를 포함한다.
- Duration Predictor: 음소별 지속 시간을 예측하여 Length Regulator에 입력한다.
- Pitch Predictor: 음소별로 기본 주파수(F0)를 예측하여 억양을 조절한다.
- Energy Predictor: 음성의 에너지를 조절하여 감정 표현과 발화 강도를 조정한다.
이 세 가지 요소를 활용하여 FastSpeech 2는 보다 자연스럽고 감정 표현이 풍부한 음성을 생성할 수 있다.
(d) Waveform Decoder
Waveform Decoder는 합성된 음향 특성을 실제 음성 신호(Waveform)로 변환하는 역할을 한다.
- FastSpeech 2는 별도의 신경망 기반 보코더(Neural Vocoder)를 사용하여 Waveform을 생성한다.
- Tacotron 2와 마찬가지로 WaveGlow, Parallel WaveGAN, HiFi-GAN 등의 보코더와 결합하여 음성을 합성한다.
- Waveform Decoder의 성능에 따라 최종 음질이 결정되며, 최신 신경망 보코더를 활용하면 더 자연스러운 음성을 생성할 수 있다.
FastSpeech 2는 이러한 개선을 통해 FastSpeech 1보다 Prosody 조절이 자유롭고, 더 자연스러운 음성을 합성할 수 있도록 최적화되었다.
3.2 실험 결과
FastSpeech 2는 FastSpeech와 비교하여 3.12배의 학습 속도 향상을 보이며, Transformer TTS와 비교하였을 때도 FastSpeech 2, 2s는 각각 47.8, 51.8배의 오디오 생성 속도 향상을 보이고 있다. FastSpeech 2s는 end-to-end 방식을 사용하기 때문에 FastSpeech 2보다 빠르다.
FastSpeech 2와 2s에서 생성된 오디오의 Pitch(기본 주파수)와 ground-truth pitch(실제 정답 pitch) 사이의 평균 DTW 거리(Dynamic Time Warping distance)가 더 작다는 것은, 모델이 생성한 Pitch가 실제 정답에 더 가까운 값임을 의미한다. 즉, FastSpeech 2와 2s는 Pitch 예측이 더 정확하고, 그 차이가 적다는 것을 보여준다.
Table 6은 Pitch와 Energy Input에 대한 ablation 테스트 결과이다. 여기서 FastSpeech 2, 2s에서 각각 Energy를 제거하는 경우와 Pitch를 제거하는 경우 -0.245, -1.130의 CMOS 저하가 발생하였다는 결과를 보여주고 있다. Pitch와 Energy를 모두 제거하는 경우도 현저한 품질 저하가 발생한다는 점을 시사하며 Pitch와 Energy가 중요한 요소라는 점을 환기하고 있다.
위 실험 결과들에 대해 정리하자면 다음과 같다.
- FastSpeech 2는 FastSpeech 1과 비교하여 MOS(Mean Opinion Score) 평가에서 음질이 향상되었음을 확인하였다.
- Tacotron 2보다 inference 속도가 훨씬 빠르면서도, 유사한 수준의 음질을 제공한다.
- Pitch 및 Energy 예측을 도입함으로써, 보다 다양한 스타일의 음성 합성이 가능해졌다.
3.3 결론
FastSpeech 2는 FastSpeech 1의 단점을 보완하여, 속도와 음질을 동시에 향상시킨 모델이다. 실험 결과에서도 Prosody의 자연스러움이 개선되었으며, 더욱 다양한 스타일의 음성 합성이 가능해졌다. 이를 통해 실제 TTS 응용에서 활용될 가능성이 더욱 높아졌다.
4. 장점과 한계
4.1 연구의 장점
- Autoregressive 모델보다 빠른 속도를 유지하면서도, 더욱 자연스러운 음성을 생성할 수 있다.
- Pitch 및 Energy 예측 모듈을 추가하여 Prosody 조절이 가능해졌다.
- end-to-end 학습이 가능하여 TTS 시스템의 구현이 간편해졌다.
4.2 연구의 한계와 개선 가능성
추가적인 연구를 통해 아래 부분에 대한 개선이 가능할 것으로 기대된다.
- 감정 표현의 정밀한 조절은 아직 부족하며, 더욱 세밀한 컨트롤이 필요
- 일부 경우에서 여전히 Tacotron 2 대비 음질이 약간 떨어짐
- Prosody의 자연스러움을 개선
5. 관련 연구 및 응용
5.1 관련 연구 비교
- Tacotron 2 (2018): 자연스러운 음성을 합성할 수 있지만, 속도가 느리고 inference 과정에서 오류가 누적될 수 있다.
- FastSpeech 1 (2019): 속도가 빠르지만, Prosody 조절이 제한적이었다.
- FastSpeech 2 (2021): FastSpeech 1의 단점을 보완하여 더욱 자연스러운 음성을 합성할 수 있도록 개선되었다.
5.2 실질적 응용 가능성
- FastSpeech 2는 실시간 TTS 시스템에 적합하여 음성 비서, 내비게이션, 오디오북 등 다양한 서비스에 활용될 수 있다.
- Edge Device에서도 효율적으로 동작할 수 있어, 모바일 기기나 IoT 환경에서도 사용될 가능성이 크다.
- 향후 감정 표현 및 스타일 조절 기능이 강화된다면, 더욱 폭넓은 음성 합성 응용이 가능할 것으로 기대된다.
결론
FastSpeech 2는 기존 FastSpeech 모델의 한계를 개선하여, 속도와 음질을 동시에 향상시킨 중요한 연구이다. 특히 Pitch 및 Energy 예측을 통해 Prosody의 자연스러움을 개선하였으며, 이를 통해 실질적인 TTS 응용에서 더욱 강력한 성능을 발휘할 것으로 기대된다. 향후 연구를 통해 감정 표현 및 스타일 컨트롤이 더욱 정교해진다면, 실시간 음성 합성 분야에서 핵심적인 기술로 자리 잡을 가능성이 크다.
Appendix(추가 참고 문헌 등)
FastSpeech 1:
2025.03.29 - [Literature Review] - [논문 리뷰] FastSpeech: Fast, Robust and Controllable Text to Speech
DTW:
2022.02.09 - [Data Science/Statistics] - [Python] 길이가 다른 데이터 유사도 측정을 위한 DTW(Dynamic Time Warping)
https://randomsampling.tistory.com/38