기록하는삶
[논문 리뷰] Qwen3-ASR 본문
728x90
반응형
1. 한 줄 핵심 요약
52개 언어를 지원하며 단일 아키텍처로 스트리밍과 오프라인 추론을 모두 완벽하게 소화하는 고효율 오픈소스 음성 인식(STT) 및 강제 정렬(Forced Alignment) 모델. STT는 1.7B와 0.6B 모델, Forced aligner는 0.6B 모델 공개.
2. 연구 배경 및 문제 정의
- 상용 API와의 성능 격차: 기존 오픈소스 ASR(자동 음성 인식) 모델들은 강력한 상용 서비스(API)에 비해 다국어 처리나 복잡한 환경(노이즈, 노래 등)에서의 인식률이 부족
- 스트리밍/오프라인 아키텍처의 파편화: 실시간(Streaming) 서비스와 대용량 오프라인 처리를 위해 보통 구조가 다른 별개의 모델을 운용해야 하는 번거로움이 존재 << 매우 공감하는 부분
- 타임스탬프 추출의 한계: 정밀한 텍스트-음성 동기화에 필수적인 '강제 정렬(Forced Alignment)' 모델 중, 다국어를 빠르고 정확하게 지원하는 통합 솔루션이 부재
3. Contributions
- SOTA급 다국어 모델 공개: 52개 언어와 방언을 지원하며 Whisper large-v3를 능가하는 1.7B 모델과, 효율성에 극대화된 0.6B 모델을 Apache 2.0 라이선스로 오픈소스화.
- 스트리밍/오프라인 통합: 동적 윈도우 크기를 조절하는 메커니즘을 통해 하나의 모델로 짧은 실시간 청크부터 최대 20분에 달하는 긴 오디오까지 유연하게 처리.
- NAR 기반 강제 정렬 모델 제안: 기존의 Auto-regressive 방식이 아닌 Non-Autoregressive(NAR) 방식으로 빠르고 정확하게 단어/문장 단위 타임스탬프를 예측하는 Qwen3-ForcedAligner-0.6B 최초 공개 → forced aligner 쪽은 대충 봤는데, 기존의 Montreal Forced Aligner를 사용해 pseudo-labeling하고, 몇 가지 학습 기법을 적용해 정확도를 끌어 올렸다고 한다.
사실 근데 이건 별 기대 안되고.. 커뮤니티 반응도 좀 봤었는데 그냥 그렇다는 글을 몇 개 봤었다. 하지만 그 필요성과 잘 연구 안해주는 분야인데 공개하준 것에 감사하다.
4. 방법론 / 아키텍처
- AuT (Audio Transformer) 인코더 (~300M): 128차원의 Fbank(Mel-spectrogram 기반) 특징을 입력받아 8배 다운샘플링하여 12.5Hz 주기로 표현 공간을 압축한다. 핵심은 동적 윈도우(1~8초)가 적용된 FlashAttention으로, 이를 통해 컨텍스트 길이에 구애받지 않고 유연하게 작동한다. → ASR로 사전 학습된 인코더를 가져온다. 무려 40million.. / next kaldi인 K2 쪽에서도 관련 기법을 보았었다. 실시간 모델을 따로 두지 않고 통합하는 시도가 맞는 방향이다.
- Qwen3-Omni 기반 백본: Qwen3-Omni 사전 학습 모델을 기반으로 하여 풍부한 언어 이해 능력을 ASR 태스크에 그대로 이식했다. 이미지, 오디오, 텍스트 input을 받을 수 있는 멀티모달 기반으로 3 trillion 토큰을 사전학습을 한 뒤, ASR에 맞게 finetuning 되었다고 한다.
- ASR supervised finetuning: (Omni 기반이다보니) Instruction-following)을 억제하는 스타일 전이(Style Transfer) 학습, 묵음에 강인하도록 별도 학습

- Reinforcement Learning: GSPO(Group Sequence Policy Optimization)를 적용했다고 하는데, 이는 따로 읽어봐야 할 것 같다. 쨌든 강화학습을 통해 잡음에 대한 강인성, 방언 등 어려운 발음에 대한 인식률을 끌어올렸다고 한다.

5. 실험 설계 및 결과
- 평가 지표: 내부 및 다수의 오픈 벤치마크 데이터셋 사용, TTFT(Time-to-First-Token), Throughput(처리량), Alignment Shift(정렬 오차).
- 실험 결과:
- 1.7B 모델: 오픈소스 최고 수준의 정확도(SOTA) 달성 및 주요 상용 API와 대등한 성능 → 한국어 체감 성능 매우 훌륭
- 0.6B 모델 (효율성): 평균 TTFT 92ms 달성. 동시 요청(Concurrency) 128 기준, 1초의 연산 시간으로 2,000초 분량의 음성을 전사하는 놀라운 처리량을 입증
- 강제 정렬 모델: 기존 강제 정렬 모델들 대비 타임스탬프 오차율(Shift)을 67~77% 감소

6. 후기
- whisper야 안녕: 실시간과 배치를 모두 고려한 모델을 만들었다는 점, LLM 백본을 사용해 문맥에 강점이 있는 것, 동시처리면에서 압도적인 성능을 보이고, vllm으로 추론이 가능하다는 점, large-v3가 뭔가 맛이 가고.. finetuning 시에 오히려 성능이 떨어지고 할루시네이션이 심해진다는 점(나만의 경험이 아니라 다수의 의견임을 최근에 확인했다) 등을 고려할 때, whisper의 시대가 가버린 것 같다. 실제 보유한 벤치마크 성능도, 체감 성능도 whisper보다 좋았다.
- 직접 finetuning도 해보고 추론해본 결과, 할루시네이션에 특별히 강점이 있는지는 잘 모르겠다. whisper 대비 나은 것은 맞지만, 잡음이나 babble 등에 약한 것은 어쩔 수가 없다.
- 공개된 것처럼 vllm 기반 추론 + 동시처리 성능은 압도적이다. 다만 내가 구현할 때 기준으로 실시간 알고리즘은 공개했다고는 하지만 그냥 앞에서부터 누적하면서 반복 추론하는 불쉿코드가 공개된 상태였기 때문에, 직접 실시간에 가까운 windowing 추론을 구현해야했다. RTF도 정말 말도 안되는 수준이라, 웬만한 배치 추론은 벌써? 하는 시점에 결과가 나와있다.
- TTFT 직접 측정해봐도 120ms 수준이었다. (1.7B 모델) 부하를 걸면 점진적으로 증가하긴 하지만, 매우 안정적인 편이다. 특정 지점까지는 거의 변화가 없었다.
- cross-lingual / code switching도 꽤 잘 되는 편이다. finetuning 하면 이 부분이 희석될 수 있다고 생각하는데, 어떻게 해야 성능을 유지 또는 보완할 수 있을지 고민이 필요하다.
- 스케일링이나 학습 기법의 규모가 너무 압도적이라.. 사실 뭐 우리나라가 따라갈 재간이 있나 싶다. 사용된 데이터의 양도 그렇고, 멀티모달리티 기반 백본 학습 후 finetuning, 거기에 강화학습까지.. 한국어 전용으로 학습한다고 해도, 여기에 finetuning 하는게 훨씬 나아보인다. 공개된 학습 데이터들의 전사 규칙이 일관되지 못한 것이 문제가 되는데, 적당히 큰 LLM에 프롬프트 잘 만들어서 ITN 시키면 어느 정도 학습에 용이한 형태의 데이터를 만들 수 있었다.
- 매우 최근에 공개된 프레임워크로, 최신 아키텍쳐를 지원하는 것도 강점이다.
- TO DO
- forced aligner 관련해 추가로 살펴보기
- 강화학습 관련 논문 보기 - 데이터 스케일링의 다음 단계로 RL은 이제 그냥 필수로 붙는 것 같다. 좀 더 많이 알아야 함.
'논문 스터디' 카테고리의 다른 글
| [논문 리뷰] Item-based Collaborative Filtering Recommendation Algorithms, 아이템 기반 협업 필터링 (0) | 2022.02.20 |
|---|