Adapting Whisper for Streaming Speech Recognition via Two-Pass Decoding 번역

Abstract
OpenAI Whisper는 680,000 시간 분량의 오디오로 학습된 강건한 ASR 모델이다. 하지만, sequence-to-sequence 목적함수로 학습된 encoder-decoder 아키텍처는 스트리밍 ASR에 대한 기본 지원이 부족하다. 본 논문에서는 Whisper를 WeNet 툴킷을 활용해 Unified Two-pass(U2) 구조를 도입하여 스트리밍 ASR에 맞게 파인튜닝하였다. 추가로 인과적 어텐션 마스크(causal attention mask)로 훈련된 Connectionist Temporal Classification (CTC) 디코더를 스트리밍 부분 전사를 생성하기 위해 도입하였으며, 기존의 Whisper 디코더는 이 부분 전사를 재정렬(rerank)한다. LibriSpeech 와 earning call 데이터셋에서 실험한 결과, 충분한 파인 튜닝 데이터를 제공하면, Whisper는 가용가능한 스트리밍 ASR 모델에 적응될 수 있음을 보여준다. 또한, 하이브리드 토크나이저 접근법을 도입했다. 이는 CTC 디코더에서 작은 토큰 공간을 사용하는 반면에 어텐션 디코더에는 Whisper의 원래 토공간을 사용한다. 결과적으로 데이터 효율성과 일반화 성능을 향상시켰다.