/images/profile/logo.png

Hi

Adapting Whisper for Streaming Speech Recognition via Two-Pass Decoding 번역

subject

Abstract

OpenAI Whisper는 680,000 시간 분량의 오디오로 학습된 강건한 ASR 모델이다. 하지만, sequence-to-sequence 목적함수로 학습된 encoder-decoder 아키텍처는 스트리밍 ASR에 대한 기본 지원이 부족하다. 본 논문에서는 Whisper를 WeNet 툴킷을 활용해 Unified Two-pass(U2) 구조를 도입하여 스트리밍 ASR에 맞게 파인튜닝하였다. 추가로 인과적 어텐션 마스크(causal attention mask)로 훈련된 Connectionist Temporal Classification (CTC) 디코더를 스트리밍 부분 전사를 생성하기 위해 도입하였으며, 기존의 Whisper 디코더는 이 부분 전사를 재정렬(rerank)한다. LibriSpeech 와 earning call 데이터셋에서 실험한 결과, 충분한 파인 튜닝 데이터를 제공하면, Whisper는 가용가능한 스트리밍 ASR 모델에 적응될 수 있음을 보여준다. 또한, 하이브리드 토크나이저 접근법을 도입했다. 이는 CTC 디코더에서 작은 토큰 공간을 사용하는 반면에 어텐션 디코더에는 Whisper의 원래 토공간을 사용한다. 결과적으로 데이터 효율성과 일반화 성능을 향상시켰다.

RT Whisper 최적화

개요

  • RT Whisper에서 토큰 그룹화와 선택하는 방법을 변경했다.
  • 하이퍼파라미터 분석과 최적화 알고리즘을 통해 파라미터를 순차적으로 최적화 했다.
  • LibriSpeechASRcorpus 데이터셋에서는 Whisper와 Whisper Streaming 보다 더 높은 정확도와 레이턴시를 확인할 수 있었다.
  • ESIC 데이터셋에서는 Whisper와 Whisper Streaming 보다 더 낮은 정확도, Whisper Streaming 보다 아주 조금 빠른 레이턴시를 확인할 수 있었다.

RT Whisper 토큰 그룹화 및 선택 알고리즘 변경

기존 검색 방법

단어의 그룹화는 현재 청크에서 추론된 단어를 기반으로 수행된다. 먼저 현재 추론된 단어와 이전 청크에서 추론된 단어의 Overlap 된 시간대에 추론된 단어를 결정한다. 이때는 단어의 시작 시간을 기준으로 결정되며, 실제 Overlap된 청크의 시작시간과 끝시간을 기준으로 단어의 시작 시간이 이 구간에 포함되면 Overlap된 단어로 간주된다. 이때, 단어의 타임스탬프는 부정확하므로 tolerance를 주어 시작 시간과 끝 시간을 조금 확장해준다.

Turning Whisper into Real-Time Transcription System 번역

subject

Abstract

Whisper은 다국어 음성 인식과 번역 모델에서 최신 SOTA 모델 중 하나이다. 하지만, 실시간 전사를 위해 설계된 것은 아니다. 본 논문에서, 우리는 Whisper을 기반으로 하여 Whisper-Streaming을 개발한다. 이것은 Whisper와 유사한 모델들에서 실시간 음성 전사 및 번역을 구연한다. Whisper-Streaming은 self-adaptive latency를 사용하는 local agreement 정책을 실시간 인식을 위해 사용한다. 우리는 Whisper-Streaming이 분할되어 있지 않은 긴 형태의 음성 인식 테스트 셋에서 높은 퀄리티와 3.3 초의 지연시간을 보이며, 다국어 회의의 실시간 전사 서비스의 한 요소로 견고함과 실용성을 입증하였다.