ASR Error Correction using Large Language Models

建立:2026-05-16 · 最後編輯:2026-05-23

2409.09554v2_dual.pdf 

在未見過的數據中(少用的字、特殊領域的專有名詞),辨識準確率遇到了困難。

提出了 3 種方法:

  1. 透過 N-best 進行錯字的修復。
  2. Fine Tune T5 模型,以監督式的方式進行錯字處理。
  3. 使用 LLM(這裡是 ChatGPT)進行修正,提供 N-best 選項,讓 LLM 進行修正。

 

4 種 decoding 的策略:

  1. Unconstrained decoding 由 EC[1] Model 自由生成,可以不需要符合 N-best 的任何選項,可能會造成亂改、亂產生的問題。
  2. N-best constrained decoding,從 N-best 內選擇評分最高的。
  3. 結合 1 和 2,先讓 EC Model 自由產生,再透過 Levenshtein distance 比對看最符合哪一個 N-best 的選項。
  4. 透過原始的 ASR 提供 Lattice Graph[2] ,再由 EC Model 從路徑中自行組出句子。

 

實驗 ASR 採用:

  1. Conformer-Transducer
  2. Whisper

 

論文實驗結果:

論文結論:

N-best 加上 LLM Error Correction 是可以提高準確率的後處理方式

 

  1. ^

    Error Correction

     

    此論文使用的是 Fine-tune 後的 T5 和 ChatGPT(GPT-3.5, GPT-4)

  2. ^

    將每個字以以 Graph 的方式組合,可以透過不同的路徑組成不同的句子(相比 N-best 只提供 N 個選項的句子會有更多的可能性),需要 ASR 是開源可以控制的才能進行設定