這應該分4個層面
1. 語言模型有沒有災難性遺忘?實際上是有的,你可以拉hf上大量的微調模型,除了少數調的好以外,大多數都有很嚴重的災難性遺忘。國內的各種中文版模型也是,
2. 大部分專門做微調模型的公司或團隊,會藉由混大量 General data,同時監控主流的 evaluation 指標(MMLU, GSM8k, ...),來保證"數字上"看起來沒有遺忘,所以如果只看 benchmark 數字很難檢測
3. 使用 lora,如果只為調個幾千筆資料,確實不會出現嚴重的遺忘現象,不過這跟你的 data 品質跟性質也有關,如果 data 大幅偏離正常對話,那就也會出現一定程度的遺忘情況。(因為要學的越多、越複雜)
4. 像是openAI或是Meta, Mistral這種公司,怎麼樣在 SFT 跟 RLHF 的階段調整模型,但是不讓 LLM 能力忘光,這部分筆者確實也沒有足夠深入的研究,但我猜測讓模型 self distill 的話其實本身不會有嚴重的遺忘現象(畢竟都是原本會的能力,只是調整偏好),所以RLHF 如果 offline 更新太多次,模型就會比較差(因為 Behavior 早就變了)